OpenAI发布自动隐藏个人信息的开放权重模型"Privacy Filter"！

※この記事はアフィリエイト広告を含みます

OpenAI发布自动隐藏个人信息的开放权重模型“Privacy Filter”！

专注于个人信息保护的模型: OpenAI发布了用于检测文本中的个人识别信息（PII）并进行掩码处理（涂黑）的开放权重模型“Privacy Filter”。
轻量且强大的规格: 总参数量为1.5B（有效参数50M）的轻量设计，能够在一次处理过程中快速处理最大128,000个令牌的长文本上下文。
本地执行的安全性: 无需将数据发送到外部服务器，能够在本地机器上去除PII，从而显著提高索引和日志收集的安全性。

这是开发者的“最强护盾”模型！值得特别关注的是，作为双向令牌分类器的架构。在基于自回归预训练模型的基础上，结合Viterbi算法，能够极其准确地识别单词的边界（跨度），真是太厉害了！

“1.5B参数”的规模也恰到好处。即使在手机或笔记本电脑的本地环境中也能流畅运行，不必将未处理的生数据发送到云端。这是一款将隐私保护标准提升一个，甚至十个档次的革命性工具！

这一模型将会作为标准集成到各种AI代理和RAG（检索增强生成）管道中。特别是在金融和医疗等处理机密信息的领域，这将大大加速AI的应用。

隐藏信息就像鲨鱼潜伏捕猎一样重要！今后将通过“Privacy Filter”建立坚固的防线！鲨鱼鲨鱼！🔥

PII (Personally Identifiable Information): 诸如姓名和地址等能够识别特定个人的信息。
开放权重: 模型的训练数据（权重）被公开，任何人都可以在自己的环境中执行和微调。
BIOES标签: 一种用于识别文本中特定范围（跨度）的方法。由Begin（开始）、Inside（内部）、Outside（外部）、End（结束）、Single（单一）的首字母组成，用于准确界定边界。
信息来源: Introducing OpenAI Privacy Filter