OpenAI 发布了开源模型 OpenAI Privacy Filter,专门用于检测和脱敏文本中的个人身份信息(PII)。
核心功能与性能
- 识别范围:可精准识别私人姓名、地址、电子邮件、电话号码、URL、日期、账号及密钥等八类敏感信息。
- 模型架构:采用双向令牌分类模型,拥有150亿总参数和5000万活跃参数。
- 处理能力:支持高达12.8万枚代币的上下文窗口。
- 准确度:在PII-Masking-300k基准测试中取得了96%的F1分数。
获取与使用
- 模型已根据 Apache 2.0 协议 在 Hugging Face 和 GitHub 上开源。
- 支持开发者进行本地部署和微调,便于集成到各类隐私保护应用中。