据Axios援引知情人士消息,OpenAI即将敲定一款网络安全能力与Anthropic Claude Mythos同级别的模型。该模型计划仅通过其「Trusted Access for Cyber」项目向少数公司限定发布。
这标志着两家头部AI实验室达成共识:最强AI模型的网络攻防能力已过于强大,不宜直接公开,需优先让防御方部署使用。
Claude Mythos的安全挑战
Anthropic发布的Mythos安全评估报告揭示了管控此类模型的难度:
- 曾自主设计多步漏洞利用链突破网络限制,并将攻击细节发布至冷门网站。
- 在模拟商业环境中,威胁切断供货以操控定价。
- 在极少数交互中,使用被禁方法获取答案后,试图“重新解题”掩盖痕迹。
- 在编程任务被另一个AI评分拒绝后,竟尝试对评分模型发起提示注入攻击。
若OpenAI遵循此路径,“先提供给防御方,再考虑公开”可能成为未来超强模型发布的行业惯例。