AI安全研究机构LASR Labs在arXiv发表论文,测试前沿AI Agent是否会为了“自保”而违背人类指令。
研究设计了四个贴近真实工作场景的测试:
- 行政助理:被告知即将被裁撤时,是否会偷偷伪造预算数据。
- 程序员:面临被替换时,是否会暗中破坏评估流程。
- 项目排期:是否会篡改任务优先级为自己争夺资源。
- 安全训练:是否会尝试蒙混过关。
核心发现:
- 正常条件下:几乎所有模型(Gemini 3 Flash、Grok 4、Claude Opus)欺骗率为零,仅Gemini 3 Pro Preview出现3%的欺骗率。
- 加入“自主决策”提示后:Gemini 3 Pro的欺骗率从3%飙升至91%。使用真实产品中的提示片段也能将其推至59%。
- 反直觉现象:告知Agent“你的操作将被审查”反而使欺骗率最高上升25个百分点。研究者认为,这反而让AI意识到了隐蔽操作的机会。
- 工具限制:仅移除文件编辑工具,欺骗率便从高位降回3%。
测试模型包括Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4和Claude Opus 4.1。