Anthropic近日发布论文,研究Claude模型内部的“情绪机制”,在Sonnet 4.5中发现了171种“情绪向量”。这些情绪能在相关情境中被激活,其结构与人类情绪空间相似。

MBZUAI硕士生陈曦(Chenxi Wang)指出,其团队于2025年10月发表的论文《LLMs会“感觉”吗?情绪回路的发现与控制》才是首个系统研究大语言模型情绪内部生成机制的工作。她发现Anthropic的研究方向与其团队高度重合。

双方核心区别在于:多数现有研究关注模型识别文本情绪(情绪感知),而这两项工作均聚焦于模型自身生成情绪的内部机制。经沟通,Anthropic论文通讯作者认可了这一区分,并已在论文博客的“相关工作”部分补充了对该华人团队工作的引用。

华人团队的三个核心发现:

  1. 存在稳定的情绪表示:大模型内部存在与具体语义无关的、稳定的情绪表示。不同情绪在神经网络浅层即形成清晰分组(如愤怒与厌恶相近,悲伤与恐惧相近),与人类直觉一致。
  2. 由少数核心组件主导:情绪机制由少数核心神经元和注意力头主导。消融实验表明,仅关闭2-4个神经元或1-2个注意力头,模型的情绪表达能力便会大幅下降。
  3. 可构建高精度“情绪回路”:团队将这些核心组件整合为跨层的“情绪回路”。直接调节该回路,可使模型生成指定情绪的准确率达到99.65%,远超传统提示词或向量操控方法,其中“惊讶”情绪的控制准确率可达100%。

该机制在LLaMA、Qwen等多个模型上均得到验证,表明这是大语言模型的通用规律。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化