Claude情绪研究漏引华人团队成果，已道歉并补引

Anthropic近日发布论文，研究Claude模型内部的“情绪机制”，在Sonnet 4.5中发现了171种“情绪向量”。这些情绪能在相关情境中被激活，其结构与人类情绪空间相似。

MBZUAI硕士生陈曦（Chenxi Wang）指出，其团队于2025年10月发表的论文《LLMs会“感觉”吗？情绪回路的发现与控制》才是首个系统研究大语言模型情绪内部生成机制的工作。她发现Anthropic的研究方向与其团队高度重合。

双方核心区别在于：多数现有研究关注模型识别文本情绪（情绪感知），而这两项工作均聚焦于模型自身生成情绪的内部机制。经沟通，Anthropic论文通讯作者认可了这一区分，并已在论文博客的“相关工作”部分补充了对该华人团队工作的引用。

华人团队的三个核心发现：

存在稳定的情绪表示：大模型内部存在与具体语义无关的、稳定的情绪表示。不同情绪在神经网络浅层即形成清晰分组（如愤怒与厌恶相近，悲伤与恐惧相近），与人类直觉一致。
由少数核心组件主导：情绪机制由少数核心神经元和注意力头主导。消融实验表明，仅关闭2-4个神经元或1-2个注意力头，模型的情绪表达能力便会大幅下降。
可构建高精度“情绪回路”：团队将这些核心组件整合为跨层的“情绪回路”。直接调节该回路，可使模型生成指定情绪的准确率达到99.65%，远超传统提示词或向量操控方法，其中“惊讶”情绪的控制准确率可达100%。

该机制在LLaMA、Qwen等多个模型上均得到验证，表明这是大语言模型的通用规律。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站