AI基础设施公司Ramp Labs发布研究成果“Latent Briefing”,通过直接压缩大语言模型的KV缓存,实现多智能体系统间的高效记忆共享,能在不损失准确率的前提下大幅降低Token消耗。

传统架构的瓶颈
主流多智能体架构中,编排者(Orchestrator)需反复调用工作者(Worker)模型,导致推理链路延长,Token用量呈指数级膨胀。

Latent Briefing的核心创新
该方法的核心思路是借助注意力机制,在表示层直接识别并丢弃上下文中的冗余信息,而非依赖速度较慢的LLM摘要或稳定性较差的RAG检索。

性能表现
在LongBench v2基准测试中,该方法表现优异:

  • Token消耗:工作者模型的Token消耗最高降低65%,中等长度文档(32k至100k)的Token节省中位数达49%。
  • 准确率:整体准确率较基线提升约3个百分点。
  • 效率:每次压缩的额外耗时仅约1.7秒,较原始算法提速约20倍。

实验细节与发现
实验以Claude Sonnet 4作为编排者、Qwen3-14B作为工作者模型,覆盖学术论文、法律文书等多种文档场景。研究发现,最优压缩阈值因任务难度和文档长度而异:难题适合激进压缩以过滤噪声,长文档则更适合轻度压缩以保留分散的关键信息。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化