AI基础设施公司Ramp Labs发布研究成果“Latent Briefing”,通过直接压缩大语言模型的KV缓存,实现多智能体系统间的高效记忆共享,能在不损失准确率的前提下大幅降低Token消耗。
传统架构的瓶颈
主流多智能体架构中,编排者(Orchestrator)需反复调用工作者(Worker)模型,导致推理链路延长,Token用量呈指数级膨胀。
Latent Briefing的核心创新
该方法的核心思路是借助注意力机制,在表示层直接识别并丢弃上下文中的冗余信息,而非依赖速度较慢的LLM摘要或稳定性较差的RAG检索。
性能表现
在LongBench v2基准测试中,该方法表现优异:
- Token消耗:工作者模型的Token消耗最高降低65%,中等长度文档(32k至100k)的Token节省中位数达49%。
- 准确率:整体准确率较基线提升约3个百分点。
- 效率:每次压缩的额外耗时仅约1.7秒,较原始算法提速约20倍。
实验细节与发现
实验以Claude Sonnet 4作为编排者、Qwen3-14B作为工作者模型,覆盖学术论文、法律文书等多种文档场景。研究发现,最优压缩阈值因任务难度和文档长度而异:难题适合激进压缩以过滤噪声,长文档则更适合轻度压缩以保留分散的关键信息。