Ramp Labs多智能体记忆共享方案，Token消耗最高降低65%

AI基础设施公司Ramp Labs发布研究成果“Latent Briefing”，通过直接压缩大语言模型的KV缓存，实现多智能体系统间的高效记忆共享，能在不损失准确率的前提下大幅降低Token消耗。

传统架构的瓶颈
主流多智能体架构中，编排者（Orchestrator）需反复调用工作者（Worker）模型，导致推理链路延长，Token用量呈指数级膨胀。

Latent Briefing的核心创新
该方法的核心思路是借助注意力机制，在表示层直接识别并丢弃上下文中的冗余信息，而非依赖速度较慢的LLM摘要或稳定性较差的RAG检索。

性能表现
在LongBench v2基准测试中，该方法表现优异：

实验细节与发现
实验以Claude Sonnet 4作为编排者、Qwen3-14B作为工作者模型，覆盖学术论文、法律文书等多种文档场景。研究发现，最优压缩阈值因任务难度和文档长度而异：难题适合激进压缩以过滤噪声，长文档则更适合轻度压缩以保留分散的关键信息。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站