登录之后可以开启更多功能哦
Baseten 研究团队推出 KV 缓存压缩方案 Still。该方法冻结基座模型参数,仅训练轻量级 Perceiver 压缩器(参数量约为基座模型的 1%),通过一次前向传播即可完成压缩,最高支持 2
AI基础设施公司Ramp Labs发布研究成果“Latent Briefing”,通过直接压缩大语言模型的KV缓存,实现多智能体系统间的高效记忆共享,能在不损失准确率的前提下大幅降低Token消耗。
盘前逻辑 | 实时预警 | 电报同步