谷歌研究院发布新型量化压缩算法TurboQuant,可将大语言模型的KV缓存压缩至3bit,内存占用减少至少6倍,且无需训练或微调,不损失模型精度。

核心优势

  • 高效压缩:在4bit模式下,于英伟达H100 GPU上计算注意力的速度,较32bit未量化基线最高提升8倍。
  • 无损精度:在LongBench、Needle In A Haystack等长上下文基准测试中,使用Gemma和Mistral模型验证,TurboQuant均达到最优表现。

技术原理
TurboQuant由两个关键子算法构成:

  1. PolarQuant:通过极坐标变换,消除传统量化方法的内存开销。
  2. QJL:仅使用1bit来校正残余量化误差。

该研究由谷歌研究院主导,并与KAIST及纽约大学合作完成,计划在ICLR 2026上发表。该技术的主要应用方向之一是解决Gemini等大模型的KV缓存瓶颈。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化