谷歌研究院发布新型量化压缩算法TurboQuant,可将大语言模型的KV缓存压缩至3bit,内存占用减少至少6倍,且无需训练或微调,不损失模型精度。
核心优势
- 高效压缩:在4bit模式下,于英伟达H100 GPU上计算注意力的速度,较32bit未量化基线最高提升8倍。
- 无损精度:在LongBench、Needle In A Haystack等长上下文基准测试中,使用Gemma和Mistral模型验证,TurboQuant均达到最优表现。
技术原理
TurboQuant由两个关键子算法构成:
- PolarQuant:通过极坐标变换,消除传统量化方法的内存开销。
- QJL:仅使用1bit来校正残余量化误差。
该研究由谷歌研究院主导,并与KAIST及纽约大学合作完成,计划在ICLR 2026上发表。该技术的主要应用方向之一是解决Gemini等大模型的KV缓存瓶颈。