登录之后可以开启更多功能哦
谷歌研究院发布新型量化压缩算法TurboQuant,可将大语言模型的KV缓存压缩至3bit,内存占用减少至少6倍,且无需训练或微调,不损失模型精度。 核心优势 高效压缩:在4bit模式下,于英伟达H