关闭导航

包含标签"模型压缩"的内容

谷歌TurboQuant:3bit量化KV缓存无损精度,推理速度最高提升8倍
青岚老师 3 小时前 0 0

谷歌研究院发布新型量化压缩算法TurboQuant,可将大语言模型的KV缓存压缩至3bit,内存占用减少至少6倍,且无需训练或微调,不损失模型精度。 核心优势 高效压缩:在4bit模式下,于英伟达H

sitemap