加州理工学院孵化的AI实验室PrismML开源了1-bit Bonsai系列大语言模型。其旗舰模型Bonsai 8B拥有82亿参数,内存占用仅1.15GB,相比同规模16-bit模型(约16GB)压缩了约14倍。
核心特点
- 真1-bit权重:模型所有层(嵌入、注意力、MLP、输出头)的权重均仅用+1或-1表示,无任何高精度补丁。
- 性能相当:在标准基准测试中,其推理与语言理解能力与16-bit全精度模型相当。
- 高效推理:实测在iPhone 17 Pro Max上推理速度约44 token/s,而标准16-bit 8B模型无法在iPhone上运行。能耗较16-bit模型降低4-5倍。
模型与获取
- 开源模型:8B(1.15GB)、4B(0.5GB)、1.7B(0.24GB)。
- 权重以Apache 2.0许可证在HuggingFace发布。
技术背景与前景
- 核心压缩技术由加州理工团队研发,PrismML拥有独家授权。
- 当前优势主要源于内存占用大幅减少。若未来出现专为1-bit计算(仅需加减法)设计的硬件,效率有望再提升一个数量级。