Hugging Face 正式推出 **Kernels**,将其作为 Hub 的一级仓库类型,与 Models、Datasets 和 Spaces 并列。这旨在彻底解决 GPU 算子安装复杂的历史难题。
**GPU 算子**是深度优化的底层代码,能显著提升显卡在推理和训练任务中的性能,加速效果可达 **1.7 至 2.5 倍**。然而,传统的本地编译安装过程极其繁琐,常因环境配置问题失败。
**Kernels 的核心创新在于云端预编译:**
- Hugging Face 已在多种主流硬件和系统环境下完成算子的编译。
- 开发者仅需一行代码,Hub 便会自动匹配当前环境,在数秒内下载并加载正确的预编译文件。
- 它支持在同一进程中加载多个不同版本的算子,并兼容 `torch.compile`。
**当前进展:**
- 已提供 **61 个** 预编译算子,覆盖注意力机制、归一化、混合专家路由等关键场景。
- 支持 **NVIDIA CUDA、AMD ROCm、Apple Metal 和 Intel XPU** 四大硬件加速平台。
- 该功能已集成至 Hugging Face 的 **TGI 推理框架** 和 **Transformers 库**。