核心亮点
DeepSeek 以 MIT 许可证开源 TileKernels,公开一批用于大模型训练和推理的 GPU 底层计算代码,其中部分已投入内部生产环境。这些内核全部用 Python 编写,依赖 GPU 内核专用语言 TileLang 自动优化,无需手写 CUDA C++。DeepSeek 称多数内核已接近硬件性能极限。
两大新组件
库中包含 Engram 和 Manifold HyperConnection(mHC)两个未在既往论文中公开的生产级内核:
- Engram:条件记忆模块,通过哈希查表以 O(1) 复杂度检索静态知识,与 MoE 互补。
- mHC:改进的 HyperConnection,用双随机矩阵约束解决大规模训练的信号发散问题。
两者此前仅有论文和演示代码,TileKernels 首次提供可直接用于训练的高性能实现,表明 DeepSeek 正为新一代模型集成这些组件做工程准备。
覆盖范围
库还覆盖 MoE 路由与门控、多种低精度量化(FP8、FP4 等)、批量转置等常规环节。代码可通过 pip install tile-kernels 安装,运行需要 H100/H200 或 Blackwell 系列 GPU。