AI编程工具Cursor公开了其自研的MoE(混合专家模型)推理加速技术Warp Decode。该技术专为英伟达Blackwell GPU上的小批量token生成场景设计。
核心创新:以输出为中心的并行
Warp Decode颠覆了传统的以专家为中心的并行策略:
- 传统方式:GPU中的warp(32个并行处理单元)负责处理多个专家。
- Warp Decode:每个warp仅负责计算一个输出值。它独立遍历所有被路由到的专家,并在寄存器中完成累加,无需跨warp同步或中间缓冲区。
性能优化:大幅精简计算流程
传统MoE推理流水线包含8个阶段,其中5个阶段仅用于数据搬运。Warp Decode将整个MoE层计算压缩为2个CUDA kernel,消除了填充、分散、合并等中间步骤。
- 每个token减少超过32KB的中间缓冲区读写。
- 全程使用BF16/FP32精度计算,避免了中间量化损失,输出精度更接近FP32基准。
实测效果
在英伟达B200 GPU上,基于Qwen-3风格模型的测试结果显示:
- 端到端解码吞吐量提升1.84倍。
- 批量大小为32时,持续吞吐达3.95 TB/s,约为B200峰值带宽(6.8 TB/s)的58%。
这项优化直接加速了Cursor自研编程模型Composer的研发与发布节奏。