AI编程工具Cursor公开了其自研的MoE(混合专家模型)推理加速技术Warp Decode。该技术专为英伟达Blackwell GPU上的小批量token生成场景设计。

核心创新:以输出为中心的并行

Warp Decode颠覆了传统的以专家为中心的并行策略:

  • 传统方式:GPU中的warp(32个并行处理单元)负责处理多个专家。
  • Warp Decode:每个warp仅负责计算一个输出值。它独立遍历所有被路由到的专家,并在寄存器中完成累加,无需跨warp同步或中间缓冲区

性能优化:大幅精简计算流程

传统MoE推理流水线包含8个阶段,其中5个阶段仅用于数据搬运。Warp Decode将整个MoE层计算压缩为2个CUDA kernel,消除了填充、分散、合并等中间步骤。

  • 每个token减少超过32KB的中间缓冲区读写。
  • 全程使用BF16/FP32精度计算,避免了中间量化损失,输出精度更接近FP32基准。

实测效果

在英伟达B200 GPU上,基于Qwen-3风格模型的测试结果显示:

  • 端到端解码吞吐量提升1.84倍
  • 批量大小为32时,持续吞吐达3.95 TB/s,约为B200峰值带宽(6.8 TB/s)的58%。

这项优化直接加速了Cursor自研编程模型Composer的研发与发布节奏。


🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化