Cursor发布Warp Decode技术，Blackwell GPU上MoE推理吞吐量提升1.84倍

AI编程工具Cursor公开了其自研的MoE（混合专家模型）推理加速技术Warp Decode。该技术专为英伟达Blackwell GPU上的小批量token生成场景设计。

Warp Decode颠覆了传统的以专家为中心的并行策略：

传统方式：GPU中的warp（32个并行处理单元）负责处理多个专家。
Warp Decode：每个warp仅负责计算一个输出值。它独立遍历所有被路由到的专家，并在寄存器中完成累加，无需跨warp同步或中间缓冲区。

传统MoE推理流水线包含8个阶段，其中5个阶段仅用于数据搬运。Warp Decode将整个MoE层计算压缩为2个CUDA kernel，消除了填充、分散、合并等中间步骤。

在英伟达B200 GPU上，基于Qwen-3风格模型的测试结果显示：

这项优化直接加速了Cursor自研编程模型Composer的研发与发布节奏。

🔥 实时行情点位，群内抢先看！

以上仅为青岚姐个人观点，不作为投资建议，交易需谨慎｜本文由青岚加密课堂整理优化

📢 TPV 实战信号站