Twitter与Block联合创始人Jack Dorsey推荐了开源工具mesh-llm。该项目由Block的AI团队工程师开发,旨在将闲置的GPU资源组成点对点网络,协同运行开源大型语言模型。
核心逻辑:智能分布式推理
- 灵活部署:模型能单机运行则满速处理;若显存不足,则自动分布式运行。
- 高效切分:对Dense模型进行层切分实现流水线并行;对MoE模型(如Qwen3、GLM)按专家分片,各节点独立推理,节点间几乎无数据流量。
性能实测与定位
实测显示,分布式推理会带来速度损耗。例如,GLM-4.7-Flash模型在WiFi环境下分片至2-3个节点时,速度有所下降。
然而,其核心价值在于让资源有限的用户能够运行超大规模模型(如142GB的Qwen3-235B)。目标用户面临的选择并非“快或慢”,而是“能跑或不能跑”。
技术可行性
推理与训练的通信需求不同:
- 训练需同步全部梯度,通信量大,要求高带宽、低延迟。
- 推理仅需传递少量激活值,通信负载低,且延迟主要影响首token生成时间,不影响后续输出速率。
这正是mesh-llm能利用分散GPU进行推理,而“全球闲置GPU训练大模型”构想却难以实现的原因。