最亮眼的是 MoE (混合专家)模型的性能提升,达到了6到11倍的加速。有开发者直接吐槽:“如果你把性能提升了2倍,说明你做了聪明的事;如果提升了10倍,说明你之前在做蠢事。”确实,v4 版本对 MoE 模型使用了非常简单的 for 循环处理专家模块,导致计算资源严重闲置。现在团队重写了这部分逻辑,并引入了更通用的自定义 kernel 方案。