### [英伟达开源MoE微调加速工具，一行import让微调提速3.7倍](https://www.willai.cc/article/2838)

**Published:** 2026-06-28T12:38:54

**Author:** hiyoho

**Excerpt:** MoE（混合专家）架构已经成为当前大模型的主流选择。从DeepSeek-V3到Qwen3，再到Google的Gemini，几乎所有最新发布的顶尖模型都在用MoE。但MoE有个麻烦——训练起来比普通Transformer麻烦得多，专家并行、通

MoE（混合专家）架构已经成为当前大模型的主流选择。从DeepSeek-V3到Qwen3，再到Google的Gemini，几乎所有最新发布的顶尖模型都在用MoE。但MoE有个麻烦——训练起来比普通Transformer麻烦得多，专家并行、通信融合、kernel优化，这些工程细节没有一个省心的。

英伟达6月底开源了一个工具，试图让这件事变得简单。叫**NeMo AutoModel**，基本思路是：站在HuggingFace Transformers v5的肩膀上，不改你原来的代码API，只加一行import，就能把MoE模型的微调速度提升3.7倍，同时把GPU显存占用降低近三分之一。

![英伟达MoE微调加速工具概念图](https://admin.hiyoho.com/wp-content/uploads/2026/06/nvidia-moe-fine-tune-tool-2026.png)

英伟达NeMo AutoModel通过一行import实现MoE模型微调加速

### 3.7倍加速是怎么来的

具体数字挺直观的。在单节点8张H100 80GB GPU上，用Qwen3-30B-A3B做微调，原来的Transformers v5每秒每GPU能处理3075个token，换成NeMo AutoModel之后直接拉到11340，提升3.69倍。显存这边，峰值占用从68.2GiB降到48.1GiB，省了29%。

英伟达 team还测了Nemotron 3 Nano 30B-A3B，结果类似：吞吐提升3.4-3.7倍，显存降低32%。他们甚至拿550B参数的Nemotron 3 Ultra做了全参数微调测试——16个H100节点、128张GPU——这时候Transformers v5已经直接爆显存了，连对比的机会都没有。

> 显存省下来的部分不是白给的——你可以拿它去跑更大的batch size，或者处理更长的序列。对于本来就卡显存的大模型训练来说，这两个操作直接决定了你能不能把模型训出来。

### 核心技术：三板斧

NeMo AutoModel在Transformers v5的基础上加了三样东西：专家并行（EP）、DeepEP、TransformerEngine。每一样都针对MoE训练的一个具体瓶颈。

**专家并行**解决的是显存问题。MoE模型虽然每次推理只激活部分专家，但训练的时候，所有专家的参数都得放在GPU显存里。专家并行把这些参数分散到多张GPU上，8张GPU就每张只持1/8的专家参数。Qwen3测下来，这项技术能把MoE层的显存占用直接从68.2GiB压到48.1GiB。

**DeepEP**解决的是通信开销。MoE训练的时候，每个token得先被路由到对应的专家，这个过程需要跨GPU通信。传统做法是”先分发、再计算”，DeepEP把它融合成了一个优化的GPU内核，”分发”和”计算”在时间上重叠了起来，通信的时间就被藏掉了。

**TransformerEngine**提供的是基础运算加速。注意力机制、线性层、RMSNorm这些，都有专门的融合kernel实现。不只加速MoE层，普通Transformer层也能占到好处。

### 一行import怎么做到

用法确实简单。如果你原来就在用Transformers v5，切换到NeMo AutoModel只需要在文件开头加一行：

-   把`from transformers import AutoModelForCausalLM`改成`from nemo_automodel import AutoModelForCausalLM`
-   原来的训练代码几乎不用动
-   API完全兼容HuggingFace的接口约定

这个设计思路很聪明。它不搞”全新框架”，而是在现有生态上做增强。这样用户的迁移成本几乎为零，英伟达那边也能持续从HuggingFace的生态里受益——相当于”我帮你提速，你继续用HuggingFace的接口”。

* * *

### 为什么这件事值得关注

MoE架构的普及速度比很多人预期的快。2026年上半年，几乎所有主流大模型发布都用了MoE或者类MoE的稀疏激活架构。原因很简单：在相同参数规模下，MoE的推理成本远低于稠密模型，但训练成本却高得多——因为所有专家的参数都得加载进显存，通信开销也大。

英伟达这笔账算得很清楚：如果MoE是未来，那么控制MoE训练的工具链，就等于在AI训练基础设施里多插了一脚。HuggingFace占据了模型使用的入口，英伟达则通过NeMo AutoModel占据了”高性能训练”的入口——而且是以兼容HuggingFace的方式，用户几乎没有理由拒绝。

代码、配置文件和基准测试脚本都已经放在GitHub上了（[github.com/NVIDIA-NeMo/AutoModel](https://github.com/NVIDIA-NeMo/AutoModel)），文档也在[docs.nvidia.com](https://docs.nvidia.com/nemo/automodel/latest/)上线了。感兴趣的人现在就能去试试，看看那3.7倍加速在自己的模型上能不能复现。

📎 原文来源：[量子位 – 英伟达MoE新开源：一行import，微调加速3.7倍](https://www.qbitai.com/2026/06/438703.html)

**Tags:** AI, AI基础设施, AI开源, AI技术, AI模型, MoE, 模型训练

**Categories:** AI资讯

---