简要总结
本文总结了中国发布的拥有1万亿参数的AI模型Yuan 3.0 Ultra。该模型通过移除模型中无用的部分,实现了训练速度的提升和性能的增强。文章详细介绍了模型架构、训练方法以及在多个实际应用基准测试中的卓越表现,展示了其在企业级任务中的强大能力。
- Yuan 3.0 Ultra 模型通过移除无用参数,提升了训练效率和模型性能。
- 模型采用了混合专家系统(MOE)架构,并创新性地使用了自适应层专家剪枝(LAEP)技术。
- 在多个基准测试中,Yuan 3.0 Ultra 在文档检索、表格理解、摘要和数据库推理等企业级任务中表现出色。
中国发布1万亿参数AI模型
中国发布了一个拥有1万亿参数的AI模型,名为Yuan 3.0 Ultra。该模型由元语智能(Yuan Lab AI)开发,令人惊讶的是,通过删除模型中三分之一的参数后,其速度和智能程度反而得到了提升。该模型在实际任务中击败了一些全球最大的AI系统。
混合专家系统(MOE)架构
Yuan 3.0 Ultra 基于混合专家系统(MOE)架构构建。该模型总共拥有约1万亿个参数,每次运行时激活约688亿个参数,使其与世界上最大的模型处于同一量级。元语智能并没有像传统方式那样不断扩大模型规模,而是反其道而行之,先构建一个更大的模型,然后在训练过程中移除大部分参数。最初版本的 Yuan 3.0 Ultra 拥有约1.515万亿个参数。
自适应层专家剪枝(LAEP)技术
在开发过程中,研究人员发现模型中有很大一部分参数几乎没有发挥作用。因此,他们构建了一个新的系统,可以自动找到这些薄弱部分并在训练过程中移除它们。最终模型完成时,大约有1.01万亿个参数,这意味着大约33%的原始模型在训练过程中消失了。令人惊讶的是,这不仅没有降低模型速度,反而使其训练速度更快,效率提高了约49%。
MOE模型的弱点与专家剪枝
混合专家系统(MOE)将模型分成许多较小的专业网络,称为专家。当文本输入系统时,模型不会激活每个专家,而是选择几个与特定token或句子最相关的专家。然而,MOE模型存在一个隐藏的弱点:一些专家承担了几乎所有的工作,而另一些专家几乎没有被使用。
专家使用模式与LAEP系统
元语智能的研究人员在训练过程中仔细研究了专家使用情况,发现专家使用遵循一个非常清晰的模式。在训练开始时,一切都是混乱的,token在专家之间不可预测地跳动,这个阶段称为过渡阶段。一段时间后,系统进入更稳定的状态,某些专家开始反复接收大量token,而另一些专家始终接收很少的token,这个阶段称为稳定阶段。一旦模型达到这个阶段,专家的排名就变得非常可预测。
LAEP:在训练中移除弱专家
研究人员创建了一个名为自适应层专家剪枝(LAEP)的系统。LAEP不是等到模型完成训练后再进行修剪,而是在训练过程仍在进行时开始移除弱专家。该算法会监控每个专家处理的token数量。如果一个专家处理的token数量始终远低于其他专家,它就会成为移除的候选对象。
专家移除的条件与GPU负载均衡
有两个条件控制这个过程。一个规则检查专家的工作负载是否远低于该层的平均工作负载。第二个规则检查一组专家是否对token处理的总量贡献很小。如果两个条件都满足,则该专家将从模型中完全移除。在Yuan 3.0 Ultra中,模型最初每层包含64个专家。经过剪枝后,系统每层最多保留48个专家。
专家重排系统与训练效率提升
研究团队在训练这些系统时注意到了另一个问题。大型混合专家模型通常分布在许多GPU上,每个GPU托管一些专家。如果某些专家接收的工作远多于其他专家,则某些GPU会过载,而另一些GPU则处于空闲状态,这浪费了计算能力。因此,研究人员构建了第二个系统,称为专家重排。该系统不断查看每个专家接收的工作量,然后在GPU上重新分配专家,以保持工作负载的平衡。
LAEP系统性能验证
研究人员首先在一个较小的100亿参数模型上进行了实验,测试了不同的剪枝阈值,并测量了模型的行为。即使他们移除了大量专家,模型的准确性也几乎与原始系统相同。在某些情况下,剪枝后的模型甚至表现略好,因为移除弱专家使剩余的专家能够更有效地进行专业化。他们还将这种方法与传统的平衡专家工作负载的方法进行了比较。
LAEP系统优势与扩展性实验
其他MOE模型使用一种称为辅助负载平衡损失的方法,试图强制专家在训练期间接收相似的工作负载。但是,这存在一个权衡。如果过度推动平衡,模型的准确性会下降。LAEP系统完全避免了这个问题。它不是强制专家平衡其工作负载,而是简单地移除那些从未学到任何有用知识的专家。研究小组还在一个在1000亿个token上训练的200亿参数模型上测试了这个想法。
Yuan 3.0 Ultra最终架构与训练
经过所有这些实验后,研究团队最终将完整的系统应用于主模型。最终的Yuan 3.0 Ultra架构包含103层,约1万亿个总参数和688亿个活动参数。训练在824个AI芯片上使用BF16精度进行。基础模型完成后,研究人员进入了后训练阶段。
反射抑制奖励机制(RIRM)
在后训练阶段,模型学习推理行为并改进其响应。他们使用了一种称为反射抑制奖励机制(RIRM)的技术。现代AI模型中一个常见的问题是研究人员称之为过度思考。当模型解决一个推理问题时,有时会产生非常长的思考链,即使对于简单的问题也是如此。这浪费了token并降低了响应速度。RIRM系统试图防止这种情况。
RIRM系统与推理准确性提升
在强化学习期间,当模型以更少的推理步骤解决问题时,它会获得更高的奖励。如果它产生过多的反射步骤,特别是超过三个步骤,奖励会下降,甚至会变成惩罚。这鼓励系统在可能的情况下给出简洁的答案,同时仍然允许对复杂问题进行更深入的推理。经过使用该系统进行训练后,推理准确性提高了约16%,而平均响应长度缩短了约14%。
Yuan 3.0 Ultra在实际基准测试中的表现
研究团队评估了Yuan 3.0 Ultra在一系列实际基准测试中的表现。在Dogmatics多模态检索基准测试中,该模型达到了67.4%的准确率,优于GPT 5.2、Claude Opus 4.6和Gemini 3.1 Pro等系统。在Chatrag基准测试中,该模型在10个任务中测试了长上下文检索,Yuan 3.0 Ultra达到了68.2%的准确率,并在10个任务中的9个任务中领先。对于表格推理和企业数据分析,该模型在MMTAB基准测试的15个数据集中获得了62.6%的分数。在Sum of All Summarization基准测试中,该模型达到了62.8%,击败了DeepSeq v3、GPT 5.2、Gemini 3.1 Pro和Kimi K 2.5。
Yuan 3.0 Ultra在结构化数据库任务与代码推理测试中的表现
该模型在结构化数据库任务中也表现出色。在Spyder Text to SQL基准测试中,它达到了83.9%的执行准确率。对于编码和推理测试,Yuan 3.0 Ultra在Math 500上达到了93.1%,在Human Evil上达到了91.4%,在MBPP上达到了82%,在MMLU上达到了87.8%,在MMLU Pro上达到了71.9%。总的来说,该系统在企业风格的任务中表现出强大的性能,如文档检索、表格理解、摘要和数据库推理。

