China Just Dropped 1 Trillion Parameter AI Model That Shocks OpenAI

www.youtube.com

简要总结

本文总结了中国发布的拥有1万亿参数的AI模型Yuan 3.0 Ultra。该模型通过移除模型中无用的部分，实现了训练速度的提升和性能的增强。文章详细介绍了模型架构、训练方法以及在多个实际应用基准测试中的卓越表现，展示了其在企业级任务中的强大能力。

Yuan 3.0 Ultra 模型通过移除无用参数，提升了训练效率和模型性能。
模型采用了混合专家系统（MOE）架构，并创新性地使用了自适应层专家剪枝（LAEP）技术。
在多个基准测试中，Yuan 3.0 Ultra 在文档检索、表格理解、摘要和数据库推理等企业级任务中表现出色。

中国发布1万亿参数AI模型

中国发布了一个拥有1万亿参数的AI模型，名为Yuan 3.0 Ultra。该模型由元语智能（Yuan Lab AI）开发，令人惊讶的是，通过删除模型中三分之一的参数后，其速度和智能程度反而得到了提升。该模型在实际任务中击败了一些全球最大的AI系统。

混合专家系统（MOE）架构

Yuan 3.0 Ultra 基于混合专家系统（MOE）架构构建。该模型总共拥有约1万亿个参数，每次运行时激活约688亿个参数，使其与世界上最大的模型处于同一量级。元语智能并没有像传统方式那样不断扩大模型规模，而是反其道而行之，先构建一个更大的模型，然后在训练过程中移除大部分参数。最初版本的 Yuan 3.0 Ultra 拥有约1.515万亿个参数。

自适应层专家剪枝（LAEP）技术

在开发过程中，研究人员发现模型中有很大一部分参数几乎没有发挥作用。因此，他们构建了一个新的系统，可以自动找到这些薄弱部分并在训练过程中移除它们。最终模型完成时，大约有1.01万亿个参数，这意味着大约33%的原始模型在训练过程中消失了。令人惊讶的是，这不仅没有降低模型速度，反而使其训练速度更快，效率提高了约49%。

MOE模型的弱点与专家剪枝

混合专家系统（MOE）将模型分成许多较小的专业网络，称为专家。当文本输入系统时，模型不会激活每个专家，而是选择几个与特定token或句子最相关的专家。然而，MOE模型存在一个隐藏的弱点：一些专家承担了几乎所有的工作，而另一些专家几乎没有被使用。

专家使用模式与LAEP系统

元语智能的研究人员在训练过程中仔细研究了专家使用情况，发现专家使用遵循一个非常清晰的模式。在训练开始时，一切都是混乱的，token在专家之间不可预测地跳动，这个阶段称为过渡阶段。一段时间后，系统进入更稳定的状态，某些专家开始反复接收大量token，而另一些专家始终接收很少的token，这个阶段称为稳定阶段。一旦模型达到这个阶段，专家的排名就变得非常可预测。

LAEP：在训练中移除弱专家

研究人员创建了一个名为自适应层专家剪枝（LAEP）的系统。LAEP不是等到模型完成训练后再进行修剪，而是在训练过程仍在进行时开始移除弱专家。该算法会监控每个专家处理的token数量。如果一个专家处理的token数量始终远低于其他专家，它就会成为移除的候选对象。

专家移除的条件与GPU负载均衡

有两个条件控制这个过程。一个规则检查专家的工作负载是否远低于该层的平均工作负载。第二个规则检查一组专家是否对token处理的总量贡献很小。如果两个条件都满足，则该专家将从模型中完全移除。在Yuan 3.0 Ultra中，模型最初每层包含64个专家。经过剪枝后，系统每层最多保留48个专家。

专家重排系统与训练效率提升

研究团队在训练这些系统时注意到了另一个问题。大型混合专家模型通常分布在许多GPU上，每个GPU托管一些专家。如果某些专家接收的工作远多于其他专家，则某些GPU会过载，而另一些GPU则处于空闲状态，这浪费了计算能力。因此，研究人员构建了第二个系统，称为专家重排。该系统不断查看每个专家接收的工作量，然后在GPU上重新分配专家，以保持工作负载的平衡。

LAEP系统性能验证

研究人员首先在一个较小的100亿参数模型上进行了实验，测试了不同的剪枝阈值，并测量了模型的行为。即使他们移除了大量专家，模型的准确性也几乎与原始系统相同。在某些情况下，剪枝后的模型甚至表现略好，因为移除弱专家使剩余的专家能够更有效地进行专业化。他们还将这种方法与传统的平衡专家工作负载的方法进行了比较。

LAEP系统优势与扩展性实验

其他MOE模型使用一种称为辅助负载平衡损失的方法，试图强制专家在训练期间接收相似的工作负载。但是，这存在一个权衡。如果过度推动平衡，模型的准确性会下降。LAEP系统完全避免了这个问题。它不是强制专家平衡其工作负载，而是简单地移除那些从未学到任何有用知识的专家。研究小组还在一个在1000亿个token上训练的200亿参数模型上测试了这个想法。

Yuan 3.0 Ultra最终架构与训练

经过所有这些实验后，研究团队最终将完整的系统应用于主模型。最终的Yuan 3.0 Ultra架构包含103层，约1万亿个总参数和688亿个活动参数。训练在824个AI芯片上使用BF16精度进行。基础模型完成后，研究人员进入了后训练阶段。

反射抑制奖励机制（RIRM）

在后训练阶段，模型学习推理行为并改进其响应。他们使用了一种称为反射抑制奖励机制（RIRM）的技术。现代AI模型中一个常见的问题是研究人员称之为过度思考。当模型解决一个推理问题时，有时会产生非常长的思考链，即使对于简单的问题也是如此。这浪费了token并降低了响应速度。RIRM系统试图防止这种情况。

RIRM系统与推理准确性提升

在强化学习期间，当模型以更少的推理步骤解决问题时，它会获得更高的奖励。如果它产生过多的反射步骤，特别是超过三个步骤，奖励会下降，甚至会变成惩罚。这鼓励系统在可能的情况下给出简洁的答案，同时仍然允许对复杂问题进行更深入的推理。经过使用该系统进行训练后，推理准确性提高了约16%，而平均响应长度缩短了约14%。

研究团队评估了Yuan 3.0 Ultra在一系列实际基准测试中的表现。在Dogmatics多模态检索基准测试中，该模型达到了67.4%的准确率，优于GPT 5.2、Claude Opus 4.6和Gemini 3.1 Pro等系统。在Chatrag基准测试中，该模型在10个任务中测试了长上下文检索，Yuan 3.0 Ultra达到了68.2%的准确率，并在10个任务中的9个任务中领先。对于表格推理和企业数据分析，该模型在MMTAB基准测试的15个数据集中获得了62.6%的分数。在Sum of All Summarization基准测试中，该模型达到了62.8%，击败了DeepSeq v3、GPT 5.2、Gemini 3.1 Pro和Kimi K 2.5。

Yuan 3.0 Ultra在结构化数据库任务与代码推理测试中的表现

该模型在结构化数据库任务中也表现出色。在Spyder Text to SQL基准测试中，它达到了83.9%的执行准确率。对于编码和推理测试，Yuan 3.0 Ultra在Math 500上达到了93.1%，在Human Evil上达到了91.4%，在MBPP上达到了82%，在MMLU上达到了87.8%，在MMLU Pro上达到了71.9%。总的来说，该系统在企业风格的任务中表现出强大的性能，如文档检索、表格理解、摘要和数据库推理。

3/8/2026 www.youtube.com