华为昇腾910C算力集群发力，国产芯片成功完成万亿级AI大模型全参数后训练

考研资深辅导 2026年06月10日 23:51:22

2026-06-08 14:08 出处 / 作者：PConline 原创整合编辑：科仔播报

【太平洋科技快讯】近日，深圳河套学院 AI 训练平台项目团队联合哈尔滨工业大学 ( 深圳 ) 、深圳市大数据研究院、华为及深智城 AI 算力平台，基于昇腾 910C 国产 AI 算力集群，成功完成 1.6 万亿参数 DeepSeek-V4-Pro 大模型的全参数后训练。这一实践，也为全球第三方机构使用国产算力开展同级别大模型训练积累了实践经验，验证了国产 AI 芯片具备支撑世界级超大参数模型训练的能力。

万亿参数大模型是当前 AI 领域前沿方向，在逻辑推理、数理运算、代码生成、长文本解析等场景能力突出。这类模型的全参数训练，对硬件算力、集群稳定性、算法适配都有着极高标准。过往全球万亿级大模型训练大多依赖海外算力产品，国产算力此前多应用于模型推理、小幅微调，难以胜任全参数深度训练，也是行业长期存在的技术难点。

本次训练对象 DeepSeek-V4-Pro 采用混合专家 ( MoE ) 架构，该结构日常调用仅激活部分模块，运行效率较高，但在后训练阶段，模块间数据交互量会数倍提升，叠加动态注意力机制，对算力调度、显存管理提出严苛考验。如果说模型推理只是简单的单向数据输出，那么全参数后训练则包含多层反馈与迭代逻辑，整体计算、通信压力大幅增加。

针对上述难点，研发团队在千卡级算力集群上实现多项技术突破。首先是分布式显存拆分方案，将海量模型参数合理分配至各计算卡，完成精细化算力调度；其次优化负载均衡策略，解决 MoE 架构下模块任务分配不均、跨卡通信拥堵问题；最后搭建全流程可视化监控体系，保障整个训练流程稳定运行。本次训练累计完成 1500 多步迭代，全程未出现中断、故障。

数据显示，该项目模型算力利用率 ( MFU ) 突破 30%，核心训练算子效率提升 14%，各项指标均达到工业级应用标准。此次攻关证明，国产算力不再局限于模型推理环节，完全可承接顶级超大参数大模型的全参数训练任务，相关技术路线具备落地价值。

The End

相关文章