华为成功用1000个国产芯片"Ascend 910C"训练出16万亿参数的DeepSeek V4-Pro！

#华为 #DeepSeek #Ascend910C

※この記事はアフィリエイト広告を含みます

华为成功用1000个国产芯片“Ascend 910C”训练出DeepSeek V4-Pro，参数达16万亿！

发生了什么？新闻概述

训练16万亿参数的巨大模型: 华为与深圳市大数据研究院等共同团队宣布，他们已完成DeepSeek V4-Pro的全参数后训练（Post-training）。
使用1000个国产芯片集群: 在一个至少连接1000个中国自产AI加速器“Ascend 910C”的大型环境中进行。
暗示摆脱对Nvidia的依赖: 在美国出口管制的背景下，这一成果证明了中国制造的硅片不仅能进行推理，还能承受更高负荷的“训练”阶段的工作负载。

为什么这很重要？值得关注的要点

全参数更新的震撼: 与通过添加轻量型适配层的方法不同，这次实现了对16万亿个全参数（权重）的更新，展现了技术的进步。
从推理到训练的进化: 之前的模型（DeepSeek R2）在Ascend芯片上进行训练时失败，而V4-Pro从一开始就以Ascend为基础设计，并取得成功。
国内自给率的提升: Ascend 910C的推理性能约为Nvidia H100的60%，终于达到大规模模型的“调优”这一实用阶段。

🦈 鲨鱼视角（策展人的观点）

国产芯片的反击终于开始了！值得注意的是，不仅仅是“运行成功”的报告，而是针对16万亿参数的怪兽级模型进行了“全参数”的后训练！此前，中国芯片在推理（仅仅给出答案）方面表现出色，但在训练（让模型变聪明）方面被认为相对薄弱。然而，1000个Ascend 910C的联合运作，克服了软件堆栈“CANN”的障碍，这种执念真令人敬佩！

当然，零基础的“预训练（Pre-training）”的门槛更高，而具体的效率数据尚未公布，这一点需要谨慎对待。但是，从被切断Nvidia供应的绝望境地中，自力更生地走到这一步的技术实力，已经达到了不可忽视的水平！

接下来会怎样？

挑战预训练: 今后不仅要进行“后训练”，还需关注能否仅凭Ascend芯片完成需要数千万美元成本的“预训练”。
软件堆栈的成熟: 如果一直被指责不稳定的CANN得以改善，或将加速在中国国内作为Nvidia CUDA替代方案的普及。
性能基准的公开等待: 这次成功的效率（训练速度和稳定性）究竟如何，未来将有更多详细数据公布。

鲨鱼视点的一句话

无论多么深的海洋将鲨鱼困住，依然要继续游动，这就是鲨鱼的强大！中国的AI开发，正是试图凭借自己的力量跨越汹涌波涛！我会全力支持！

术语解说

全参数后训练: 对模型的所有层进行微调的过程，而不仅仅是部分层。需要极高的计算资源。
Ascend 910C: 华为开发的最新AI加速器。是中国国产中与Nvidia H100竞争的潜力股。
CANN (Compute Architecture for Neural Networks): 华为自主研发的AI软件平台，相当于Nvidia的“CUDA”。
信息来源: DeepSeek v4 Pro 1.6T模型在1000个Ascend 910C芯片上后训练成功