黄仁勋最担心的事发生了！DeepSeek V4华为芯片首发：英伟达CUDA护城河崩塌--快科技--科技改变未来

正文内容 评论（0）

黄仁勋最担心的事发生了！DeepSeek V4华为芯片首发：英伟达CUDA护城河崩塌

2026-04-26 10:44:48 出处：快科技作者：朝晖编辑：朝晖评论(0)

复制

纠错

#NVIDIA #黄仁勋

快科技4月26日消息，黄仁勋最担心的事，还是发生了！最新的DeepSeek V4版本，把“第一次”给了华为芯片。

“不诱于誉，不恐于诽，率道而行，端然正己。”带着这十六字理念，4月24日，DeepSeek V4预览版正式发布。距离上一版V3.2更新，已经过去了近五个月。

当下海外主流大模型，基本保持三个月一轮的快速迭代。相比之下，DeepSeek的节奏看似偏慢，甚至一度被外界质疑掉队。

GPT Image-2生成

就在前几天，GPT Image-2的出现让网友惊呼“有图有真相”的时代已经过去，现在的AI生图能力，足以以假乱真了。

但DeepSeek一边沉默应对外界和对手的质疑，另一边则潜心修炼。

他们说：“感谢每一位用户的信任与支持，大家的肯定、建议和期许，是我们不竭探索、持续进步的动力，也让我们始终坚守初心，专注于不懈的创新。我们将始终秉持长期主义的原则理念，在尝试与思考中踏实前行，努力向实现AGI的目标不断靠近。”

事实证明，长久的蛰伏沉淀与技术投入，从来都不会白费。

今年2月，路透社称，据知情人士透露，DeepSeek发布V4之前，没有向美国芯片公司NVIDIA和AMD提供模型早期访问权限，而是率先让中国企业华为提前数周开展软件适配优化工作。“breaking from standard industry practice（打破行业惯例）。”报道中如此形容这一事件。

毕竟，这是此前无论中国公司还是外国公司的大模型，都没有采用过的方式。

实际上，DeepSeekV4深度适配华为昇腾国产芯片，并非临时之举，而是早有布局。

去年8月，DeepSeek发布DeepSeek-V3.1时，其中一个重大的进步和惊喜，就是支持了UE8M0 FP8 Scale参数精度，并特别表示这一数据格式是针对即将发布的下一代国产芯片设计。

黄仁勋最担心的事发生了！DeepSeek V4华为芯片首发：英伟达CUDA护城河崩塌

东莞证券指出，该格式通过更高的灵活度支持复杂模型推理，提升芯片的解码效率与运算能力，为国产芯片适配更大模型提供技术路径，国产AI算力生态有望加速成型。

那UE8M0 FP8到底是什么？将有何影响？

人工智能领域的企业家与技术专家、清华大学计算机系人工智能所博士梁斌表示，DeepSeek为什么非要强调UE8M0 FP8呢？这个和NVIDIA的FP8是两个东西，两套标准。

他解释称，显存的发展是有限的，而模型的发展是快速的，对每个参数的表达必须通过量化进行压缩，FP32就是32位表达一个参数，FP8就是8位表达一个参数，在可接受的范围内，肯定是越低的表达，在显存里面能装下更多的参数。

FP8有NVIDIA的E4M3/E5M2方案和DS的这个UE8M0方案，主要区别就是前者有3-2位的小数表达，后者没有小数表达。前者精度好，后者功耗低，运算快，对芯片要求低。

梁斌表示，现在DeepSeek支持UE8M0 FP8，加上国产芯片都向这个标准靠拢，这是彻底和NVIDIA决裂了，以后其他推理模型，要么选择DS这套体系，要么选择NVIDIA体系，国内芯片公司也积极向这套体系靠拢。

“现在华为他们那边真是为了适配这个标准，真是玩命干，干成了就是名垂千古，多大诱惑，而且我发现DeepSeek还真是有胆量，真是把国产大模型的发展推到了一个牛X的高度上去，太了不起了。”

黄仁勋最担心的事发生了！DeepSeek V4华为芯片首发：英伟达CUDA护城河崩塌

软件主动适配硬件特性，本质上是在为国产芯片提前量体裁衣。

主动从软件层面适配国产硬件，提前为本土算力生态适配铺路，看似简单，实则难度极大。这需要大规模重写底层调度代码，全方位打通软硬件兼容链路，工程量巨大，技术壁垒极高。

长期以来，NVIDIA依靠CUDA生态，将硬件、软件、开发者深度绑定，构筑起坚固的技术护城河。巅峰时期，NVIDIA芯片在国内大模型训练市场占比高达95%，几乎所有顶级大模型，都高度依赖CUDA框架运行。

摆在国产AI芯片面前的，一直是两道艰难选择题：要么妥协兼容CUDA，依附海外生态降低迁移成本；要么自研全套软件栈，从零搭建自主技术体系。

回看国内高端制造、核心科技的发展历程就能明白，核心技术永远买不来、讨不来，想要不被国外卡脖子，AI领域必须打造软硬件一体化的自主协同能力。

此次DeepSeek V4完成昇腾深度适配，实现高吞吐、低时延的稳定推理部署，既是一次关键技术突破，更是国产AI打破外部技术垄断、自主突围的重要信号。

国产算力生态的崛起，从来不是单点突破。今年初，智谱GLM-5已完成7家主流国产芯片适配，可在纯国产算力集群稳定运行。越来越多大模型，实现了全流程国产化训练落地，纯本土算力的实践案例越来越多。

业内分析认为，这意味着一套完整、成熟的国产AI软硬件协同生态，正在稳步成型。

必须承认，目前国内芯片制程仍有差距，单卡硬件性能不及海外顶尖水平。但这么多年，我们在无数领域都是如此。

从关键设备、核心软件被封锁限制，到一步步自主攻坚、慢慢突围，中国产业向来擅长在有限条件下，靠架构优化、集群设计、软硬件协同、资源统筹，走出属于自己的发展道路。

这正是我们多年对抗技术封锁、突破层层壁垒的缩影，核心技术自主可控，才能彻底攥紧主动权，别人就再也卡不住我们的脖子。

就在近期，NVIDIA CEO黄仁勋在专访中直白警告，一旦DeepSeek新一代模型率先登陆华为芯片平台，对美国科技体系而言，会是灾难性结果。

黄仁勋直言，DeepSeek落地华为架构、完成专属优化，代表顶级AI模型，可以脱离美国技术框架实现高效运行，会直接动摇美国在全球AI赛道的竞争优势，造成巨大战略损失。

有意思的是，黄仁勋此前一直反对刻意孤立、围堵中国科技。他坦言，中国坐拥充足能源、完整芯片产业链和海量AI科研人才，强行将中国推向对立面，人为割裂产业合作，并不是明智选择。

在他看来，强行拆分两套AI生态十分愚蠢。一套是脱离美系技术的开源本土生态，一套是高度绑定美国架构的封闭生态，这种割裂格局，最终只会反噬美国自身。

他也多次提到，中国拥有海量算力资源，只要完成内部算力整合，完全可以自给自足，支撑本土AI产业长期发展。

同时，黄仁勋直言，美国极端的芯片出口管制政策过于短视。结合他提出的AI“五层蛋糕”理论，能源才是AI最底层的核心根基，7nm成熟制程，完全能够满足绝大多数AI落地需求，而能源充沛，正是中国的天然优势。

美国本土能源资源紧张，所以NVIDIA只能拼命压缩功耗、打磨单卡能效。反观中国，电力资源储备充足，不需要极致抠每瓦性能，哪怕用成熟制程芯片，依靠大规模集群组网，照样能补齐硬件差距。

即便面临EUV光刻机限制，国内依旧保有充足的7nm芯片量产能力。全球主流大模型大多基于NVIDIA Hopper架构训练，但中国完全可以依托能源优势，用集群规模抵消单芯片性能短板，走出差异化路线。

“他们庞大的AI研究人员队伍难道不是他们最根本的优势吗？我们都看到了这一点”。这是黄仁勋反复强调的一点。受限的硬件环境，反而倒逼国内团队打磨出更精简、高效的算法模型。

在他眼中，AI行业的核心突破，更多来自算法迭代，而非单纯硬件堆砌。海量本土科研人员、持续进化的自研算法，才是中国AI长期竞争的最大底气。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：建嘉

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#NVIDIA #黄仁勋 #DeepSeek

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波