英伟达杀疯了！DeepSeek V4推理成本狂砍80%--快科技--科技改变未来

正文内容 评论（0）

英伟达杀疯了！DeepSeek V4推理成本狂砍80%

2026-07-02 15:10:16 出处：快科技作者：红茶编辑：红茶评论(0)

复制

纠错

#英伟达 #DeepSeek

快科技7月2日消息，英伟达宣布其Blackwell平台通过全栈推理软件优化，DeepSeek V4模型的单Token成本在一个月内最多降至五分之一。

随着企业从AI试点走向生产型AI工厂，基础设施决策已从芯片规格峰值转向每元、每瓦特及延迟目标内能交付多少有用Token。

英伟达通过三层架构实现Token成本的大幅下降。生产运营层负责分布式服务编排与自动扩缩容，应用加速层通过计算通信重叠和内核融合进行运行时优化，基础设施访问层则直接调用GPU、网络与系统能力。

多项技术叠加后，Blackwell平台单GPU的Token吞吐量最高可提升20倍。这些技术包括分离式服务、基于NVLink的大规模专家并行、NVFP4精度以及多Token预测。

英伟达将单Token成本列为AI总拥有成本的核心指标，Blackwell平台已将其降至行业最低水平。

多家推理服务商已从中获益。Baseten利用TensorRT-LLM开源库在Blackwell上服务DeepSeek V4 Pro，每秒Token输出量提升高达50%。

Cognition借助Dynamo推理框架管理GPU，无需从零构建即可扩展强化学习工作负载。Together AI用TensorRT-LLM帮助Cursor加速从模型优化到生产终端的路径。

开源生态进一步放大了全栈优势。PyTorch等主流框架原生基于CUDA构建，使新研究成果能立即在NVIDIA GPU上运行。

DeepSeek V4发布后，vLLM和SGLang等框架随即为Blackwell提供部署方案，一个月内性能提升高达5倍。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：红茶

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#英伟达 #DeepSeek #DeepSeekV4 #DeepSeek V4 #Blackwell

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波