正文内容 评论(0

英伟达杀疯了!DeepSeek V4推理成本狂砍80%
2026-07-02 15:10:16  出处:快科技 作者:红茶 编辑:红茶     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

快科技7月2日消息,英伟达宣布其Blackwell平台通过全栈推理软件优化,DeepSeek V4模型的单Token成本在一个月内最多降至五分之一。

随着企业从AI试点走向生产型AI工厂,基础设施决策已从芯片规格峰值转向每元、每瓦特及延迟目标内能交付多少有用Token。

英伟达杀疯了!DeepSeek V4推理成本狂砍80%

英伟达通过三层架构实现Token成本的大幅下降。生产运营层负责分布式服务编排与自动扩缩容,应用加速层通过计算通信重叠和内核融合进行运行时优化,基础设施访问层则直接调用GPU、网络与系统能力。

多项技术叠加后,Blackwell平台单GPU的Token吞吐量最高可提升20倍。这些技术包括分离式服务、基于NVLink的大规模专家并行、NVFP4精度以及多Token预测。

英伟达将单Token成本列为AI总拥有成本的核心指标,Blackwell平台已将其降至行业最低水平。

英伟达杀疯了!DeepSeek V4推理成本狂砍80%

多家推理服务商已从中获益。Baseten利用TensorRT-LLM开源库在Blackwell上服务DeepSeek V4 Pro,每秒Token输出量提升高达50%。

Cognition借助Dynamo推理框架管理GPU,无需从零构建即可扩展强化学习工作负载。Together AI用TensorRT-LLM帮助Cursor加速从模型优化到生产终端的路径。

英伟达杀疯了!DeepSeek V4推理成本狂砍80%

开源生态进一步放大了全栈优势。PyTorch等主流框架原生基于CUDA构建,使新研究成果能立即在NVIDIA GPU上运行。

DeepSeek V4发布后,vLLM和SGLang等框架随即为Blackwell提供部署方案,一个月内性能提升高达5倍。

英伟达杀疯了!DeepSeek V4推理成本狂砍80%

【本文结束】如需转载请务必注明出处:快科技

责任编辑:红茶

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...