正文内容 评论(0)
随着生成式 AI 和智能体应用加速落地,AI 算力需求正发生结构性变化。云天励飞董事长兼 CEO 陈宁在接受媒体采访时表示,AI 产业正从“以训练为中心”逐步走向“以推理规模化为核心”的新阶段,2025 年有望成为算力范式变化的重要分水岭。
过去十多年,AI 产业的核心叙事围绕训练展开:更大的模型、更强的算力、更复杂的互联体系,推动模型能力不断突破。但随着 AIGC 从能力展示走向高频使用,算力需求的重心开始迁移。“训练解决的是模型能不能变聪明,推理解决的是应用能不能跑得起。”陈宁指出,当 AI 进入面向大众、面向业务流程的阶段,推理调用量呈现指数级增长,算力系统必须同时满足低成本、高并发、低时延和可持续运行等多重约束。
在这一背景下,推理不再只是训练的附属功能,而正在演变为一个独立的算力赛道。尤其当智能体开始承担更复杂的任务链路——从长上下文理解到工具调用、从多模态输入到连续交互——推理侧的系统压力会从“单点算力”转向“系统吞吐与成本结构”。这也意味着,如果继续用以训练为核心设计的通用 GPU 体系承接海量推理需求,资本开支和运营成本都可能被迅速放大,商业模型的可持续性将面临挑战。
![[MD:Title]](http://img1.mydrivers.com/img/20251222/894d5a3c-b4fc-4326-8d2b-c72253a1b3b2.jpg)
推理新需求下,GPNPU 试图用“架构取舍”换取规模化经济性
在中美算力竞争格局中,陈宁坦言,训练赛道对先进制程、互联带宽和生态成熟度要求极高,在先进制造工艺受限的背景下,差距客观存在且需要长期投入。但在推理赛道,情况有所不同:推理更像一个“在真实负载约束下做系统最优化”的新命题。
随着应用规模化,推理计算内部已出现明显结构分化,例如 prefill 与 decode 在算力密集度、带宽需求和访存模式上存在显著差异:前者更偏算力密集,后者更偏带宽与访存效率密集。陈宁据此判断,围绕训练优化的通用 GPU 架构,在推理规模化场景下更容易面临效率与成本压力,也因此为面向推理的架构与系统工程创新提供了空间。
在这一判断下,云天励飞提出并持续推进 GPNPU 架构。从采访表述看,GPNPU 的关键不在于“堆算力”,而在于围绕推理负载做软硬协同的系统取舍,核心目标可以概括为三点——
生态迁移友好:尽可能贴近主流训练生态与模型工程习惯,降低模型从训练到推理部署的门槛,减少客户在工程侧的“迁移成本”。
面向推理的算子与数据流优化:推理阶段的性能瓶颈往往不是峰值算力,而是算子组合、并发调度、缓存与访存效率;架构需要对推理常见计算图更“对口”。
以单位成本支撑更大并发:推理商业化的核心变量是单位成本与单位能效,最终比拼的是在可控成本下能承载多大规模的并发请求、能做到怎样的时延稳定性。
“推理阶段真正的挑战,不在于单点算力峰值,而在于单位成本下能支撑多大规模的并发推理。”陈宁强调,GPNPU 试图在满足推理负载特性的前提下,构建更具经济性的算力形态,为大规模 AI 应用提供可持续的算力底座。
从端侧到云端:云天励飞的推理芯片积累与中长期布局
长期以来,云天励飞被外界视为一家“端侧 AI 芯片公司”。对此,陈宁强调,端侧只是公司早期阶段的切入点,而非长期边界。他回顾称,在 2018 年之前,AI 仍处于智能感知阶段,端侧、小算力芯片是更现实的落地形态;但从 2018 年开始,公司已系统性进入边缘计算方向,并随着 AI 应用复杂度提升,逐步向更高算力层级演进。
从“积累”角度看,云天励飞在推理芯片上的能力沉淀,更像是一条从场景到架构的反向路径:一方面,端侧与边缘阶段的长期落地经验,让公司更早面对推理真实约束——成本、功耗、时延、稳定性、部署与运维,而不是只在理想条件下追求峰值指标;另一方面,随着 Transformer 与智能体应用兴起,推理负载快速复杂化,企业需要把对推理计算结构(例如 prefill/decode 分化、并发调度特性、访存/带宽瓶颈等)的理解,固化为芯片架构与系统软件的协同设计能力。
“做云端推理不是转型,而是顺着应用形态和算力结构演进做的自然外延。”陈宁表示,目前云天励飞已形成端侧、边缘、云端并行推进的技术布局。随着智能体、AI 原生应用和行业级智能系统不断涌现,单一层级算力难以承载完整需求:端侧负责就近交互与隐私敏感任务,边缘承接区域级低时延推理,云端则负责高吞吐、高并发的大规模推理服务。云端推理由此成为不可或缺的一环,也是公司下一阶段的重要投入方向。
在政策层面,陈宁注意到国家已释放出清晰信号。近期发布的“AI+”相关指导文件提出,到 2027 年,AI 应用和智能体在重点领域的渗透率要超过 70%;到 2030 年,将接近 90%。
这意味着,在补齐基础能力的同时,中国正将应用落地与推理规模化作为重要发展路径。陈宁表示,真正决定一场产业革命的,不是模型在实验室里能跑多快,而是能不能以足够低的成本、足够高的效率跑进现实世界——而这正是云端推理算力与推理芯片的价值所在。

