吉利×赋之×阶跃星辰×瑞芯微×声网：春夏巡游拆解消费级机器人核心布局--快科技--科技改变未来

正文内容 评论（0）

吉利×赋之×阶跃星辰×瑞芯微×声网：春夏巡游拆解消费级机器人核心布局

2026-05-22 15:34:49 作者：cici 编辑：cici 评论(0)

复制

纠错

#快讯

5月16日，声网 RTE 2026 春夏巡游首站在深圳落地。沙龙主题是「消费级机器人的多模态交互“实时进化论”」。

声网邀请了吉利汽车研究院、赋之科技、阶跃星辰、瑞芯微的嘉宾现场分享干货内容。场外，赋之、陆吾、二白等机器人产品以及各类开发板开放体验，让到场同行在聆听分享的同时，也能亲手感受当前消费级机器人的真实交互。

[MD:Title]

以下是五位嘉宾分享的精彩节选。

吉利杨硕：

车是中枢，“贾维斯”才是灵魂

作为国内头部车企的 AI 研发力量，吉利汽车研究院长期在机器人领域重投入。其人工智能中心全域 AI 业务负责人杨硕的分享，从三个行业痛点切入：

· 智能设备各说各的，用户上下文无法跨端流动

· 眼镜和音箱端侧算力有限，车载芯片动辄几百 TOPS 却在空转

· 一个用户面对多个AI人格，体验完全割裂

[MD:Title]

基于这组痛点，杨硕提出判断：车是唯一同时具备算力、电力、空间、数据四大集中优势的智能终端。因此应被定位为“第三空间中枢”，联动眼镜、机器人、家居，形成完整的智能环。

技术底座是 WAM——World Action Model，世界行为模型。核心逻辑是认知统一而非功能集成。架构上采用“1+2+N”：1个 WAM 整车大脑，2大核心智能体（座舱、智驾），N个子域智能体，座舱和智驾共享同一个底层认知。算力底座是星睿智算中心。面向用户的人格化载体是超级 Eva，由阶跃星辰 x 吉利×千里科技三方联合打造，首款量产车型为极氪 8X 。产品矩阵三端协同：车端中枢、AI 眼镜视觉延伸、机器人物理代理。

杨硕分享中最值得机器人行业关注的，是这套架构对机器人角色的重新定义。机器人不是孤立终端，而是接入整车算力与 WAM 认知基座的物理执行节点——车辆接近家门时机器人提前开启空调，检测到异常时机器人是第一通知节点。复杂视觉和规划任务可调用车载WAM或云端推理，突破自身端侧的算力上限。家庭机器人的能力上限，可能不取决于终端算力，而取决于它所接入的全场景网络的资源调度能力。

“未来的车不属于你，但属于你的贾维斯永远随行。”

[MD:Title]

赋之李光东：

真实家庭，是技术唯一的检验场

赋之科技旗下 EBO 系列产品已进入全球160多个国家，是少数跑通了“量产—销售—迭代”闭环的终端厂商。赋之科技产品负责人李光东的分享，没有谈技术架构，而是把用户在真实使用中给出的反馈，一条条摆了出来。

[MD:Title]

1. 用户对“慢”的容忍度，远低于行业预期。 “你的响应还不如我两百块的智能音箱快。”当用户已经习惯了智能音箱的唤醒速度，任何更高的延迟都会被放大为“笨”和“不可用”。Enabot 接入声网 RTC ，从 Agent 框架、模型训练、部署到交互节奏做全链路提速——先让用户“说得出口、等得起”。

2. 用户要的不是“我明白了”，是执行结果。 “给我拍张全身照”——拆开是构图、距离、角度、执行的完整闭环。Enabot 的解法是产品侧用引导式交互把模糊指令变可执行。

3. 用户对“像人”的要求，涵盖避障、识别和记忆。导航避障要稳。家庭成员识别要靠谱，“看不见脸也能知道你是谁”。记忆要有连续性。这是“空间—身份—记忆”的长期系统能力。

4. 用户用钱包投票。机器人多出来的成本，必须换成更高频、更省心的家庭价值。长远看，成本往下走、能力往上走，两条曲线终会交汇。当前策略是围绕高频场景做透，例如日程提醒、找人/找宠、跌倒检测等。

声网姚光华：

玩具到伙伴，是从被使用到被记住的距离

声网长期深耕实时音视频和对话式 AI 领域。在本场沙龙中，声网 AI 产品线负责人姚光华的分享从一个品类级的留存困境展开：为什么九成消费机器人3天就被扔进抽屉？

他给出了一组数据：Day 1 开箱新鲜感拉满，Day 2 聊半小时还行，Day 3 对话像背词卡，Day 4 抽屉吃灰。行业调研显示，21%用户满意度低，45%用户流失。

姚光华的判断是：更大的模型、更快的响应、更多的功能，都没有改善这条曲线。问题不在技术性能，在关系。“用户买的不是更聪明的玩具，是更值得相处的伙伴。3天扔抽屉，是这种关系的破裂。”

[MD:Title]

他把“失败的关系”拆成身份漂移、记忆失忆、关系破裂、临场缺席四个维度，并给出了可量化的工程基准：临场对话延迟的理想区间是 0-200ms，超过 1.5s 就不再是对话而是等待；一个人一生值得被保存的对话上下文约 0.29TB ，这就是机器人从“工具”走到“伙伴”的记忆门槛。

把这些指标串联起来的，是他提出的活人感三要素：实时听见、立刻想起、当下回应。这三个词不是体验描述，是工程指标——延迟控制、记忆检索、对话策略，每一项都可以度量、优化、迭代。

基于这套方法论，声网将实时音视频与对话式 AI 能力整合为可集成的对话式 AI 引擎和对话式 AI 开发套件 R1 ，把临场交互的核心能力封装为模块化方案，让硬件厂商可以直接调用，不必从零搭建交互层。

[MD:Title]

姚光华最后用三句话收敛了整个方法论：“别听错、别失控、别让人等。”以及声网自身的边界：“模型决定能力上限，引擎决定体验下限。声网不做角色定义，不做模型，不做芯片，只做一件事：让角色在每一次对话里实时立得住的引擎。”

[MD:Title]

阶跃星辰赵皓天：

模型的短板不在“聪明”，在“听懂现场”

阶跃星辰作为国内基础大模型领域的头部创业公司，旗下 Step 系列模型矩阵覆盖语音、视觉、Agent 等全模态方向。

阶跃星辰 IoT 负责人赵皓天的分享，从机器人交互的三个基本方向切入：声音、视觉、规划和执行。三个方向各有各的落地难点，但共性问题是一致的——模型在实验室表现很好，进了真实场景就会出状况。

先从声音说起。语音交互最大的隐性损耗，发生在 ASR 转写环节。同样的文字“你在干什么”，不同语气分别意味着疑问和制止，但传统 ASR 三级链路（转写→文字推理→TTS 输出）很容易丢失语气、情绪、环境音这些副语言信息。阶跃的解法是端到端语音模型——绕过三段式，直接对语音输入做推理。阶跃 Step Audio R1.1 语音推理模型以96.4%的准确率超越了 Grok、Gemini、GPT-Realtime 等主流模型。

[MD:Title]

再看视觉。传统视觉识别是触发式的——拍到一帧，分析一帧。但真实环境是动态的。孩子是否在靠近？桌沿水杯是否快要掉落？水在蔓延、孩子在移动——这些状态变化需要持续理解，而非单帧判断。阶跃的全天候视觉推理方案，持续对环境做理解，输出状态变化判断和风险等级更新，形成行动安全闭环。Step3 VL 10B在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平，并且解决了参数量小和智能水平高难以兼优的行业难题。通过PaCoRe（并行协调推理）机制，在复杂计数、高精度 OCR、空间拓扑理解等高难度任务的可靠性上，实现了质的飞跃。

最后是规划和执行。用户真正想要的是一个能把事完成的机器人。"我的挂号单在哪找"听起来是个问题，实际上是一个任务。短信、微信小程序、医保码、缴费页，涉及到任务的规划与执行，中间任何出错，都会导致任务失败。长链路任务的执行对模型的要求跟普通问答完全不一样。而 Step 3.5 Flash 专为 Agent 而生。该模型采用稀疏 MoE 架构，每个 token 仅需激活约 110 亿参数，推理速度最高350 TPS；MTP-3 一次预测多个 Token，效率实现翻倍；滑动窗口和全局注意力混合架构，高效处理 256K 超长上下文。

Step GUI 补上了最后一环——Agent 可以基于指令直接操作屏幕上的按钮和入口，真正意义上替用户把事情做完。

瑞芯微王鹏程：

端侧 AI 蓄势待发，芯片端已做好准备

瑞芯微电子股份有限公司是国内端侧 AI 芯片领域的头部上市公司，RK 系列 SoC 已在多家机器人企业的主控方案中量产落地，是消费级机器人产业链的算力基座。

高级市场经理王鹏程的分享，从一个产业共识切入：端侧 AI 的四个驱动力——隐私安全、实时性、Token 带宽成本、可靠性——已经没有争议。小参数模型能力也在快速跃升，Qwen 3.5-4B已经超越了此前的 8B 甚至 14B 参数模型。

[MD:Title]

但共识之下，落地的物理约束仍然坚硬。大模型运行需要超大带宽，Transformer 和 Attention 架构需要硬件级别的支持。 AI 算力功耗叠加 DRAM 访存功耗，是双重大山。外挂 DDR 的容量和成本，直接决定了产品 BOM 能不能扛住。

瑞芯微的解法分两条线。主控路线覆盖 0.5 TOPS 到6 TOPS ，匹配不同价位的产品需求。协处理器路线以 RK182X 为核心——这是一颗专为端侧大模型设计的 AI 推理芯片。设计逻辑很直接：内嵌 2.5GB/5GB DRAM，不挂外挂 DDR，实测带宽几百 GB/s，访存功耗比 SoC 低一个数量级。3B 模型推理输出100+ TPS，5GB 版支持 8B 模型。NPU 硬件直接支持 Transformer 和 Attention，W4A16 量化加 FP16 激活。

王鹏程坦言，虽然技术目前仍有一定局限性，但目前场景还需要持续扩展。芯片的内嵌 DRAM、高带宽、低功耗方案已经就位，主控+协处理器的解耦架构也解决了升级灵活性和成本平衡问题——不改主板， USB/PCIe 外挂即可，换模组不换整机。但哪一个场景率先跑通商业闭环，反向定义芯片的规格，这个问题还没有答案。“某一个场景爆发之后，我们可以针对对应的模型出对应的芯片。现阶段需要产业链一起把蛋糕做大。”

总结：从单点突破到系统工程

五场分享，串起了消费级机器人当前最核心的几条行业趋势：

交互正在被工程化。过去谈“活人感”，是产品体验层面的模糊描述。现在，它被拆解为延迟基准线（0-200ms理想，1.5s是底线）、身份一致性框架、三层记忆架构，以及选择性注意力锁定等具体技术指标。交互质量正在从“感觉”变成可度量、可优化的工程参数。

[MD:Title]