正文内容 评论(0

吉利×赋之×阶跃星辰×瑞芯微×声网:春夏巡游拆解消费级机器人核心布局
2026-05-22 15:34:49  作者:cici 编辑:cici     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

5月16日,声网 RTE 2026 春夏巡游首站在深圳落地。沙龙主题是「消费级机器人的多模态交互“实时进化论”」。

声网邀请了吉利汽车研究院、赋之科技、阶跃星辰、瑞芯微的嘉宾现场分享干货内容。场外,赋之、陆吾、二白等机器人产品以及各类开发板开放体验,让到场同行在聆听分享的同时,也能亲手感受当前消费级机器人的真实交互。

[MD:Title]

以下是五位嘉宾分享的精彩节选。

吉利杨硕:

车是中枢,“贾维斯”才是灵魂

作为国内头部车企的 AI 研发力量,吉利汽车研究院长期在机器人领域重投入。其人工智能中心全域 AI 业务负责人杨硕的分享,从三个行业痛点切入:

· 智能设备各说各的,用户上下文无法跨端流动

· 眼镜和音箱端侧算力有限,车载芯片动辄几百 TOPS 却在空转

· 一个用户面对多个AI人格,体验完全割裂

[MD:Title]

基于这组痛点,杨硕提出判断:车是唯一同时具备算力、电力、空间、数据四大集中优势的智能终端。 因此应被定位为“第三空间中枢”,联动眼镜、机器人、家居,形成完整的智能环。

技术底座是 WAM——World Action Model,世界行为模型。核心逻辑是认知统一而非功能集成。架构上采用“1+2+N”:1个 WAM 整车大脑,2大核心智能体(座舱、智驾),N个子域智能体,座舱和智驾共享同一个底层认知。算力底座是星睿智算中心。面向用户的人格化载体是超级 Eva,由阶跃星辰 x 吉利×千里科技三方联合打造,首款量产车型为极氪 8X 。产品矩阵三端协同:车端中枢、AI 眼镜视觉延伸、机器人物理代理。

杨硕分享中最值得机器人行业关注的,是这套架构对机器人角色的重新定义。机器人不是孤立终端,而是接入整车算力与 WAM 认知基座的物理执行节点——车辆接近家门时机器人提前开启空调,检测到异常时机器人是第一通知节点。复杂视觉和规划任务可调用车载WAM或云端推理,突破自身端侧的算力上限。家庭机器人的能力上限,可能不取决于终端算力,而取决于它所接入的全场景网络的资源调度能力。

“未来的车不属于你,但属于你的贾维斯永远随行。”

[MD:Title]

赋之李光东:

真实家庭,是技术唯一的检验场

赋之科技旗下 EBO 系列产品已进入全球160多个国家,是少数跑通了“量产—销售—迭代”闭环的终端厂商。赋之科技产品负责人李光东的分享,没有谈技术架构,而是把用户在真实使用中给出的反馈,一条条摆了出来。

[MD:Title]

1. 用户对“慢”的容忍度,远低于行业预期。 “你的响应还不如我两百块的智能音箱快。”当用户已经习惯了智能音箱的唤醒速度,任何更高的延迟都会被放大为“笨”和“不可用”。Enabot 接入声网 RTC ,从 Agent 框架、模型训练、部署到交互节奏做全链路提速——先让用户“说得出口、等得起”。

2. 用户要的不是“我明白了”,是执行结果。 “给我拍张全身照”——拆开是构图、距离、角度、执行的完整闭环。Enabot 的解法是产品侧用引导式交互把模糊指令变可执行。

3. 用户对“像人”的要求,涵盖避障、识别和记忆。 导航避障要稳。家庭成员识别要靠谱,“看不见脸也能知道你是谁”。记忆要有连续性。这是“空间—身份—记忆”的长期系统能力。

4. 用户用钱包投票。 机器人多出来的成本,必须换成更高频、更省心的家庭价值。长远看,成本往下走、能力往上走,两条曲线终会交汇。当前策略是围绕高频场景做透,例如日程提醒、找人/找宠、跌倒检测等。

声网姚光华:

玩具到伙伴,是从被使用到被记住的距离

声网长期深耕实时音视频和对话式 AI 领域。在本场沙龙中,声网 AI 产品线负责人姚光华的分享从一个品类级的留存困境展开:为什么九成消费机器人3天就被扔进抽屉?

他给出了一组数据:Day 1 开箱新鲜感拉满,Day 2 聊半小时还行,Day 3 对话像背词卡,Day 4 抽屉吃灰。行业调研显示,21%用户满意度低,45%用户流失。

姚光华的判断是:更大的模型、更快的响应、更多的功能,都没有改善这条曲线。问题不在技术性能,在关系。“用户买的不是更聪明的玩具,是更值得相处的伙伴。3天扔抽屉,是这种关系的破裂。”

[MD:Title]

他把“失败的关系”拆成身份漂移、记忆失忆、关系破裂、临场缺席四个维度,并给出了可量化的工程基准:临场对话延迟的理想区间是 0-200ms,超过 1.5s 就不再是对话而是等待;一个人一生值得被保存的对话上下文约 0.29TB ,这就是机器人从“工具”走到“伙伴”的记忆门槛。

把这些指标串联起来的,是他提出的活人感三要素:实时听见、立刻想起、当下回应。 这三个词不是体验描述,是工程指标——延迟控制、记忆检索、对话策略,每一项都可以度量、优化、迭代。

基于这套方法论,声网将实时音视频与对话式 AI 能力整合为可集成的对话式 AI 引擎和对话式 AI 开发套件 R1 ,把临场交互的核心能力封装为模块化方案,让硬件厂商可以直接调用,不必从零搭建交互层。

[MD:Title]

姚光华最后用三句话收敛了整个方法论:“别听错、别失控、别让人等。”以及声网自身的边界:“模型决定能力上限,引擎决定体验下限。声网不做角色定义,不做模型,不做芯片,只做一件事:让角色在每一次对话里实时立得住的引擎。”

[MD:Title]

阶跃星辰赵皓天:

模型的短板不在“聪明”,在“听懂现场”

阶跃星辰作为国内基础大模型领域的头部创业公司,旗下 Step 系列模型矩阵覆盖语音、视觉、Agent 等全模态方向。

阶跃星辰 IoT 负责人赵皓天的分享,从机器人交互的三个基本方向切入:声音、视觉、规划和执行。三个方向各有各的落地难点,但共性问题是一致的——模型在实验室表现很好,进了真实场景就会出状况。

先从声音说起。语音交互最大的隐性损耗,发生在 ASR 转写环节。 同样的文字“你在干什么”,不同语气分别意味着疑问和制止,但传统 ASR 三级链路(转写→文字推理→TTS 输出)很容易丢失语气、情绪、环境音这些副语言信息。阶跃的解法是端到端语音模型——绕过三段式,直接对语音输入做推理。阶跃 Step Audio R1.1 语音推理模型以96.4%的准确率超越了 Grok、Gemini、GPT-Realtime 等主流模型。

[MD:Title]

再看视觉。传统视觉识别是触发式的——拍到一帧,分析一帧。但真实环境是动态的。 孩子是否在靠近?桌沿水杯是否快要掉落?水在蔓延、孩子在移动——这些状态变化需要持续理解,而非单帧判断。阶跃的全天候视觉推理方案,持续对环境做理解,输出状态变化判断和风险等级更新,形成行动安全闭环。Step3 VL 10B在视觉感知、逻辑推理、数学竞赛以及通用对话等一系列基准测试中均达到同规模 SOTA 水平,并且解决了参数量小和智能水平高难以兼优的行业难题。通过PaCoRe(并行协调推理) 机制,在复杂计数、高精度 OCR、空间拓扑理解等高难度任务的可靠性上,实现了质的飞跃。

最后是规划和执行。用户真正想要的是一个能把事完成的机器人。"我的挂号单在哪找"听起来是个问题,实际上是一个任务。短信、微信小程序、医保码、缴费页,涉及到任务的规划与执行,中间任何出错,都会导致任务失败。长链路任务的执行对模型的要求跟普通问答完全不一样。而 Step 3.5 Flash 专为 Agent 而生。该模型采用稀疏 MoE 架构,每个 token 仅需激活约 110 亿参数,推理速度最高350 TPS;MTP-3 一次预测多个 Token,效率实现翻倍;滑动窗口和全局注意力混合架构,高效处理 256K 超长上下文。

Step GUI 补上了最后一环——Agent 可以基于指令直接操作屏幕上的按钮和入口,真正意义上替用户把事情做完。

瑞芯微王鹏程:

端侧 AI 蓄势待发,芯片端已做好准备

瑞芯微电子股份有限公司是国内端侧 AI 芯片领域的头部上市公司,RK 系列 SoC 已在多家机器人企业的主控方案中量产落地,是消费级机器人产业链的算力基座。

高级市场经理王鹏程的分享,从一个产业共识切入:端侧 AI 的四个驱动力——隐私安全、实时性、Token 带宽成本、可靠性——已经没有争议。小参数模型能力也在快速跃升,Qwen 3.5-4B已经超越了此前的 8B 甚至 14B 参数模型。

[MD:Title]

但共识之下,落地的物理约束仍然坚硬。大模型运行需要超大带宽,Transformer 和 Attention 架构需要硬件级别的支持。 AI 算力功耗叠加 DRAM 访存功耗,是双重大山。外挂 DDR 的容量和成本,直接决定了产品 BOM 能不能扛住。

瑞芯微的解法分两条线。主控路线覆盖 0.5 TOPS 到6 TOPS ,匹配不同价位的产品需求。协处理器路线以 RK182X 为核心——这是一颗专为端侧大模型设计的 AI 推理芯片。设计逻辑很直接:内嵌 2.5GB/5GB  DRAM,不挂外挂 DDR,实测带宽几百 GB/s,访存功耗比 SoC 低一个数量级。3B 模型推理输出100+ TPS,5GB 版支持 8B 模型。NPU 硬件直接支持 Transformer 和 Attention,W4A16 量化加 FP16 激活。

王鹏程坦言,虽然技术目前仍有一定局限性,但目前场景还需要持续扩展。 芯片的内嵌 DRAM、高带宽、低功耗方案已经就位,主控+协处理器的解耦架构也解决了升级灵活性和成本平衡问题——不改主板, USB/PCIe 外挂即可,换模组不换整机。但哪一个场景率先跑通商业闭环,反向定义芯片的规格,这个问题还没有答案。“某一个场景爆发之后,我们可以针对对应的模型出对应的芯片。现阶段需要产业链一起把蛋糕做大。”

总结:从单点突破到系统工程

五场分享,串起了消费级机器人当前最核心的几条行业趋势:

交互正在被工程化。 过去谈“活人感”,是产品体验层面的模糊描述。现在,它被拆解为延迟基准线(0-200ms理想,1.5s是底线)、身份一致性框架、三层记忆架构,以及选择性注意力锁定等具体技术指标。交互质量正在从“感觉”变成可度量、可优化的工程参数。

[MD:Title]

模型正在从“能回答”走向“能听懂现场”。语音推理模型绕过了传统 ASR 三段式的信息损耗,全天候视觉推理把触发式识别升级为持续性环境理解。模型能力提升的方向,不再是单纯的参数规模,而是对真实物理环境的感知精度和对长链路任务的执行稳定性。

端侧算力的约束正在从技术转向场景。芯片的内嵌 DRAM、高带宽、低功耗方案已经就位,主控+协处理器的解耦架构也解决了升级灵活性和成本平衡问题。当前最大的瓶颈不是芯片能不能跑得动大模型,而是哪个场景率先跑通商业闭环,反向定义芯片的规格。

[MD:Title]

终端产品正在成为所有技术的试金石。 赋之科技分享的用户反馈——对速度的苛求、对“像人”的期待、对价格的价值衡量——是整条产业链的最终考卷。技术供应链上每一个环节的进步,都要在用户的一句“还行”或“退了”中被检验。

而吉利杨硕的分享,拉出了一个更大的坐标系。当机器人走出客厅、走进座舱,多模态交互需要跨端连续、意图延续。今天在家庭场景里打磨的每一项能力,未来都可能被一个更大的全场景系统调用。消费级机器人,也许只是“人车家”全场景智能的第一站。

当交互层、模型层、芯片层、终端层同时就位,且每一层都开始理解相邻层面的约束和需求时,消费级机器人规模化的速度,会比任何人预期的都快。

声网RTE 2026春夏巡游将继续联动更多优秀的产业生态伙伴,在不同城市带来关于实时互动与对话式AI在不同场景中的精彩碰撞。敬请期待!

[MD:Title]

【本文结束】如需转载请务必注明出处:快科技

责任编辑:

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#快讯

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...