小米发布并开源首代机器VLA大模型！刷新多项SOTA--快科技--科技改变未来

正文内容 评论（0）

小米发布并开源首代机器VLA大模型！刷新多项SOTA

2026-02-12 11:29:36 出处：快科技作者：建嘉编辑：建嘉评论(0)

复制

纠错

#机器人 #VLM

快科技2月12日消息，小米正式发布并开源首代机器人VLA大模型——Xiaomi-Robotics-0。

该模型拥有47亿参数，核心解决了传统VLA模型推理延迟、真机动作不连贯的行业痛点，兼具视觉语言理解与高性能实时执行能力，可在消费级显卡上实现实时推理，在仿真测试和真机任务中均刷新多项SOTA成绩。

Xiaomi-Robotics-0采用Mixture-of-Transformers(MoT)混合架构，通过“视觉语言大脑+动作执行小脑”的组合，实现感知、决策、执行的高效闭环，兼顾通用理解与精细动作控制。

视觉语言大脑（VLM）：以多模态VLM大模型为底座，能精准理解人类模糊自然指令，同时捕捉高清视觉输入中的空间关系，是模型的“决策核心”；

动作执行小脑（Action Expert）：嵌入多层Diffusion Transformer(DiT)，不直接输出单一动作，而是生成高频、平滑的“动作块”，并通过流匹配技术保障动作精准度，让机器人动作更具物理灵活性。

为避免模型学动作丢失基础理解能力，小米设计了跨模态预训练+后训练的两阶段训练方法，让模型既懂常识又精通体力活。

跨模态预训练：先通过多模态与动作数据混合训练，引入Action Proposal机制让VLM的特征空间与动作空间对齐；再冻结VLM专注训练DiT，使其从噪声中恢复精准动作序列，保障动作的平滑性；

后训练：这是解锁物理智能的核心，采用异步推理模式从机制上解决真机“动作断层”问题；同时引入Clean Action Prefix保障动作轨迹时间连续性，通过Λ-shape Attention Mask让模型聚焦当前视觉反馈、摆脱历史惯性，大幅提升机器人对环境突发变化的响应能力。

实测该模型在多维度测试中均展现出行业领先水平，实现“仿真通、真机强、多模态能力不丢失”的突破。

仿真测试：在LIBERO、CALVIN、SimplerEnv三大主流仿真测试的所有Benchmark中，对比30种现有模型均取得当前最优结果；

真机任务：在双臂机器人平台部署后，面对积木拆解、叠毛巾等长周期、高难度任务，展现出极高的手眼协调性，能灵活处理刚性积木和柔性织物等不同材质物体；

多模态能力：保留了VLM本身的物体检测、视觉问答、逻辑推理等能力，在具身相关基准测试中表现优异，弥补了传统VLA模型重动作、轻理解的短板。

小米已将Xiaomi-Robotics-0的技术主页、开源代码、模型权重全量开放，相关资源可分别在GitHub、Hugging Face等平台获取，为全球具身智能领域的开发者和研究机构提供免费技术支持。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：建嘉

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#机器人 #VLM #小米 #大模型

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波