正文内容 评论(0

可玩可交互!业界首个媲美Genie 3的开源世界模型来了
2026-01-29 10:39:18  出处:快科技 作者:哈尔 编辑:哈尔     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

快科技1月29日消息,今日,蚂蚁灵波科技再次刷新行业预期,开源发布世界模型LingBot-World。

该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上均媲美Google Genie 3。

旨在为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”。

可玩可交互!业界首个媲美Genie 3的开源世界模型来了

针对视频生成中最常见的“长时漂移”问题,LingBot-World实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。

用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。

此外,用户可通过文本触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化。

可玩可交互!业界首个媲美Genie 3的开源世界模型来了

一致性压力测试,镜头最长移开60秒后返回,目标物体仍存在且结构一致

可玩可交互!业界首个媲美Genie 3的开源世界模型来了

高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致

可玩可交互!业界首个媲美Genie 3的开源世界模型来了

镜头长时间移开后返回,房屋仍存在且结构一致

同时,该模型具备Zero-shot泛化能力,仅需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流。

LingBot-World凭借长时序一致性、实时交互响应,以及对"动作-环境变化"因果关系的理解,能够在数字世界中"想象"物理世界,为智能体的场景理解和长程任务执行提供了一个低成本、高保真的试错空间。

同时,LingBot-World支持场景多样化生成(如光照、摆放位置变化等),也提升了具身智能算法在真实场景中的泛化能力。

随着“灵波”系列连续发布“空间感知”、“VLA基座”“LingBot-World”三款具身领域大模型,蚂蚁的AGI战略实现了从数字世界到物理感知的关键延伸。

蚂蚁正通过InclusionAI社区将模型全部开源,和行业共建,探索AGI的边界。

目前,LingBot-World模型权重及推理代码已面向社区开放。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:哈尔

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...