正文内容 评论(0

全球首个!京东全栈开源JoyAI-VL-Interaction:让大模型边看边说
2026-06-22 17:05:58  出处:快科技 作者:建嘉 编辑:建嘉     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

快科技6月22日消息,京东正式开源JoyAI-VL-Interaction实时视频视觉语言交互模型,这是全球首个全栈开源的视觉交互模型与整套部署系统。

上线即原生适配vLLM-Omni,彻底改变传统多模态模型“一问一答”的交互模式,实现AI持续观看实时画面、自主判断、主动响应的流式交互能力。

全球首个!京东全栈开源JoyAI-VL-Interaction:让大模型边看边说

传统图文/视频大模型均为被动问答模式,需用户主动提问才会分析画面,难以适配实时监控、动态实景场景;该模型实现三重革新:

主动自主判断:持续读取摄像头、监控、直播等实时视频流,自主识别关键事件并主动提醒,无事件时自动保持静默,无需人工触发指令,例如监控识别火情、老人摔倒可即时预警。

低延迟实时响应:面向正在发生的画面流式处理,而非等完整视频上传后复盘,满足安防、实时翻译、直播讲解等对时效性要求高的场景。

前台观测+后台分工协作:遇到复杂推理、代码生成、工具调用等重任务时,可委托后台Agent处理,前台模型不间断持续观测画面,任务完成后无缝接续交互。

不同于多数仅开放模型权重的项目,本次开源包含模型权重、专属交互数据集、完整训练方案、全套可部署工程框架,支持灵活替换语音模块、可视化界面、第三方Agent与业务接口。

兼容摄像头、监控流、直播流多路视频输入,自带长期记忆、语音收发、vLLM快速部署能力,可快速搭建各类实景AI工具:居家老人儿童看护、安防自动预警、直播实时解说、电商导购、智能眼镜无障碍辅助、工业操作指导等。

全球首个!京东全栈开源JoyAI-VL-Interaction:让大模型边看边说

在覆盖监控预警、实时计数、实时翻译、直播解说等58组真人盲测案例中,对比豆包视频交互助手,整体胜率77.6%;对比Gemini视频交互助手,整体胜率87.9%;安防预警场景对两款竞品达成100%胜率。

这源于交互模型相较传统“一问一答”的回合制模型的天然优势:自主交互性长在模型内部,而非依赖外部触发。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:建嘉

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...