全球首个！京东全栈开源JoyAI-VL-Interaction：让大模型边看边说--快科技--科技改变未来

正文内容 评论（0）

全球首个！京东全栈开源JoyAI-VL-Interaction：让大模型边看边说

2026-06-22 17:05:58 出处：快科技作者：建嘉编辑：建嘉评论(0)

复制

纠错

#JoyAI-VL-Interaction #京东

快科技6月22日消息，京东正式开源JoyAI-VL-Interaction实时视频视觉语言交互模型，这是全球首个全栈开源的视觉交互模型与整套部署系统。

上线即原生适配vLLM-Omni，彻底改变传统多模态模型“一问一答”的交互模式，实现AI持续观看实时画面、自主判断、主动响应的流式交互能力。

传统图文/视频大模型均为被动问答模式，需用户主动提问才会分析画面，难以适配实时监控、动态实景场景；该模型实现三重革新：

主动自主判断：持续读取摄像头、监控、直播等实时视频流，自主识别关键事件并主动提醒，无事件时自动保持静默，无需人工触发指令，例如监控识别火情、老人摔倒可即时预警。

低延迟实时响应：面向正在发生的画面流式处理，而非等完整视频上传后复盘，满足安防、实时翻译、直播讲解等对时效性要求高的场景。

前台观测+后台分工协作：遇到复杂推理、代码生成、工具调用等重任务时，可委托后台Agent处理，前台模型不间断持续观测画面，任务完成后无缝接续交互。

不同于多数仅开放模型权重的项目，本次开源包含模型权重、专属交互数据集、完整训练方案、全套可部署工程框架，支持灵活替换语音模块、可视化界面、第三方Agent与业务接口。

兼容摄像头、监控流、直播流多路视频输入，自带长期记忆、语音收发、vLLM快速部署能力，可快速搭建各类实景AI工具：居家老人儿童看护、安防自动预警、直播实时解说、电商导购、智能眼镜无障碍辅助、工业操作指导等。

在覆盖监控预警、实时计数、实时翻译、直播解说等58组真人盲测案例中，对比豆包视频交互助手，整体胜率77.6%；对比Gemini视频交互助手，整体胜率87.9%；安防预警场景对两款竞品达成100%胜率。

这源于交互模型相较传统“一问一答”的回合制模型的天然优势：自主交互性长在模型内部，而非依赖外部触发。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：建嘉

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#JoyAI-VL-Interaction #京东 #大模型

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波