能看懂、听懂！豆包Seed 2.0 Lite升级：首款全模态理解模型--快科技--科技改变未来

正文内容 评论（0）

能看懂、听懂！豆包Seed 2.0 Lite升级：首款全模态理解模型

2026-05-06 21:18:53 出处：快科技作者：拾柒编辑：拾柒评论(0)

复制

纠错

#豆包 #豆包大模型

快科技5月6日消息，今日，火山引擎宣布，Doubao-Seed-2.0-lite升级新版本，这是豆包大模型家族首款全模态理解模型。

据介绍，新版Doubao-Seed-2.0-lite支持视频、图像、音频、文本的原生统一理解，Agent、Coding与GUI能力也同步升级，进一步面向复杂业务场景增强多模态推理能力。

在视觉理解方面，Doubao-Seed-2.0-lite继续大幅提升，在物理HiPhO、医疗MedXpertQA等高阶学科推理任务上，新版本表现已大幅超越今年2月发布的Doubao-Seed-2.0-pro。

同时，该模型在细粒度感知BabyVision、WorldVQA，以及具身理解ERQA等关键领域达到SOTA水平，更适合企业在高价值场景中进行规模化部署。

加粗表示最优结果，下划线表示次优结果

此次升级的一大重点是融入语音理解能力，新版本可同时理解多种输入模态，并完成跨模态联合推理，能够直接处理那些必须“音画结合”才能判断的复杂业务需求。

例如在视频理解场景下，Doubao-Seed-2.0-lite可以联合分析视频画面与音频信息，精准判断视频中的视听一致性，也就是“看到的”和“听到的”是否匹配。

它还支持根据自然语言指令，在视频中精准定位特定事件发生的时间点，并能跨越多个时间段提取关键线索，持续追踪人物与事件发展，基于画面进行多步逻辑推理，还原事件关系与行为脉络。

音频能力方面，新模型支持19个语种的精准语音转写，以及中英文与其他14个语种互译。

此外，它还能捕捉语音中的情绪变化、环境背景声与音乐细节，输出更完整、更接近人类认知的语义信息。

根据公开评测集，Doubao-Seed-2.0-lite在语音识别、翻译等多项音频理解基准上优于Gemini-3.1-Pro。

值得一提的是，Doubao-Seed-2.0-lite还深度适配OpenClaw、Hermes Agent等框架，强化深度搜索与Skill动态调用，可在执行任务过程中持续沉淀经验，实现“越用越聪明”。

能看懂、听懂！豆包Seed 2.0 Lite升级：首款全模态理解模型

【本文结束】如需转载请务必注明出处：快科技

责任编辑：拾柒

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#豆包 #豆包大模型 #模型

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波