性能对标Gemini 2.5 Pro！蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0--快科技--科技改变未来

正文内容 评论（0）

性能对标Gemini 2.5 Pro！蚂蚁开源新一代全模态大模型Ming-Flash-Omni 2.0

2026-02-11 11:22:43 出处：快科技作者：秋白编辑：秋白评论(0)

复制

纠错

#蚂蚁集团 #大模型

快科技2月11日消息今日，蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0。

在多项公开基准测试中，该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出，部分指标超越 Gemini 2.5 Pro，成为开源全模态大模型性能新标杆。

Ming-Flash-Omni 2.0 也是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐。

用户只需用自然语言下指令，即可对音色、语速、语调、音量、情绪与方言等进行精细控制。

模型在推理阶段实现了 3.1Hz 的极低推理帧率，实现了分钟级长音频的实时高保真生成，在推理效率与成本控制上保持业界领先。

蚂蚁集团在全模态方向已持续投入多年，Ming-Omni 系列迭代三个版本，此次将 Ming-Flash-Omni 2.0 开源，意味着其核心能力以“可复用底座”的形式对外释放，为端到端多模态应用开发提供统一能力入口。

据了解，Ming-Flash-Omni 2.0基于 Ling-2.0 架构（MoE，100B-A6B）训练，围绕“看得更准、听得更细、生成更稳”三大目标全面优化。

视觉方面，融合亿级细粒度数据与难例训练策略，显著提升对近缘动植物、工艺细节和稀有文物等复杂对象的识别能力；

音频方面，实现语音、音效、音乐同轨生成，支持自然语言精细控制音色、语速、情绪等参数，并具备零样本音色克隆与定制能力；

图像方面，增强复杂编辑的稳定性，支持光影调整、场景替换、人物姿态优化及一键修图等功能，在动态场景中仍保持画面连贯与细节真实。

目前，Ming-Flash-Omni 2.0 的模型权重、推理代码已在 Hugging Face 等开源社区发布。用户也可通过蚂蚁百灵官方平台 Ling Studio 在线体验与调用。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：秋白

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#蚂蚁集团 #大模型 #Gemini

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波