小米自研MiMo-V2-TTS语言合成大模型发布：能说会唱河南话、粤语等样样精通--快科技--科技改变未来

正文内容 评论（0）

小米自研MiMo-V2-TTS语言合成大模型发布：能说会唱河南话、粤语等样样精通

2026-03-19 01:30:14 出处：快科技作者：拾柒编辑：拾柒评论(0)

复制

纠错

#小米 #大模型

快科技3月19日消息，今日，小米发布Xiaomi MiMo-V2-TTS，这是小米自研语音合成大模型，不仅能说、能演，还会唱。

其基于自研Audio Tokenizer和多码本语音-文本联合建模架构，经过上亿小时语音数据的大规模预训练与多维度强化学习，实现高度可控的多粒度语音风格控制。

该模型支持从整体风格定调到局部情绪表达的精准调节，能在同一句话内完成语气转折和情感递变，真实还原人类说话的自然韵律，在唱歌时，也能准确表达音高和节奏，自然且富有表现力。

为进一步激发模型在大规模预训练中积累的高表现力语音生成潜力，小米还引入了多维度强化学习，兼顾稳定性与表现力。

模型在预训练阶段通过大量文本-语音对齐数据，学习了书面语与口语表达之间的映射关系，能智能识别文本中的各类格式信号——如标点符号、语气词、强调标记等，并将其自动转化为恰当、自然的语音表达，全程无需用户额外标注或手动干预。

MiMo-V2-TTS还支持多种方言的自然发音，包括东北话、四川话、河南话、粤语、台湾腔等，可进行角色扮演式的风格化演绎，还能实现高质量的歌声合成。

小米表示，MiMo-V2-TTS是其语音技术路线图上的重要里程碑，但绝非终点。

在小米的规划中：中英文之外更多语种的覆盖；以及与 MiMo-V2-Omni 多模态理解能力的深度融合——让 Agent不仅能看懂世界、理解世界，更能以富有表现力的人类声音去讲述这个世界。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：拾柒

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#小米 #大模型 #MiMo-V2-TTS

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波