语音模型也能freestyle！阿里新模型可定制角色、模拟背景音--快科技--科技改变未来

正文内容 评论（0）

语音模型也能freestyle！阿里新模型可定制角色、模拟背景音

2026-03-02 17:36:38 出处：快科技作者：哈尔编辑：哈尔评论(0)

复制

纠错

#大语言模型 #阿里巴巴

快科技3月2日消息，今日，阿里发布两款语音新模型，基于参考音频的声音克隆模型Fun-CosyVoice3.5、无参考音频的音色设计模型Fun-AudioGen-VD。

据介绍，两款模型均引入了强大的“指令遵循”能力，自由控制声音的情感、语速、场景等。

其可用freestyle（自由风格模式）定制角色，适用于有声书、游戏、客服、播客、教育、直播等多个场景。

值得注意的是，两款模型在同尺寸模型的基准评测中斩获多项SOTA。

在Seed-TTS基准测试的中文“困难案例”指标中，Fun-CosyVoice3.5表现抢眼，词错误率(Word Error Rate,WER)和说话人相似度(Speaker Similarity,SSIM)均为最佳。

同时，因为优化了“困难案例”的发音，生僻字句错率由15.2%降低到5.3%。

其中，Fun-CosyVoice3.5支持freestyle指令控制，解决了传统克隆模型只会模仿不能指定角色的痛点。

Fun-AudioGen-VD专注“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中超过gemini2.5-pro和gpt-4o-mini-tts。

该模型不仅能根据描述定制音色和情感，还能同步模拟复杂的听觉环境，实现“人物+场景”的一体化。

在强化学习中，两款模型通过使用DiffRO和GRPO，增加了时长和韵律多通道的奖励。

此外，Fun-CosyVoice3.5所用的tokenizer帧率减半，提高训练效率，且首包延迟降低35%，大幅提升了实时交互体验。

即日起，用户可在阿里云百炼调用这两款最新模型。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：哈尔

文章内容举报

文章价值打分

当前文章打分0 分，共有0人打分

0
0
0
打赏
|

分享好友:
分享至QQ
分享至微博
分享至QQ空间
|

生成海报

本文收录在

#大语言模型 #阿里巴巴 #定制

好物推荐

换一波

关注我们

微博：快科技官方
快科技官方微博
今日头条：快科技
带来硬件软件、手机数码最快资讯！
抖音：kkjcn
科技快讯、手机开箱、产品体验、应用推荐...

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章

换一波

好物推荐

换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容 评论（0）

相关资讯

文章价值打分

本文收录在

热门文章 换一波

好物推荐 换一波

关注我们

微博：快科技官方

今日头条：快科技

抖音：kkjcn

热点推荐

好物推荐

图片信息

正文内容评论（0）

热门文章

换一波

好物推荐

换一波