正文内容 评论(0

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音
2026-03-02 17:36:38  出处:快科技 作者:哈尔 编辑:哈尔     评论(0)点击可以复制本篇文章的标题和链接复制对文章内容进行纠错纠错

快科技3月2日消息,今日,阿里发布两款语音新模型,基于参考音频的声音克隆模型Fun-CosyVoice3.5、无参考音频的音色设计模型Fun-AudioGen-VD。

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

据介绍,两款模型均引入了强大的“指令遵循”能力,自由控制声音的情感、语速、场景等。

其可用freestyle(自由风格模式)定制角色,适用于有声书、游戏、客服、播客、教育、直播等多个场景。

值得注意的是,两款模型在同尺寸模型的基准评测中斩获多项SOTA。

在Seed-TTS基准测试的中文“困难案例”指标中,Fun-CosyVoice3.5表现抢眼,词错误率(Word Error Rate,WER)和说话人相似度(Speaker Similarity,SSIM)均为最佳。

同时,因为优化了“困难案例”的发音,生僻字句错率由15.2%降低到5.3%。

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

其中,Fun-CosyVoice3.5支持freestyle指令控制,解决了传统克隆模型只会模仿不能指定角色的痛点。

Fun-AudioGen-VD专注“从无到有”的音色设计。在指令遵循能力和可控性的Instruct-TTS基准测试中超过gemini2.5-pro和gpt-4o-mini-tts。

语音模型也能freestyle!阿里新模型可定制角色、模拟背景音

该模型不仅能根据描述定制音色和情感,还能同步模拟复杂的听觉环境,实现“人物+场景”的一体化。

在强化学习中,两款模型通过使用DiffRO和GRPO,增加了时长和韵律多通道的奖励。

此外,Fun-CosyVoice3.5所用的tokenizer帧率减半,提高训练效率,且首包延迟降低35%,大幅提升了实时交互体验。

即日起,用户可在阿里云百炼调用这两款最新模型。

【本文结束】如需转载请务必注明出处:快科技

责任编辑:哈尔

文章内容举报

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...