自然媲美人声讯飞有声全新升级构筑情感丰富“发音人”--快科技--科技改变未来

正文内容 评论（0）

自然媲美人声讯飞有声全新升级构筑情感丰富“发音人”

2022-11-19 17:35:34 作者：cici 编辑：cici 评论(0)

近年来随着AI技术的发展，语音合成技术正广泛应用于人们生活中的多种场景。语音合成又称文语转换（Text-To-Speech），简称TTS，是将输入的文字信息转化为可听的语音输出的机器或者系统，赋予机器“能听会说”中“说”的能力。

以“让机器能听会说、用人工智能建设美好世界”为使命的科大讯飞，在2022年科大讯飞全球1024开发者节期间带来了升级的全新一代SMART-TTS系统，让机器语音表达能力实现了媲美真人的水平。

[MD:Title]

如何让机器的声音媲美人类，是语音合成领域一直在探索的课题。科大讯飞自上世纪90年代，就开始在语音领域持续发力，并始终坚持源头技术创新，持续追求让中文语音合成达到极度拟人化的效果。随着端到端深度学习逐步拓展到语音合成领域，科大讯飞语音合成技术得到了质的飞跃。讯飞最新一代语音合成系统，邀请了业界语音语言学专家以及小白用户进行综合评测，MOS评分与真人录音之间差距小于0.05分。

“目前业界主流的合成系统和录音之间差距普遍在0.3~0.5分之间，也就说讯飞最新的合成效果领先业界2个代差左右，并且通常也把0.05分作为合成系统媲美真人录音的一个门槛条件，那么讯飞的合成系统在效果层面上已达到与真人录音相当的水平。”讯飞AI研究院语音合成负责人吴明辉曾在2022科大讯飞全球1024开发者节线上栏目《对话1024》上表示。

科大讯飞通过两大关键技术，即音库构建与语音合成技术，打造真实自然、情感丰富的合成音。讯飞最新一代合成技术在深度学习框架的基础上，进行技术升级从而达到能够媲美真人细腻情感表达的效果。“我们摒弃了主流的基于声学模型+声码器的两阶段合成方案，直接进行端到端建模，从而避免了因为两个模型级联导致的信息损失，并且结合了无监督语音听感属性解耦和听感量化编码技术，实现对语音韵律和情感的精细化建模。”吴明辉解释说。

[MD:Title]

作为语音合成方向的代表性APP，讯飞有声APP率先采用SMART-TTS系统，并进行了全新一代SMART-TTS系统升级。整合最新SMART-TTS系统，打造情感丰富的朗读音，带来全新的产品使用体验。21种以上的情感风格表达，每种情感具备40档的细腻情感强度调节，真正实现了合成系统媲美真人表达的能力。讯飞提供的发音人非常多，几十位AI主播，支持多种风格的音色、多种语言。不同的业务可根据自身的特点和应用场景进行选择。教育类场景，可选择音色知性稳重又很有亲和力的发音人；面对小朋友，发音人可以更加活泼可爱；新闻播报场景，理性、利落、清亮听起来有力量感的声音则更加合适。让语音合成从简单的信息播报，到具备喜怒哀乐情感的智能助手。

作为一款文字转语音朗读软件，讯飞有声APP让2000万用户实现用“耳朵”来阅读海量信息，更高效地利用碎片化时间学习。不论是文本，还是文章链接、本地文件、甚至是图片、PDF都可以朗读。目前，讯飞已面向广大用户开放了最新的语音合成系统，开发者们和B端客户可以在讯飞开放平台使用，C端用户下载讯飞有声APP即可体验。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：文路