正文内容 评论(0)
近年来随着AI技术的发展,语音合成技术正广泛应用于人们生活中的多种场景。语音合成又称文语转换(Text-To-Speech),简称TTS,是将输入的文字信息转化为可听的语音输出的机器或者系统,赋予机器“能听会说”中“说”的能力。
以“让机器能听会说、用人工智能建设美好世界”为使命的科大讯飞,在2022年科大讯飞全球1024开发者节期间带来了升级的全新一代SMART-TTS系统,让机器语音表达能力实现了媲美真人的水平。
如何让机器的声音媲美人类,是语音合成领域一直在探索的课题。科大讯飞自上世纪90年代,就开始在语音领域持续发力,并始终坚持源头技术创新,持续追求让中文语音合成达到极度拟人化的效果。随着端到端深度学习逐步拓展到语音合成领域,科大讯飞语音合成技术得到了质的飞跃。讯飞最新一代语音合成系统,邀请了业界语音语言学专家以及小白用户进行综合评测,MOS评分与真人录音之间差距小于0.05分。
“目前业界主流的合成系统和录音之间差距普遍在0.3~0.5分之间,也就说讯飞最新的合成效果领先业界2个代差左右,并且通常也把0.05分作为合成系统媲美真人录音的一个门槛条件,那么讯飞的合成系统在效果层面上已达到与真人录音相当的水平。”讯飞AI研究院语音合成负责人吴明辉曾在2022科大讯飞全球1024开发者节线上栏目《对话1024》上表示。
科大讯飞通过两大关键技术,即音库构建与语音合成技术,打造真实自然、情感丰富的合成音。讯飞最新一代合成技术在深度学习框架的基础上,进行技术升级从而达到能够媲美真人细腻情感表达的效果。“我们摒弃了主流的基于声学模型+声码器的两阶段合成方案,直接进行端到端建模,从而避免了因为两个模型级联导致的信息损失,并且结合了无监督语音听感属性解耦和听感量化编码技术,实现对语音韵律和情感的精细化建模。”吴明辉解释说。
作为语音合成方向的代表性APP,讯飞有声APP率先采用SMART-TTS系统,并进行了全新一代SMART-TTS系统升级。整合最新SMART-TTS系统,打造情感丰富的朗读音,带来全新的产品使用体验。21种以上的情感风格表达,每种情感具备40档的细腻情感强度调节,真正实现了合成系统媲美真人表达的能力。讯飞提供的发音人非常多,几十位AI主播,支持多种风格的音色、多种语言。不同的业务可根据自身的特点和应用场景进行选择。教育类场景,可选择音色知性稳重又很有亲和力的发音人;面对小朋友,发音人可以更加活泼可爱;新闻播报场景,理性、利落、清亮听起来有力量感的声音则更加合适。让语音合成从简单的信息播报,到具备喜怒哀乐情感的智能助手。
作为一款文字转语音朗读软件,讯飞有声APP让2000万用户实现用“耳朵”来阅读海量信息,更高效地利用碎片化时间学习。不论是文本,还是文章链接、本地文件、甚至是图片、PDF都可以朗读。目前,讯飞已面向广大用户开放了最新的语音合成系统,开发者们和B端客户可以在讯飞开放平台使用,C端用户下载讯飞有声APP即可体验。
本文收录在
#快讯
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...