讯飞星火多情感超拟人合成首次发布全自然语音交互再上新台阶--快科技--科技改变未来

正文内容 评论（0）

讯飞星火多情感超拟人合成首次发布全自然语音交互再上新台阶

2024-04-29 18:15:35 作者：cici 编辑：cici 评论(0)

说起语音合成技术，你会想到什么场景应用？很多人小时候玩过的“录音娃娃”，其实就是语音合成技术的初级类型，而火遍全网的“会说话的汤姆猫”，通过可爱卡通形象学你说话，也让语音合成技术上升到有趣的层面。但站在行业的视角，能否让语音合成技术拥有更深刻的场景应用？4月26日，讯飞星火V3.5春季上新交出了一份高水平答卷。

“讯飞星火”是科大讯飞旗下通用大模型，也是国内首个全国产算力训练的大模型。此次讯飞星火V3.5新版一口气带来了长文本、长图文与长语音三大能力升级，并且语音大模型也全新升级，带来了“多情感超拟人合成”与“一句话声音复刻”两大功能。

如何让语音合成由“千篇一律”进化到“千人千面”？这需要强大的技术储备做支撑。在语音合成领域，Blizzard Challenge是极具影响力的国际赛事，科大讯飞自2006年参赛夺冠以来，就开启了连续14年的冠军之路。这次讯飞星火V3.5新版首发的多情感超拟人合成功能，将全自然语音交互体验带上了新的台阶。

[MD:Title]

根据发布会上讯飞研究院院长刘聪的演示，这项功能让人机对话变得不再生硬和冰冷，AI女声被赋予撒娇、安慰等拟人化的情感表达，同时传递出困惑、高兴、难过等外化情绪。当刘聪告知“五一”要看演唱会后，AI充满感情地回答道“我都能够想到你在现场欢呼的样子，哈哈，我好羡慕啊”，像是朋友间的一场对话，陪着你一起高兴。

整个演示都感觉是在与真人对话，抑扬顿挫悦耳入心，语气助词恰到好处。根据PPT资料显示，讯飞星火多情感超拟人情绪表达的可感知度达到了85%以上，无限接近于真人的口语表达，生动而富有情感，语气夹杂情调。另外多情感超拟人合成还支持“多语种智能语音”，早在2020年科大讯飞60个语种的语音识别、翻译和37个语种的语音合成就超过了谷歌与微软，达到国际领先水平；而在2024年1月份，科大讯飞发布的讯飞星火V3.5，首批37个主流语种的语音识别效果已超过Open AI语音大模型Whisper V3。

[MD:Title]

而基于多情感超拟人合成，还带来了另一项实用的功能，那就是“一句话声音复刻”。当年高德地图首创的明星原声播报功能，其实就是基于讯飞的语音合成技术，只不过当时志玲姐姐需要录制一个礼拜的声音。过了几年，随着讯飞语音合成技术的升级，再录制郭德纲原声缩短至1小时。现如今，你只要创建“发音人”，再朗读一段指定文本，人人都可以利用一句话声音复刻功能，轻松复刻出自己的声音。

别以为这是一种炫技的功能，它将能够在家庭亲子场景中扮演重要角色。试想一下，当孩子习惯了每晚在你童话故事的朗读声中熟睡，一旦你出差该怎么办？现在只要利用讯飞星火的一句话声音复刻功能，就能让AI还原你的声音，让孩子在你声音的陪伴下安然入睡。每逢节假日，可爱的孙子看望爷爷奶奶，给他们读书说报，让老人内心暖暖的，一旦孙子回家二老内心总是空落落的。如今有了一句话声音复刻，AI可以模仿聪明可爱的小孙子的声音给老人读书说报，让声音的陪伴温暖而持久。

从技术迭代角度，一句话声音复刻可以视为多情感超拟人合成技术的进阶，赋予声音个性化表达。这个功能的上新，不仅意味着AI丰富的情感表达迈入新台阶，也将会在科技助老、陪伴机器人等方向产生正向价值。“我们希望在安全可控的前提下，能够带给社会更有温度的人工智能体验，能够真的帮助到那些特别需要帮助的人，今天这个世界更需要有温度的科技。”科大讯飞董事长刘庆峰说道。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：梦佳

文章内容举报