实现虚拟人多场景落地科大讯飞爱加展示技术更迭-科大讯飞 ——快科技(驱动之家旗下媒体)--科技改变未来

正文内容 评论（0）

实现虚拟人多场景落地科大讯飞爱加展示技术更迭

2021-02-08 14:22:49 作者：cici 编辑：cici 评论(0)

对于虚拟人，很多人并不陌生。早前科大讯飞的多语种虚拟主播小晴、央视A.I.虚拟记者通通，给了大众对技术应用的更多想象空间。

近日，科大讯飞虚拟人技术再突破，发布更加活泼生动的A.I.虚拟人爱加，并最新上线了爱加帮你送新春祝福的H5《你用A.I.拜年了吗？》，用户可通过爱加，把最暖心的新春祝福送到家人朋友眼前。（在微信公众号“科大讯飞”后台回复“爱加”即刻体验，还有机会获得千元惊喜A.I.礼物）

和以往小晴等虚拟人不一样的是，爱加在声音、肢体动作乃至于微表情的表达上更丰富，还熟悉更多种语言和方言，用户通过爱加拜年，能让天南海北的朋友倍感亲切。

[MD:Title]

技术难点逐一击破，这次爱加更“人性化”

人工智能不断进步，A.I.早已不再是冷冰冰的科技，而是演变成为能帮助人类享受智慧生活、守护情感世界的好帮手。虚拟人的应用前景可期，但由于技术限制，其肢体动作、语言、情感表达效果还不能满足人们期待。

那么科大讯飞是如何攻克合成难点，让其A.I.虚拟人有更高的触达率？

首先，拓展A.I.虚拟人的“本事”，让其“能说会道”“能歌善舞”。在科大讯飞A.I.虚拟人已有的多语种、多方言合成能力之外，科大讯飞提出了基于歌唱音准的无监督歌唱标注方法，将发音和音准分离，利用神经网络分层级预测，结合高精度神经网络声码器合成高品质歌曲，同时提出姿态自适应的表情合成技术，解决了舞动状态面部姿态大角度以及多角度快速切换场景下的唇形合成难题，在使得虚拟人在精通各种语言的同时，还能倾情演唱。

其次，增强虚拟人的“人性化”。为了给虚拟人注入情感，使其在互动表达中更有人情味，科大讯飞结合认知心理学理论对虚拟人进行交互情感设计，利用无监督表征学习方法，分离并获取语音中的情感表征。同时，利用海量文本无监督语义模型对各类文本进行情感分类预测，实现人性化的端到端情感合成系统，让虚拟人“活泼”起来。

最后，提升虚拟人的“表现力”。为使拜年视频更具个性化，科大讯飞提出结合场景的背景音乐、音效叠加方案。通过对常用场景分类分析，构建丰富多元的背景音乐、音效资源库，结合具体应用场景，进行背景音乐、音效的预测、叠加，从而实现高表现力的虚拟形象合成，用户能定制理想状态中的拜年场景，让A.I.拜年场景更加生动多元。

值得一提的是，基于科大讯飞提出的海量说话人的音视频数据预训练技术，虚拟人爱加能够做到基于少量数据就完成快速的建模，满足多种场景多种风格形象的快速定制，同时，当前虚拟人实时合成的速度以及并发一直是业界的痛点，科大讯飞本次的虚拟人拜年活动支持了高并发在线高质量视频生成，从而大幅提升虚拟人视频制作的效率。用户只需要等待几秒钟就可以完成一个A.I.虚拟人合成视频，有效突破了A.I.虚拟人因为并发路数有限而不能大规模推广的难题，同时也展现出A.I.虚拟人从toB向toC推广应用的可能。

可以预见，虚拟人爱加只是一个科大讯飞在虚拟人技术突破的一个新起点，它的出现为下一步A.I.虚拟人的大范围、规模化应用奠定了坚实基础。

目前，科大讯飞基于A.I.交互能力的虚拟形象解决方案，已经应用于多个场景，如虚拟站务员、虚拟金融理财顾问、虚拟面试官，科大讯飞虚拟人的多模态得到了广泛应用。虚拟人爱加的技术突破，正是科大讯飞多年技术的厚积薄发，用A.I.理念改变生活的发展理念的具体呈现。未来，科大讯飞还会为虚拟人带来怎样的科技高峰再现，值得期待。

【本文结束】如需转载请务必注明出处：快科技

责任编辑：安妮文章纠错