突破语音技术难题网易云商论文入选国际语音会议ASRU--快科技--科技改变未来

正文内容 评论（0）

突破语音技术难题网易云商论文入选国际语音会议ASRU

2023-10-19 16:07:19 作者：cici 编辑：cici 评论(0)

#快讯

“小爱同学，明天早上7点叫我起床”

“小度小度，来点轻松的音乐吧”

“天猫精灵，播放适合5岁孩子的故事”

大家熟悉的这些智能家居产品，背后都有语音技术的身影。

作为人工智能技术中的一个重要分支，语音技术让计算机能够理解和生成人类的语音，实现与人类自然、流畅、高效的交互，旗下有语音识别（ASR）、语义理解（NLP）、语音合成（TTS）等多个子类别，在智能客服、智能教育、智能家居、车联网等多个场景中展现出巨大的价值和潜力。

近期，专注于探讨语音技术热点难点问题的国际顶级语音会议 ASRU2023 公布论文入选结果，网易云商关于“加速CTC语音识别模型推理”的论文被大会录用，展现了网易云商突破技术难题的决心和实力。

[MD:Title]

据悉，ASRU研讨会是IEEE语音和语言处理技术委员会（SLTC）的旗舰技术活动，每两年举办一次，汇集了来自学术界和工业界的顶级专家和研究人员，共同探讨广泛的语音识别与理解问题，是语音与语言处理学术圈的顶会。

在这样一个极具影响力的技术顶会中脱颖而出，网易云商的这篇论文有何独特之处？解决了什么关键问题？让我们来一探究竟。

“目前主流的 ASR 模型都需要很大的 Encoder（编码器）来对语音序列信号进行建模，这在提升识别准确率的同时，也带来了极大的计算量。我们在论文中提出了一种新的语音识别模型推理方案，把 CTC（Connectionist Temporal Classification，一种序列建模算法，用于在语音识别，手写识别和其他序列问题中训练深度神经网络的算法）引入到编码模块，根据 CTC 的输出概率动态调整编码过程”，论文作者侯同学介绍了论文的研究背景和方向。

看到这里，你可能觉得有点深奥。让小编用大白话来“翻译”一下。

语音识别的整个过程，简单粗暴可以分为四步：语音输入——编码——解码——输出。拿我们熟悉的微信语音转文字场景为例，输入一段语音，先要经过编码（将原始语音信号转换为数字表示，以便计算机可以对其进行处理和分析），然后进行解码（将数字表示的语音信号转换为模拟语音信号），最后输出文字结果。

[MD:Title]