与大众认知相反,英语其实并不是全球使用人数最多的语言,甚至连第二名都排不上。事实上,排在第一位的是汉语,第二是西班牙语,西日耳曼语排在第三位,接下来是印地语、阿拉伯语、葡萄牙语、孟加拉语和俄语。
更令人意想不到的是,Google Assistant、苹果的 Siri、亚马逊的 Alexa和微软的 Cortana 虽然已经无比强大,但其实只能识别这些语言当中相对较少的一部分。直到今年秋天,三星的Bixby才可以识别德语、法语、意大利语和西班牙语,而这些语言的全球使用总人数高达6.16亿人。Cortana 更是花了好几年时间才精通西班牙语、法语和葡萄牙语。
为什么识别新语言的进度如此缓慢?究其原因,主要还是训练语音识别算法的技术进度缓慢,事实上,AI语音助手比我们表面看起来的要复杂得多。
为什么支持一门新语言如此艰难?
给语音助手添加语言支持是一个多管齐下的过程,这需要在语音识别和语音合成方面进行大量的研发。就语音识别而言,首先要将语音转换成文本,接下来再进行自然语言处理。
如今,大多数语音识别系统都借助于深度神经网络(deep neural networks)来预测音素,或感知区分不同的声音单位(例如,英语单词 pad、pat 和 bad 中的 p、b和 d)。以前的自动语音识别(ASR)技术依赖于手工调整的统计模型来计算单词组合在短语中出现的概率,而深度神经网络则不同,它可以将声音(以分段谱图或声音频率谱的表示形式)转换成字符。这不仅降低了错误率,而且在很大程度上替代了人工监督。
但是,只进行基础的语言理解是不够的。如果没有本地化,语音助手就无法了解不同语言所承载的文化的特性。Next IT 首席技术创新官 Joe Dumoulin 在接受 Ars Technica 采访时表示,为一门新语言构建一个查询理解模块需要30至90天,具体时间取决于该模块需要涵盖多少意图。即便是谷歌和亚马逊推出的市场销量领先的智能音箱,也很难听懂带有某些口音的语言。由 Vocalize.ai 进行的一项测试发现,苹果的 HomePod 和亚马逊的 Echo 只能捕捉到78%的中文单词,对英语和印度语的识别率则为94%。
不同语言的语法结构差异很大。例如,在英语中,形容词通常出现在名词之前,副词可以出现在名词之前,也可以出现在名词之后。如果有人说“starfish”并且让语音助手来识别的话,很容易将“star”与“fish”理解为形容词或单个名词。语言里含有各种术语,语音助手必须能适应并学会辨别不同的习惯用语。
学一门语言已经够难了。亚马逊 Alexa AI 部门的研究人员在2018年8月描述了实际使用中的一个典型问题。在与助手聊天过程中,用户经常在连续的问题中调用多个语音应用程序。这些应用程序需要重复调用变量——例如“town”和“city”。如果有人问了方向,接着又问了一个关于餐馆位置的问题,一个训练有素的语音助手需要能够弄清楚在回答这个问题时应该参考哪条线索。然后,语音助手在分析之后必须做出准确回应,其中的技术难度非常大。
各大语音助手支持的语言种类有哪些?
1. Google Assistant
今年1月,Google Assistant 新增了20多种语言,在各大语音助手中,它所能理解的语言数量位居榜首。目前,Google Assistant 已经在80个国家的近30种语言中被广泛使用,而在2017年,这一数字仅为8种语言和14个国家。其目前支持的语言包括:
阿拉伯语(埃及、沙特阿拉伯)、孟加拉语、中文(繁体)、丹麦语、荷兰语、英语(澳大利亚、加拿大、印度、印度尼西亚、爱尔兰、菲律宾、新加坡、泰国、英国、美国)、法语(加拿大、法国)、德语(奥地利、德国)、古吉拉特语、北印度语、印尼语、埃纳德语、意大利语、日语、韩语、马拉雅拉姆语、马拉地语、挪威语、波兰语、葡萄牙语(巴西)、俄语、西班牙语(阿根廷、智利、哥伦比亚、秘鲁)、瑞典语、泰米尔语、泰卢固语、泰语、土耳其语、乌尔都语
2. 苹果 Siri
直到今年1月,苹果的 Siri 在支持语言的广度方面一直领先于 Google Assistant。目前,它支持36个国家的21种语言,其中包括:
阿拉伯语、中文(普通话、上海话和广东话)、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、意大利语、日语、韩语、马来语、挪威语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语
Siri在澳大利亚和英国也有独特的本地化语音功能,画外音艺术家 Karen Jacobsen 曾在澳大利亚语中提供台词和短语,前科技记者 Jon Briggs 则提供了他的声音。
3.微软 Cortana
Cortana于2013年4月在微软的 Build developer 大会上首次亮相,后来又通过与亚马逊的合作,在 Windows 10、耳机、智能扬声器、Android、iOS、Xbox One,甚至 Alexa 上发布。Cortana 支持的语言可能不及谷歌 Assistant 和 Siri 那么多。尽管如此,六年来它已经取得了长足的进步。以下是它能识别的语言:
中文(简体)、英语(澳大利亚、加拿大、新西兰、印度、英国、美国)、法语(加拿大、法国)、德语、意大利语、日语、葡萄牙语(巴西)、墨西哥语、西班牙语
和 Siri 一样,Cortana 也进行了广泛的本地化处理。
4.亚马逊 Alexa
Alexa 可以在41个国家的150多种产品上使用,但它理解的语言是语音助手中最少的,包括:
英语(澳大利亚、加拿大、印度、英国和美国)、法语(加拿大、法国)、德语、日语、墨西哥语、西班牙语
公平地说,亚马逊已经煞费苦心地在新的地区进行本地化处理。Alexa 去年进入印度市场后,推出了一种“全新的英语语音”,能听懂当地发音,并能用当地发音交谈。
亚马逊正在通过众包的方式逐步扩展语言支持种类,有超过1万名工程师正在研究其 NLP 协议栈的各种组件。去年,亚马逊发布了一项名为“Cleo”的游戏化功能,用于奖励那些用当地语言和方言(如普通话、印地语、泰米尔语、马拉地语、卡纳达语、孟加拉语、泰卢谷语和古吉拉特邦语)重复短语的用户。
5.三星 Bixby
三星的 Bixby 内置在三星的旗舰和中端 Galaxy 智能手机系列以及即将推出的 Galaxy 家庭智能扬声器中。Bixby 在全球200个市场上都有销售,但只支持这些国家的少数几种语言:
英语、中文、德语、法语、意大利语、韩语、西班牙语
三星在历史上曾因 NLP 技术不完善而受挫。《华尔街日报》在2017年3月报道称,三星被迫推迟了英文版Bixby 的发布,因为 Bixby 无法理解某些语法。
|