正文内容 评论(0)
有公交车司机主动倒车接残疾男子,有暖心超市铺设盲道,也有火锅店优先录取听障者……这些举动温暖着残障人士们的心,也帮助他们更加平等且独立地生活。
全球有大约 15%的人口(超过十亿人)正在与某种形式的残疾作斗争。为了帮助这个庞大的边缘群体获得更多的社会关注,每年五月的第三个星期四被设立为全球无障碍宣传日(Global Accessibility Awareness Day )。
今天,正好是第十个全球无障碍宣传日,让我们来看看像 Google 这样的大型科技企业,是如何利用先进的科技,帮助残障人士更加独立地生活,追求自己的目标,并过着自己想要的生活。
帮助残障人士追逐梦想
Jason Barnes 从小就喜欢打鼓,即使在22岁时因为一次电力事故失去右手,他也并没有放弃。近10年后,Jason 对音乐的热爱造就了世界上最先进的假肢之一。现在,他也是千百万正在做自己喜欢的事的残疾人中的一员。
Jason的妈妈回忆道,“ 2 岁那年,每当我们播放音乐时,Jason 都会开始在他的高脚椅,餐桌或任何他能拿到的东西上敲打,那时我就知道这个孩子与众不同。” 后来,他组建了自己的乐队。
在 2012 年 ,Jason 的生活发生了翻天覆地的改变,年仅22岁的 他在一次电气事故中,失去了自己的右手。在 Jason 刚失去右手的时候,为了能够打鼓,他的家人用胶带把鼓槌贴在他的手臂上。后来 Jason 开始使用自身力源假肢,主要依靠肩膀和手肘的运动来获得想要的打击。这样不仅非常疲惫而且也一直无法达到想要的打击速度。Jason开始思考,是不是可以创造一个机器人击鼓假肢。
自2013年以来,杰森一直与著名的机器人专家 - 佐治亚州音乐技术中心的创始总监 Gil Weinberg 合作开发世界上最先进的机器人击鼓假肢。创建专门用于击鼓的假肢需要面对很多挑战。鼓槌的反应方式有很多细微差别,就像人手可以用非常细微差别的力度握住鼓槌来控制鼓槌如何弹跳一样。如果没有机器学习系统来收集所有数据,很难校准。
他们的最新设计使用了Google的开源机器学习平台TensorFlow。Jason 和 Gil 合作开发的机器人假肢通过肌电图(EMG)控制,假体中的传感器从残肢获取电信号,由TensorFlow Lite 识别这些复杂的信号,最后将其映射到特定的运动。 当 Jason 激活肌肉以弯曲或伸展手臂时,假体会做出相应的反应。Jason可以直观地使用他的假肢,因为它可以让他感觉到鼓槌的反馈,就像他自己的手臂一样。
当人们第一次看到 Jason 演出时,他们只会看到 Jason 是一个优秀且充满感染力的鼓手,而不会注意到这背后的技术。
帮助语言障碍者更好的“被理解”
生活中的方方面面都涉及与他人交流,并且也需要被这些人所理解。 我们中的许多人可能认为“被理解”是理所当然的,也很难想象有一天自己的”声音“不再能够被他人理解会是什么样的情形。对于数百万因神经系统疾病而导致语言障碍的人来说,这就是现实。
Project Euphonia
Project Euphonia 有两个目标。一个是改善语音识别算法(ASR),使其能够高效识别非典型语言。另一个是帮助因疾病而导致语言障碍的人可以使用他们原本的声音进行交流。
语音识别算法被认为可以帮助语言障碍者“被理解”。想要创建适用于非典型语言的语音识别模型,需要克服两个挑战:口音对准确率的影响;训练适应特定非典型语言识别模型所需的大量数据。因此,Google 选择先在大量典型语音的基础上训练基本模型,再对高质量的标准语音识别模型进行微调。
Google 使用来自 67 位渐冻症患者共 36 个小时的音频和 20 位非母语者共 20 个小时的音频(每人大约1小时)对语音识别系统进行了微调。结果显示,微调后模型识别渐冻症患者的非典型语言或者有口音的音频的字错率都低于微调前。 Google 还探究了字错率降低的具体原因,希望未来可以实现对标准语音识别系统做最小的调整,就可以适用于一种新的非典型语言。
目前,标准语音识别算法并没有从语言障碍者那里“听”到太多的示例。Google 正在通过网页收集收集那些被认为难以理解的声音示例。自 2018 年以来,近 1000 名参与者录制了超过 1000 个小时的语音样本。
Tim Shaw,前 NFL 后卫,曾效力于卡罗莱纳黑豹队、芝加哥熊队和田纳西泰坦队,2013年被诊断出患有肌萎缩性侧索硬化症。在得知 Project Euphonia 后,Tim 共录制了 2066 条语句,希望能够帮助那些和自己有相似经历的人。因为数量庞大,Google 尝试搭建了属于 Tim 的语音识别模型,并与 DeepMind 合作,采集了 Tim 之前采访中的录音,采用 WaveNet 技术创建工具,可以将文本转化成接近 Tim 原始声音的语音。
Project Parroton:
Project Parrotron 致力于开发可以省略中间步骤,不参考视觉提示(如嘴部运动),直接将非标准语音转化为标准语音的技术,以帮助语言障碍者与人和设备都能更好的交流。
建立这种高质量的模型需要单个语言障碍者记录数小时的语音数据,但研究人员设法从现有的文本到语音系统中提取数据,利用转录语音,减少说话者的负担。第一阶段 Google 使用了大约 30,000 小时的语音数据,由数百万对语音组成,每对语音包括一个自然语音和一个相应的转录语音(由 Parallel WaveNet TTS system 转录)。在完成第一阶段训练的基础上进行第二阶段的训练,第二阶段模型主要学习语言障碍者特有的声学/语音和语言模式,包括他们如何改变,替换或删除某些元音或辅音。
Google 与一组渐冻症患者以及谷歌的聋人研究科学家和数学家 Dimitri Kanevsky 一起测试了该模型。Dimitri 录制了 15 个小时的个人语音数据用于 Parroton 模型第二阶段的训练。同时将 Dimitri 的原始语音和转化后的语音通过 Google 标准语音识别系统进行识别,单词错误率从 89%降低到 32%。对于渐冻症患者,听力测试结果显示,转化后的语音更容易被理解。
帮助视觉障碍者独立出行
对于视力不佳、视觉受损的人和盲人来说,在日常生活中保持独立是非常重要的,然而,哪怕生活中从不被我们所注意的一些细枝末节,都可能给他们带来莫大的障碍。
Project Guideline
Project Guideline 是一项早期研究项目,利用机器学习帮助视觉障碍者可以使用手机,耳机和地面标识线独立出行。
Google 与 “Guiding Eyes for the Blind” 总裁兼首席执行官 Thomas Panek 合作,将计算机视觉应用于 Thomas 日常生活中很重要的事情:独立运动。Thomas 从小喜欢跑步,但从八岁开始,由于遗传原因,他的视力开始退化,直到被诊断为合法盲人,不得不依靠拐杖或导盲犬来引导出行,甚至一度放弃跑步。
测试中,Thomas 将手机戴在腰带上,带上骨传导耳机。手机摄像头寻找地面标识线,机器学习模型判断 Thomas 是否正根据地面标识线前进,如果偏向左侧,则左侧耳机的声音会变得更大且不和谐,反之亦然。完成室内测试后,Google 对机器学习模型进行了天气和光照条件变化的相关训练。在机器学习模型的帮助下,Thomas 沿着临时涂在纽约市中央公园的一条地面标识线完成了 NYRR virtual run for thanks 5K 路线。这是他几十年来第一次独立跑步。
Google的这些项目,让我们看到科技有着改变残障人士生活的巨大潜力。无障碍发展虽长路漫漫,但未来可期!