正文内容 评论(0

诱人的Siri 开启人机交互的大门
2011-10-31 14:41:47   编辑:上方文Q     评论(0)点击可以复制本篇文章的标题和链接

Siri,苹果新发布的手机iPhone 4S的语音助手功能,正在成为大家热议的话题,而我们预言,它极有可能开启个人电脑类产品应用的新篇章,人机交互将真正进入大家的生活。

诱人的Siri 开启人机交互的大门

智慧诱人的Siri带来人机交互热

一场并不那么精彩的发布会,苹果的iPhone 4S发布了。大家对iPhone 4S在硬件端缺乏创新很失望。不过,敏锐的我们发现了Siri这一功能,这个基于语音交互的助手功能将成为iPhone 4S的最大卖点。

事情的发展正如我们预料的那样,现在,Siri语音助手已经成为全球热议的话题,iPhone 4S热卖,而且用户发现Siri能够帮助我们通过语音轻松完成很多事情,比如:阅读并回复短信、介绍餐厅(位置、名称)、询问天气、设置闹钟、查看日程等。

诱人的Siri 开启人机交互的大门

不过大家更着迷于她的神奇:买iPhone 4S后用户都冲着Siri那优美的女声提出各种稀奇古怪的问题来看她的反应。这些问题甚至包括了“你穿的什么衣服”,“生命的意义是什么”,甚至有不少人冲着她嚷嚷“我爱你”。让人惊叹的是,Siri完全理解这些问题,且懂得如何婉转而诙谐地回答,且知道如何在法律范畴内引导大家的行为。针对前面两个问题,她的回答是“你怎么总是要问我这个呢”;“生命:一种原则或力量,被认为是独特动态存在的基础。我想我也算是一种生命”。而对于“我爱你”之类的告白,Siri则会说“我希望你不会对别的手机也这样说”。她甚至能够对连续性的问题给出符合人类逻辑的不同回答。有人连续向Siri“求婚”三次,第一次Siri回答:“听起来很甜蜜,不过我还有什么可以帮你的吗?”第二次回答:“让我们只做朋友,好吗?”第三次Siri干脆摊牌了:“我的用户协议没有包括和你结婚,我很抱歉。”

很显然,Siri是智慧的,智慧得令人惊叹、智慧得诱惑,智慧得令人爱。难怪在iPhone 4S热销缺货的同时,黑客都在致力于将智慧且诱人的Siri移植到其他iOS设备上。视频网站上,关于Siri问答的视频也被疯狂点击。而大量开发类似软件的厂商,也在近期跳出来表示他们的软件也很好……

一场人机交互热正在到来!

诱人的Siri 开启人机交互的大门
Siri现在成了最热门的应用,事实上,它正在引领人机交互的大潮

Siri背后的技术

Siri的神奇和强大,是如何实现的?有人说她的背后是“印度云”,用户在语音提问时,iPhone 4S就偷偷接通了远在印度的CALL CENTER(呼叫中心),那边的印度工程师疯狂地打字回答,iPhone 4S端再转换为语音回给用户——当然,这只是个玩笑。

Siri的背后,其实是众多技术的结合,总体来看是两大类:人工智能和云计算。如果非要综合描述成一个概念,则是“计算技术”,而这一计算技术又是很多类技术整合而成的。下面,我们来对Siri进行一个大概的技术分拆(目的是让大家理解分类的技术,Siri的每个部分不一定就是采用的下文所举例的技术)。

首先,在前端(面向用户)的,是用户交互技术(从表象来看,也就是我们平时所说的人机交互),主要是语音识别及语音合成技术。语音识别技术把用户的口语转化成文字,其中需要强大的语音知识库,因此需要用到云计算。而语音合成则是把返回的文字结果重新转化成语音输出,这一步理论上本地就能完成。

其次是后台技术,这才是重角儿。这些技术的目的就是处理用户的请求,并返回最匹配的结果。因为请求类型超多,且千奇百怪,要处理好可不简单。基本的结构可能是分析用户的输入(已转化为文本),根据输入类型,分别采用对应的后台进行处理。这些对应的后台包括:①以Google为代表的网页搜索技术;②以Wolfram Alpha为代表的知识搜索技术(或知识计算技术,百度框计算与之有些类似);③以维基百科为代表的知识库技术(包括其他百科,如电影百科等);④以Yelp(可以理解为国外的大众点评网)为代表的问答以及推荐技术。当然,未来也许还会有更多的后台技术。

例如,当你询问某个酒店在哪里时,Google的网页搜索和地图搜索就会派上用场;当你要询问NVIDIA是什么时,维基百科的信息就会被直接调用;而你要了解附近哪些餐馆各自有什么特色时,谷歌和Yelp就会同时起作用。

总体来说,Siri不是某一种独立的技术,而是将若干现有技术进行了整合。这些技术并非革命性的,但当它们整合后,在用户面前就展现出了神奇的一面。

诱人的Siri 开启人机交互的大门
语音人机交互的技术模型

为什么是手机

如果你比较喜欢研究各种计算技术,以上技术你应该不会陌生。说白了,很多人都或多或少地用过以上提到的技术,只是因为停留在应用层面,没有把它们技术化罢了。无论是语音识别、语音合成,还是各种后台计算技术,其实PC上都有。那么,为什么它在智能手机上一炮而红?

整合,是一个原因,也是很重要的原因。在目前的科技公司中,对技术分类得非常详尽,每个公司都在某一个领域钻研得非常深,但想到要把它们整合起来的公司并不多。Siri做到了,乔布斯看到了,并把它收购了,专为自己所用(再次赞一下已逝去的乔布斯的眼力)。

另外,“给出回应”也是重要原因。其实语音识别并进行相应的动作,这一点很多厂商都在做,也有很多产品。例如桌面Windows系统和Windows Phone系统上就有语音控制和语音搜索功能。但是它缺乏智能的语言反馈,更没有想到要把这种反馈合成为诱人的人声来回应用户——这两点中,语音合成技术不算难,但很多厂商都没想到。

最后,也是最关键的原因:智能手机是随身携带的。它的硬件虽然已经“PC化”,比较强大,但输入依旧是个麻烦事儿,而基于语音的交互恰好是最理想的解决方案。另外,智能手机还有很多PC不具备的特性:例如地理位置定位、联系人列表、人们总是通过它在移动中解决问题。这些,也都为语音交互提供了更多更丰富的功能点。这一切因素的整合,促成了Siri,也促成了她在智能手机上的一炮而红。

责任编辑:

  • 支持打赏
  • 支持0

  • 反对

  • 打赏

文章价值打分

当前文章打分0 分,共有0人打分
  • 分享好友:
  • |
本文收录在
#快讯

  • 热门文章
  • 换一波

  • 好物推荐
  • 换一波

  • 关注我们

  • 微博

    微博:快科技官方

    快科技官方微博
  • 今日头条

    今日头条:快科技

    带来硬件软件、手机数码最快资讯!
  • 抖音

    抖音:kkjcn

    科技快讯、手机开箱、产品体验、应用推荐...