正文内容 评论(0)
一、前言:不止强于语音 新版讯飞输入法解锁视觉功能
从讯飞输入法首次面世到今天,已经过去十年之久,最早是在Android和iOS等移动端起家,凭借强大的语音输入功能帮助用户解放双手输入文字而获得广泛认可。
各个语种的特殊性以及不同方言的混杂,对语音实时识别转文字技术的要求很高,但是讯飞输入法凭借背后的科大讯飞在语音方面提供的强大技术支撑,形成了最核心的竞争力,从而竖起了相当高的行业壁垒。如今,讯飞输入法的日语音交互次数已经达到10亿次,累计服务设备数超5亿,语音用户占比超70%。
不过,这十年当中,世界不断变化,终端不断更迭,要输入的场景也愈加丰富多样,于是讯飞在站稳语音领域的同时,在利用其AI技术成果向其它领域和输入场景扩大。
比如近日更新的讯飞输入法Android和iOS新版就已经初现端倪,其在行业内首发“智能拍照输入”——基于视觉AI技术,融合手写识别和机器翻译等成果,丰富了拼音、手写、语音之外的全新输入交互方式。
自此,使用讯飞输入法移动端,可以通过“拍一下”的操作完成各种复杂信息的录入。
目前,讯飞输入法Android和iOS最新版均支持中、英、日、韩、德5国印刷文字和手写体识别,支持英语和日语拍照翻译,支持数理公式一键上屏,此外还支持数学作业智能批改以及拍照便捷生成office电子文档等。
那么真正用起来实际效果又是如何呢?正好手机所载讯飞输入法升级到了最新的正式版,笔者此前也已经通过内测使用了一段时间,接下来就是我们的详细评测体验。
二、拍图识别文字:中/英/日/韩/德!感受巨大文字量转瞬即录入的快感
在这信息爆炸的时代,有时候面对纸质文件或者图片文件的巨大文字量,无论是用手打字还是语音输出,都不是提取其中内容的正确打开方式。
讯飞输入法提供的“拍图识别文字”功能这时候就能派上用场,让原本费时费力的人工输入变得简单。
我们以讯飞输入法Android版为例,打开任意输入框,在讯飞输入法输入面板点击讯飞图标,弹出窗口就能看到“拍照输入”的入口,进入入口之后使用的首项功能就是“拍图识别文字”。
接下来,用户直接对需要转录的图文进行拍照,可以整页提取,也可以然后框选识别范围,稍等一两秒即可呈现扫描结果。
从识别结果看,文字排版基本与原图保持一致,方便使用者对照纸制版进行核对。
而且,识别提取的文字不仅可以直接复制到文本框,也可以发送到手机其他应用进行二次编辑。
值得一提的是,基于科大讯飞业已成熟的数字图像识别机制、机器学习等积累,讯飞输入法能够摄录内容进行实时处理、快速提取信息特征。无论是手写体、中英混合,还是日、德、韩等小语种,以及特殊符号,都能实现所见即所得的内容提取。
在体验过程当中我们还发现,讯飞输入法所内置的“拍图识别文字”功能不仅对规规矩矩的印刷体有比较好的识别效果,就算是手写体甚至是中英混合手写体,也能有着相当出色的文字提取表现。
适用性如此广泛的“拍图识别文字”功能可以让用户随时随地扫名片、文件、书报、网页、脑图、电话号码甚至是快递单号,在不同场景当中都能告别逐个打字打到手酸、语音转写说到口渴的困扰,无论是会议记录、阅读笔记......
只需要拿手机拍一下,就能让将手写体变成可编辑的电子文本,即使字迹潦草,也能准确识别,相当实用且可靠。
三、图片生成文档:一键搞定office录入
我们在日常办公中,经常要把纸质文件中的内容提取出来,转换为电子版文档进行保存,如果数量较多,不管是一次次在扫描仪和电脑之间奔波,还是拿出手机挨个扫描复制粘贴到一个个手动新建的文档当中,考虑到时间和精力都不划算。
为此,讯飞输入法提供了“图片生成Word”的功能,具体原理与刚刚看到的“拍图识别文字”一致,在识别效果、排版形式方面无异,更为方便的是该功能提取的文字可以被一键保存为可编辑的Word文档,简化了操作流程,适合大批文字提取至大批量文档的工作任务。
值得一提的是,讯飞输入法的转写生成文档明显不想简单局限于Word,还提供了难度更高的“图片生成Excel”功能,相信每个互联网打工人都会感觉相见恨晚!
四、翻译:词典APP可以卸载了
平时逛街、上网、出游,看到不懂的英文单词或者句子,你都会怎么做?
传统习惯就是打开手机的词典APP→手敲或者复制粘贴看不懂的单词句子→点击翻译→看到翻译结果。这样做确实没错,不过从效率的角度来看并不划算。
最新版的讯飞输入法提供了只要一步操作,什么词典APP都不用装的翻译功能体验。
讯飞输入法在“拍照输入”当中提供了“拍照后直接外文翻译”的功能,待文字识别完后,讯飞输入法将框选界面所出现的外文翻译成中文,并且无须更换当前页面版式,翻译结果也大致通顺能看得懂。
不过,讯飞输入法“拍照后直接外文翻译”的功能也不是十全十美,它不能复制翻译文字和原文,只能保存将被识别的页面以图片形式保存下来。
如果用户想保存翻译的屏幕文字,就要借助刚刚的“拍图识别文字”功能提取内容了。
五、拍一下录入公式 计算题作业自动判卷
——识公式
如今上“云课堂”、写“云作业”一点都不鲜见,只是在填写线上或者电子版作业时,经常要输入一堆定理公式。以初高中阶段的学习内容而言,大多数的公式就是书上的原样公式,然而一个一个敲进去非常麻烦,有的嵌套公式更加难以用键盘输入,用户一直都希望能有一个识别公式的软件,那肯定会提升不少效率。
最新版的讯飞输入法就带来了如此功能——“数学题、公式识别”,只需要在讯飞输入法开启“拍照输入”→下方滑动选择“公式”即可让数理公式转化为可编辑的标准LaTeX公式及文本。
——批作业
很多的家长都没有太多的时间给孩子检查作业,或者有的家长看不懂孩子的作业内容,特别是计算题别说亲自去动手验算,就算有答案在手,一个一个批改核对都是费时又费力。
而讯飞输入法提供了“批改功能”,简单实测下来,我们发现其能够识别批改的内容能够囊括常见的小学数学计算题。
如此一来,随时随地打开手机,拍一下,眨眼的功夫便知道全部答案正误。
六、总结:不止强于语音 讯飞开启“视觉输入法”的大门
正如我们在前文所说,常规的键盘输入不太容易满足移动端面临的复杂工作和生活场景,不同人群的多样化需求促生了新的输入方式。这可能便是讯飞输入法在常见的拼音、语音、手写之外开发“拍一下”输入方式的动力之一。
目前,讯飞输入法Android和iOS最新版均提供智能拍照输入,从实际体验来看:智能拍照输入支持手机拍照或者从相册图片直接提取文字,不仅能够提高录入效率,较高的识别正确率能够规避手动录入出错的风险,看到大段文字以原有排版瞬间完成录入的感觉相当畅快。
而且,智能拍照输入不光支持中英这两种常见的语言,对于日、韩、德等小语种,甚至是中英混合文本也能做到“所拍即所得”。实际体验当中发现,此功能对拍照距离、纸面弯曲情况、清洁状况都没有苛刻要求,基本能做到随手一拍就能识字。
对于习惯手写记录和抄笔记的人来说,讯飞输入法也具有相当高的可用性,其能够识别手写体甚至是中英文混合手写体,也能快速生成Word/excel等Office文件,减少整理誊写到电子版这一过程当中所需的巨大工作量。
很多数学公式包含的符号甚至是展示方式(比如“二分之一”的数学书写方式)在手机上很难录入,而讯飞输入法提供了一键拍照数理公式完整识别的功能。
不止于此,随着文字识别和公式识别精度越来越高,智能拍照输入还加入对小学数学题的智能批改,学生家长只要对着孩子作业题拍照,就能自动判卷,节省心力。
值得一提的是,讯飞并不想单纯满足于图文识别的功能实现,还加入了翻译功能。日常当中常见的资料、菜单、路标、说明书等,拍一下即翻译成中文。
在笔者看来,我们所使用的讯飞输入法其实更像是一个聚合着讯飞前沿技术和成熟方案的超级战舰——除了智能语音技术地位众所周知,讯飞的视觉技术同样无法小视:
其在ICDAR ReCTS评测任务中刷新了全部四项识别榜的世界纪录;在ICFHR 2020 OffRaSHME数学公式识别挑战赛中获冠军;在计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019上的多项评测任务中获冠军;在ICPR2018 MTWI图文识别挑战赛中包揽全部三项任务冠军。
整体来看,讯飞输入法此次于行业内首发的智能拍照输入,一方面是视觉技术领域的“秀肌肉”;另一方面对于普通用户来说,确实是贴合工作学习的信息提取录入痛点,提高内容输出效率,值得下载体验一番。