语音识别的未来之路

2016-03-30 03:26作者徐鑫

通信世界 2016年16期

作者│徐鑫

语音识别的未来之路

作者│徐鑫

尽管在玛丽·米克尔第二十一次公布的年度《互联网趋势》报告中，提及语音识别正在成为未来的趋势；但具体未来的语音识别究竟应该具备什么样的功能，才能真正成为所谓的“风口”？

2016年6月，有“互联网女皇”之称的玛丽·米克尔在美国Code大会上第二十一次公布了年度《互联网趋势》报告。报告称，在技术终端和平台方面，新的以语音为核心的交互模式渐成“风口”。这份报告的依据是亚马逊智能音响Echo被热捧，这款在2014年底推出的、基于语音识别的音响再次引发了业内的关注，甚至被喻为未来智能家居的真正入口。那么语音识别为何现在才被认为是未来趋势，它将给我们带来什么？

定位准确：Echo成功的秘笈

实际上，Amazon用于Echo上的语音技术在2011年就已经起步，其先是收购语音识别公司Yap。Yap成立于2006年，主要提供语音转换文本的服务。2012年，Amazon又收购了语音技术公司Evi，继续加强语音识别在商品搜索方面的应用；不得不提的是，Evi这家公司也曾经应用过Nuance的语音识别技术。2013年，Amazon继续收购语音技术公司Ivona Software；Ivona是一家波兰公司，主要从事文本语音转换，其技术已被应用在Kindle Fire的文本至语音转换功能、语音命令和Explore by Touch应用之中，Echo也是利用了这项技术。

由此不难看出，亚马逊很早就已经通过并购与自研的方式进入到语音识别领域，只是此前相当低调而已，更为关键的是，其拥有自己语音识别的核心技术—采用了非线性排列的远程麦克风阵列（7个麦克风）。这使得相比Siri、Google Now、Cortana等存在于手机的语音助手，Echo最大的优势在于它超强的“听力”。而比技术更重要的是应用，苹果的Siri、谷歌的Google Now基本是面向智能手机等移动设备，微软的Cortana除了智能手机，还面向传统PC。而这些设备都有其他输入方式，语音并非是有优势的解决方案。而亚马逊则通过音响这种“取巧”的方式加以推广应用，对音响来说，语音控制比拿起遥控器或者手机更方便。

好的途径带来更好的市场，Intelligence Research Partners预计，亚马逊已销售出了大约300万台Echo，其中在今年第一季度就销售了100万台。其实在技术上，亚马逊并非出类拔萃，但是它给语音识别应用一个好的定位。

语音识别的真正突破在智能

其实，玛丽·米克尔的言论并非那么权威，凑巧的是，语音识别在最近两年取得了很大突破。

前不久，麻省理工学院（MIT）主办的知名科技期刊《麻省理工科技评论》(MIT Technology Review)，评选出了“2016年十大突破技术”。《麻省理工科技评论》称，在过去一年里，这10项技术均已经或即将到达一个里程碑式的阶段。而语音识别的突破就在其中的第三项，通过该技术，可将语音识别和自然语言理解相结合，为全球互联网市场创造切实可用的语音接口，而百度、谷歌、苹果、Nuance通信公司、Facebook等公司是这一领域的大玩家。

实际上单纯的语音识别技术已经很古老，PC时代IBM语音输入的诞生至今已经20年了，苹果的Siri可以追溯到更早期的军方监听项目。而真正的难度在于语意识别，即把语音高正确率地转化成文字还不够，而是要听懂人类在说什么，要表达什么意图，这个才是“皇冠上的宝石”。幸运的是，随着近年来人类科技的进步，这方面已经有了很大的突破。

突破首先来自于硬件的进步，这几年计算机飞速发展，特别是通用计算的发展，使人类有了强大的计算能力，使得一些过去不可能实现的人工智能算法成为可能。

此外，在人工智能中神经网络与深度学习都取得了很大进步，特别是深度学习算法的应用，大幅度提升了语音识别的正确率，并且提供了语意识别的可能。这方面，国内的百度走得很远，百度语音识别可以做到安静环境下97%准确率，领先正常人的听力。如今，百度通过CNN（卷积神经网络）与LSTM（长短时记忆模型）的混合建模，连接时序分类（CTC）训练已经做到了真实环境中，日常非标准语言的精确识别，百度甚至在上海某家KFC放了一个机器人，与人自由对话、点餐。这不是编程对固定指令的处理，而是人工智能设备直接与人对话，理解人的语言，这才是语音技术的真正突破。

编辑｜孙永杰 sunyongjie@bjxintong.com.cn