探析智能音箱关键技术及发展趋势

2022-04-11 22:48任国
科学家 2022年3期
关键词:关键技术发展趋势

任国

摘要:在智能技术快速发展的背景下,智能音箱逐渐出现在人们生活中,并成为人们生活中较为重要的组成部分。智能音箱除了能带来良好的音质体验外,更具备语音交互等功能,人们通过发布指令即可开展相关工作,带来愉悦体验。本文将对智能音箱展开分析和探讨,阐述其关键技术及发展趋势,以供参考。

关键词:智能音箱;关键技术;发展趋势

智能音箱最早出现在2014年,亚马逊发布的Echo智能音箱取得巨大成功。人们通过Echo可以用语音控制家电、购买商品、查询咨询等,之后随着技术的完善,智能音箱功能愈加多样,在不同领域中得到了广泛的应用。不过虽然现阶段智能音箱的种类多样,功能多样,但技术上仍存在一些问题,期待专业人员对相关技术展开深层次的分析,完善技术体系,优化其功能。

1 智能音箱概述

智能音箱是在传统音箱基础上通过融合智能化技术行成的新的音箱模式。智能音箱中融合了智能语音交互、提供内容服务、互联网服务等诸多功能,并引进物联网技术,实现与家居智能设备间的有效连接,增强管理和应用的便利性。智能音箱能够直接接受用户的语音命令,快速识别语音指令,作出相应动作,同时还可以将指令执行情况及设备运转状态及时反馈给用户,减少手动操作。具体来说,智能音箱功能:一是在线音乐播放。用户可说出想要聆听的音乐名称或音乐相关信息,智能音箱可快速识别语音指令,找到相关信息并完成播放,缩减手动查找所消耗的时间,优化服务质量;二是语音交互功能。语音通话、网络会议、儿童教育及老人陪伴等均是智能音箱现今具备的功能;三是个人管家。以指令完成闹钟设定、信息查询、日程管理等;四是智能家居控制。借助物联网连接智能家居设备,利用语音指令实现远程管控;五是生活服务。通过与手机的连接实现如订餐、约车、充值、票务、物流查询等服务。

2 智能音箱发展的总体情况

2.1人工智能技术推动下,智能音箱将成为家居中枢系统

从现有的《智能硬件产业创新发展专项行动(2016~2018年)》和《中国机器人产业发展规划(2016~2020年)》等政策中可以看出,我国正在逐渐加大对人工智能技术的扶持力度,希望借助一系列政策措施,加强人工智能技术的研究,给予相关产业一定的资金补贴,调动产业研究的积极性,提升人工智能水平。随着人工智能技术及语音交互技术的融合发展,智能硬件的性能、功能也在逐渐完善,智能穿戴设备、虚拟现实技术、服务型机器人、智能音箱均是在该技术推动下产生的新型产品,对人们生活及工作起到了重要作用。智能音箱的出现为人工智能及语音交互技术的发展带来了新的助力,成为市场上较为流行的产品。

结合现有调查数据分析可知,我国自2019年后,智能家居发展规模已经突破1950亿元人民币,在智能家居市场上活动的用户也已经突破了4600万人,且仍在呈现上升趋势。随着智能家居产品的发展,种类及功能更多样,我们需加强管控,设置统一平台,确保软硬件的良好操控,发挥智能家居作用优势。

而智能音箱作为重要的连接和管理平台,深受科技巨头公司的关注。智能音箱作为语音交互载体,未来有望成为智能家居的控制中枢,掌握智能音箱便掌握了智能家居的入口。

2.2用户分布较为集中

根据目前调研数据分析可知,智能音箱用户多集中在一二线城市,其中以男性青年群体居多,这与城市人均收入水平及人们对新产品的了解和接受度有一定的关系。但在2018年上半年后期,三线及以下城市的用户量有轻微上升,说明群众对智能音箱的认知度可能得到了提升。

2.3国内智能音箱销售情况

2014年末亚马逊官网推出一款智能音箱Echo,打开了智能家居的市场大门。这款智能音箱一经上市广受人们好评,成为有条件业主争相抢购的产品。第二年,京东等大企业联手加大智能音箱的研究和出品,为智能音箱的发展提供了更多的支持。之后每年都会有企业进行智能音箱产品的研发和售卖,智能音箱成为市场上最具代表性的电子产品。从2020年开始,中国智能音箱市场在经历野蛮生长后陷入低迷,年销售3785万台,同比下降8.6%。2021年上半年,中国智能音箱市场销量为1936万台,增幅为2.2%。

3 智能音箱关键技术

智能音箱一般流程为:自动语音识别->内部处理->内容输出。在这一系列过程中,所需技术以信号处理、语音唤醒、语音交互为主,下面就将对这些关键技术加以详细说明。

3.1信号处理

信号处理是智能音箱唤醒的必要方式,在智能音箱工作中,麦列处于拾音状态,信号处理功能是让智能音箱在该状态下,快速对语音指令加以识别和处理,如语音检测、声音降噪、声源定位及指令传输等,从而准确判定指令语音,保证后续操作的顺利实施。具体来说,在信号处理中,语音检测能够准确判断信号发生位置,通过回声消除等技术处理,确定信号指令。声音降噪是为了能清晰识别语音内容,给出准确的回应。智能音箱在使用过程中,声音信号的传播过程会存在各种反射,延迟的语音叠加产生掩蔽效应,这对语义识别是致命的障碍,降噪处理能降低不良因素的影响,促进语义的准确识别,所以降噪处理显得极为必要。声源定位是根据麦列确定指令者的位置,可用于方位灯的展示,增强交互效果,也可作為波束形成的前导任务,确定空间滤波参数。波束形成后利用空间滤波,将多路信号整合为一路,达到增强原始语音信号和抑制旁路信号的目的。

3.2语音唤醒

语音唤醒就是常用的关键词检测功能,通过语音内容的识别了解阐述的关键词,之后按照关键词搜索相关信息。语音唤醒功能的发挥好坏与唤醒率、误唤醒率之间有着紧密联系。前者指的是在连续语音中关键词的识别概率,通常以深度神经网络和隐马尔科夫模型,或者长短时记忆网络和全连接层分类模型这两种方式处理。目前开源的唤醒方案可提供SDK,一般有在线和离线版本。国内主要以科大讯飞为代表。网上也有多种开源的小型语音识别引擎,可实现单独的语音唤醒功能,性能各异。

3.3语音交互

语音交互中涵盖的技术内容较多,如语言识别、语言理解、对话管理、语音生成等。其中语言识别不单是对传输语音指令的识别,还可以将语言转化成问题展示出来。用户在给出语音指令后,系统会将其转化成文字后加以分析,了解操作要求,落实相关工作。随着深度神经网络的应用、大数据的使用和云计算的普及,语音技术几乎普及到人们的日常生活,如科大讯飞、阿里巴巴的AliGenie、喜马拉雅的小雅等。语言理解是将传输语言转化成计算机能够理解的形式,智能音箱在接受到指令后,系统会先对指令予以识别,转化到自身能够理解的语言代码,之后逐步确定指令要求及服务范围,确定最终的操作意图。

现阶段语言理解多是以NPL算法实现的,能够对语言实行分词处理、词性标注、快速识别和自动文本转换。对话管理对连续对话的交互极为重要,一般的解决办法是将上轮对话解析的参数作为全局变量,带入到下一轮对话,根据当轮对话和一定条件来判断是否保持在上一轮的领域,或是清空上下文。语言生成是让系统具备人的表达和写作功能,结合关键信息资料,通过一系列转换流程生成最终的语言文本。语音生成功能能够让智能音箱按照人的要求定义和处理文本。常见的生成技术有参数合成、拼接合成这两种,前者灵活性强、计算量小,但自然度差;后者较为接近人的发音,存储资源相对较多,不过只能在线操作。

3.4其它技术

除上述技术外,智能音箱中还具备声纹识别、人脸识别等技术,能够借助声音或人脸的识别展开相应工作,顺利启动特定任务模式。

4 智能音箱未来发展的难点和突破口

4.1应用场景的多样性待丰富

虽然智能音箱的出现为家居市场带来新的机遇,其优良的语音助手功能,使得智能音箱成为家居控制的中枢系统,但这一形式只局限于国外发达国家,我国受到智能家居普及速度等多方面因素的影响,国内智能音箱只被当做智能单品进行销售。家庭购买智能音箱主要是为幼儿播放睡前故事、童话故事;音乐播放多为在线音乐的聆听,或播放广播;语音助手则是开展天气、周边服务查询等工作;智能家居是连接和控制内部智能家居设备,以语音形式完成设备自动化操控。国内的应用场景仍待丰富。

4.2用户需求的满足

从我国智能音箱市场的发展情况分析可知,目前参与智能音箱研究和生产的企业有很多,市场竞争压力较大,一些企业为增强市场竞争力,往往会采取降低智能音箱价格的方式开展销售,虽然智能音箱的整体价格普遍不高,但其性能质量也有所限制。另外,人们对智能音箱的使用多以娱乐为主,只是将其作为一个较为新奇的玩具,以语音助手功能增强生活便利性,对于智能音箱的其他功能,则未予以应用和重视。

不过随着技术水平的提高及经济的发展,近年来,关于智能音箱的应用,研究人员逐渐加大对用户需求的重视力度。如随着老龄化及留守儿童问题的加剧,智能音箱的应用频率也逐渐增多,越来越多的年轻人会利用智能音箱的设置解决老人和幼儿的生活问题,将其当作陪伴工具,提高幼儿及老年人的生活水平,缓解年轻人的压力。智能音箱可以成为父母的得力助手,根据儿童的性格、习惯、爱好等定制教育方案,有利于孩子的成长。智能音箱还可以在老人有需要的时候,与他们进行智能对话,帮助老年人控制家电,与医生远程连接,完成紧急呼救。

4.3形态创新与功能多样化

当前,智能音箱的生产需在原有基础上针对不同用户的具体需求展开个性化定制活动,生产功能和形态更加多样化的智能音箱,以满足人们的不同需求。常见的智能音箱种類有:一是简约型智能音箱,外形精简、成本较低,但性能上却不输以往音箱,满足部分用户需求,如方糖、天猫精灵M11音箱等;二是移动型智能音箱,小巧方便,能够随身携带,如小度音箱;三是屏幕型智能音箱,可直观的将显示内容展示出来,加快事务处理速度,且在联网状态下可完成视频语音通话、视频会议等服务,如叮咚PLAY音箱。

4.4产品设计与质量的提升

市面上的智能音箱同质化现象越来越严重,如同样的圆柱形外形,布满音孔的音箱形状,虽然企业有针对同质化问题着力解决,但因为采用的方式方法缺少统一性和科学性,同质化问题的解决效率低,无法在短时间内有效改善这一情况。部分企业为改善企业形象,将重点放在产品技术和质量上,虽然有获得好的口碑,但因为外形的一般化,产品在市场上的占比份额不高,无法达到销售预期。

亚马逊的智能音箱EchoSpot则相对获得了较好评价,其以圆型设计,对传统形状展开创新,音箱占地空间较小,易于携带,且配备摄像识别功能,保证使用过程的安全性,受到大众的一致好评。同时,该产品的软件功能也有所突破,它能对用户的模糊语音加以更加准确的判断,逐渐走出“人工智障”的迷局。技术和设计上的成功使得其在市场上具有较大的优势,再次巩固了亚马逊在智能音箱市场上的领先地位,推动智能音箱行业发展。

4.5内容与生态局限

内容与生态间的独立性是影响智能音箱发展的主要原因。如今很多企业在智能音箱生产中都有其独立的生态系统体系,需要相应的软件才能加以操作,这导致音箱与其它程序之间存在膈膜,很多信息数据无法共享,用户在使用中存在诸多不便。比如某用户想使用腾讯的QQ音乐,但是亚马逊的Echo可能无法支持,或者用户拥有多个智能音箱,却无法互联,不得不掌握多种音箱的使用方法。对于内容提供商来说,如果开发的产品支持多个生态链,肯定会提高产品的开发成本。这些因素大大地降低了用户体验,对整个行业的发展带来不利影响。

4.6技术瓶颈

智能音箱仍然受一些技术瓶颈牵制,如语音识别技术的不足,使智能音箱在语音指令识别上仍存在一定阻碍,无法准确定位作业内容,降低了使用的有效性。所以在未来发展中,需加强对语音识别、语义分析等技术展开研究探讨,使语音交互越来越像人与人之间的自然互动。

4.7技术融合

在未来智能音箱发展中,应注重音箱与其它技术间的有机融合,以期更好的丰富智能音箱功能,增加使用率。未来的AI技术、网通技术、能源技术必然会更加强大和完善,期待未来的智能音箱能与更先进的技术完美融合,变得更聪明、更快捷、更高效、更普及。

5 结束语

总之,智能音箱在现阶段已得到较广泛的应用,不过可以预期其技术、性能以及市场有巨大提升空间。期待相关技术能不断创新、功能不断强大,为人类提供更多便捷和帮助,彰显其便利性和智慧性,全面走进人们的生活,服务大众。

参考文献

[1]卜旭,程允丽.智能音箱关键技术及发展趋势研究[J].计算机产品与流通,2019,000(007):141-141.

[2]李莹,毛浩地,李晨,等.智能音箱产品及技术研究进展[J].信息与电脑,2019,422(04):144-145.

猜你喜欢
关键技术发展趋势
小麦春季化控要掌握关键技术
棉花追肥关键技术
成功育雏的关键技术
老苹果园更新改造的关键技术
跨座式单轨与中低速磁浮信号系统的关键技术
杉木萌芽更新关键技术