无障碍视角的未来科技:比科幻片更精彩

2021-01-22 09:19无障碍设计研究小组夏冰莹
福利中国 2020年6期
关键词:语音模态障碍

• 无障碍设计研究小组 夏冰莹

随着人工智能的不断突破,切实地给残障人士带来了极大的便利,比如,电动轮椅让肢体障碍的人可以独立出行,字幕让听力障碍人群可以看视频,读屏软件让盲人可以自由地使用电脑和手机。那么,从无障碍视角来看,以后的科技会如何发展?答案是——比科幻片更精彩。

智能科技辅助让障碍变"坦途"

谈到“智能科技辅助”,我们必须先了解两个人机交互界的术语——多模态交互和环境计算。

多模态交互,讲的就是用户可以通过多种方式完成某件事。一些小范围的交互已经达到了多模态,比如打字输入这件事,你可以在实体键盘上打字、在触屏键盘上打、用触控笔或手写输入,也可以用语音输入。但是,这离真正的、全面并且无缝衔接的多模态交互还有距离。

用户与设备之间的交互,是由输入和输出两部分组成的。目前主流设备中,普遍的输入和输出模态有以下几种:

设备输出包括视觉、音频、触感;用户输入:触碰、语音,除此之外还有一些少见的实验性模态,比如嗅觉/味觉/眼神操控/脑电波等。

任何障碍,无论是永久性的障碍(如视力障碍、听力障碍),还是情境性或临时性的障碍(如开车、做饭),都会影响到用户的某些输入和输出能力。

真正的多模态交互,是任意一种输出/输入方式、都可以被任意另一种所取代,并且可以在不同模态之间切换自如。视觉/听觉/触觉互相替代,触碰/语音互相替代。

语音交互当下的另一个局限是很难在不同模态之间无缝切换。如果要用Alexa语音助理在Amazon上买购物,就必须从语音开始查询、用语音完成交易,很难用语音助理查到一半、再切换到App里完成购买。但是,从情境性障碍的角度来看,用户的障碍状态是可能不断变化的——如前一秒在大太阳下走路(屏幕反光-视觉障碍)、下一秒就坐上了颠簸的公交(抖动-肢体障碍)。那么,系统的交互模态也应该跟着变化才对。这就带到了下一个概念——环境计算。

环境计算,指的是有一个存在于环境中的、无处不在的系统,随时感知用户当前的需求,无形中提供个性化的服务。

HP的环境计算系统构想:用户看着房间玻璃的时候,玻璃上会显示现在的时间、今天接下来的日程、以及家人回家了的通知。

在未来科技设想里,这是一个经久不衰的主题:一个万能又贴心的私人智能助理,完全理解主人的喜好和需求,随时随地展现出当前最需要知道的信息,在你主动提出要求之前就帮你完成你想做的事。

2014年推出的Google Now就是一个早期尝试环境计算概念的产品,它会自动分析用户的机票订单E-mail、在合适的时间弹出航班信息、提醒你按时值机和出门,也会根据用户的行为习惯、在快该下班的时候弹出回家的路况信息。但它还不够“环境化”,仍然需要用户主动在手机上进行大量操作。

近期逐渐进入主流的物联网则是环境计算的经典案例。比如Nest智能温控器,低调的设计让它与家具环境融为一体、不再有冷冰冰的“科技感“,并且会在使用过程中学习主人的生活习惯,学习后不需要进行任何操作,Nest就会自动帮你在合适的时间把家里室温调至你想要的温度,让科技完全隐形。

环境计算有两大核心,一是科技退至背景。在使用传统设备时,设备本身是交互的核心,用户要主动握着手机、看着屏幕进行操作。环境计算让科技变成环境中的一部分:隐形、但无处不在。这样用户不需要刻意把注意力放在设备上进行操作,而是让背景中的系统自动或半自动地完成你想做的事情。二是高度科技化。智能科技就像一个体贴的管家,比谁都更了解你的喜好和当前的需求,会在合适的时间提出合适的信息和建议,让你不用开口就能预测到你想要什么,自动帮你打理好生活中琐碎的事情。

从无障碍角度来看,环境计算带来的潜力是:简化操作,不需要手动操作,或只需要简单的指令就能帮你搞定一切的智能系统,意味着障碍用户的操作会变得更简单高效。

自然交互就是让科技适应人、而不是让人适应科技。语音、手势、眼神等自然操作的出现,不止会让科技变得更自然化、隐形化,也会开启更多的交互模态、给障碍用户提供更多的操作选择。情景感知系统随时感知用户当前的身体限制,自动适应用户的需求,切换到合适的交互模态,从而避免繁琐的手动设置。

"多模态交互+环境计算"让生活成科幻

当我们结合多模态交互和环境计算的时候,会产生什么样的应用?以一个人早晨起床后的活动为例:

8:00,一个人被床头的闹钟叫醒,迷迷糊糊地睁不开眼睛(视觉障碍),就跟闹钟说“关掉闹钟”来停止它。系统检测到“主人”起床了但睡眼惺忪,开始用语音播报现在的时间、今天的天气、新闻、日程。考虑到“主人”刚起床有点迷糊(认知障碍),它特意采用简短、语言简单的版本来报新闻。

8:05,这个人走进洗手间,系统也跟着从床头切换到洗手间里,他用电动牙刷刷牙的时候,听不清声音(听觉障碍),系统就从语音朗读切换到隐藏在镜子里的显示,让他用眼睛接着读新闻。人在刷牙没法用语音操控(言语障碍),所以系统把镜子上的UI调整为适合人的模式,显示出超大颗的“上一篇”“下一篇”按钮,方便人点击。

8:20,这个人洗完澡,开始吹头发,系统也跟着他从洗手间切换到了梳妆台的镜子上。吹头发的时候他打算刷刷抖音,但是吹风机太吵(听觉+言语障碍),系统就自动给他加上字幕。同时,这个人的习惯是用手握着吹风机,只能单手操作(肢体障碍),所以系统继续采用超大颗按钮的UI模式。

8:30,这个人准备出门,拎着包走进车库(肢体障碍),汽车看到“主人”走来,自动辨别出他的身份、给他开门。这时系统已经切换到车内音响。他一边手握方向盘专心开车(肢体障碍+视觉障碍),一边听着车内音响播报当前的路况和今天的会议日程,并且系统还推荐了沿途最便宜的加油站,提醒他该去加油了。

这样科幻片一样的生活方式,并没有想象中的那么遥远,而是科技从业者们正在努力的方向。

上面这个例子,虽然是以非残障用户的视角写的,但相信大家也能想象到,同样的技术会给残障用户带来更大的便利。

当然,这样无处不在、全知全能的人工智能也会有自己的问题,比如“人工智障”现象,如隐私权、商业公司权利过大、机器学习中的偏见等。暂时放下这些阴暗的话题,单独从人工智能的正能量潜力来考虑,多模态交互+环境计算带来的未来,可以是非常美好的。

不对用户的身体能力做出任何假设、而是让系统去适应用户想要的操作方式、并且根据情况随时在不同操作模式之间切换自如,这才是真正友善包容、以人为本的科技交互。

猜你喜欢
语音模态障碍
基于BERT-VGG16的多模态情感分析模型
多模态超声监测DBD移植肾的临床应用
睡眠障碍,远不是失眠那么简单
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
跟踪导练(四)2
对方正在输入……
跨越障碍
多导睡眠图在睡眠障碍诊断中的应用