以人为中心的人-机器人自然空间语言交互*

2019-12-05 03:58肖承丽徐刘飞周仁来
应用心理学 2019年4期
关键词:接收者木块指令

肖承丽 范 丫 徐刘飞 周仁来

(南京大学社会学院心理学系,南京 210023)

1 引 言

自然语言,是人们日常生活中最常采用的信息交流方式;空间信息,是人与人协作沟通中最重要的信息元素之一。使用自然语言传递空间信息,即空间语言交互,是个体之间实现空间信息共享,并最终达成协同合作的重要交互方式。比如,在电话里告诉朋友如何从公交车站走到你家,在办公室请同事帮忙拿取文件柜里的某一份文件……随着语音识别技术的成熟,机器人已经基本能够使用自然语言与人对话,但是还无法像人一样在类似上述的情境中使用自然语言与人交流空间信息,并最终在“非结构环境下为人类提供必要服务”(中华人民共和国国务院)。为了实现这一目标,要遵循“以人为中心”的研发原则,赋予机器人与人智能同构的“人水平的人工智能”(唐宁等,2018;许为,in press;周吉帆等,2016;Lemaignan,Warnier,AkinSisbot,Clodic,& Alami,2017)。

本文围绕着人-机器人通过自然语言交流空间信息这一任务主题,首先对人-人空间语言交互中涉及的空间认知机制——空间视角采择、空间语言参考框架、心理理论展开分析,并提出了人-人空间语言交互行为模型。在此基础上,提出了以人为中心的、与人智能同构的机器人空间认知研发设计方案,总结归纳了当前机器人空间认知的研发进展,并对未来的研究方向提出了建议。

2 人-人空间语言交互的认知机制和过程

假设你与一位合作者共同完成一项组装任务,如图1所示。合作者坐在你的对面,你需要让对方将带有红色圆点标记的木块递给自己,这时你会怎么说?

2.1 空间视角采择

首先,你可能会意识到在图1中,从对方的视角看不到这个红色的圆点;其次,你可能会意识到这个木块上面的数字,从自己的视角看是6,而从对方的视角看是9。这反映了人的空间认知的一个重要且基本的机制——空间视角采择(spatial perspective taking),即人们想象自己站在他人的空间位置,推论从他人的视角看到的空间场景是什么样的。空间视角采择有两个层次(张越,葛贤亮,田志强,&葛列众,2018;Flavell,Everett,Croft,& Flavell,1981):层次1解决遮挡问题,即理解对方可以看见什么(what),比如发现图1的红点对方看不见(Todd,Cameron,& Simpson,2017);层次2解决视角问题,即理解从对方的视角看到的空间是怎样的(how),比如发现图1木块上的数字从对方的视角看是9(Gunalp,Moossaian,& Hegarty,2019)。

层次1和层次2空间视角采择的实现策略各不相同。层次1空间视角采择,人们可通过视线连线策略(line-of-sight strategy)完成(Baker,Levin,& Saylor,2016),即判断对方的视线和目标物之间是否有遮挡,如果存在遮挡阻断视线连线,则说明对方无法看见该目标物,如果不存在遮挡阻碍,则说明对方可以看见目标物。而层次2空间视角采择,人们必须通过心理旋转策略(mental rotation strategy)才能实现,即要么把自己眼前所见的场景在头脑中旋转、要么想象自己旋转移动至对方的视角,最终在头脑中计算出对方看见的场景应该是怎样的(Cavallo,Ansuini,Capozzi,Tversky,& Becchio,2017)。

2.2 空间语言参考框架

除了意识到对方看到的空间场景与自己不同之外,我们还有可能意识到有多种方式来表征和描述目标物体,比如“在你最左边的木块”“在我最右边的木块”“在汽车尾部的木块”等。这些不同的描述方式,反映了不同的空间参考框架(spatial frames of reference),即以不同的参照物(如我、你、汽车)及其方向(如左、右、尾部)来定位目标物体。

在人-人日常空间语言交流中,人们向对方描述一个空间信息,可以采用的空间参考框架有5种(Trafton et al.,2005):

(1)接收者中心(addressee-centered),即信息传达者以交流对象的身体的前后左右来描述空间方位,比如“在你最左边的木块”。使用此参考框架的前提是信息传达者知道信息接收者当前的空间方位。在这种参考框架下,信息接收者的认知负荷较低,但信息传达者的认知负荷往往较高。因为大多数情况下信息交互双方的空间视角不同(如面对面站立或远程电话交流),信息传达者必须进行层次1、2的空间视角采择,才能实现从信息接收者的角度描述空间方位。

(2)自我中心(egocentric),即说话人以自己身体的前后左右来描述空间方位,比如“在我最右边的木块”。与上述情境正好相反,在这种参考框架下,信息传达者的认知负荷较低,而信息接收者的认知负荷往往较高,因为他需要对信息传达者进行空间视角采择,即根据信息传达者的空间方位,重新“计算”出正确的目标方位。使用此参考框架的前提是信息接收者知道信息传达者当前的空间方位,如果信息接收者实际上缺少这些知识,那么该参考框架无法传递有效的空间信息。

此外,成功使用接收者中心或自我中心参考框架的共同前提,是信息传达者在语言中明确标定空间参考点是自己还是接收者,或者交互双方就默认的空间参考点达成共识。如果该信息缺失或双方的默认值不一致,就可能导致交互出现混乱。比如针对图1的场景,“最右边的木块”这条指令就指向了两个可能的目标物体。

(3)物体中心(object-centric或object-based),即根据环境中的一个有明显方向的物体来定位目标空间方位,比如“在汽车尾部的木块”。该参考框架无须交流双方进行空间视角采择,但只有在环境中存在有明显方向的物体时才能够使用。

(4)指示(deictic),即通过“这”“那”等指示词,加上姿势动作等指令来实现空间信息交流,比如说话者手指向一个位置并同时说“走到这里”。该参考框架同样不需要交互双方进行空间视角采择,但其使用有前提限制,即信息接收者必须能够看见说话者的动作指令。在有遮挡、缺少照明(比如黑暗环境)、视线范围外(比如电话远程交流)等情境下无法使用此指令。

(5)世界中心(exocentric或world-based),即以东南西北这种绝对的、全球通用的坐标系来描述空间方位,比如“朝北走”。在这种参考框架下,信息交流双方无须进行空间视角采择,但成功交互的前提是双方都熟悉并习惯于使用世界中心的参考框架。而在现实生活中,并非所有人都习惯使用本参考框架,比如女性(Lawton,1994;Lawton & Kallai,2002)或中国南方人(Li & Zhang,2009;刘丽虹,张积家,&王惠萍,2005)都更偏好使用前后左右(自我中心或接收者中心参考框架)而非东南西北;且人们一般在室外而非室内选择使用该参考框架(Lawton,1994,1996;Li & Gleitman,2002)。

2.3 心理理论

在上述空间视角采择和空间参考框架选择过程的背后,还隐含了一项基本的人类智能——心理理论(Theory of Mind,ToM)(Apperly & Butterfill,2009;Premack & Woodruff,1978;Schaafsma,Pfaff,Spunt,& Adolphs,2015)。拥有该智能的个体,不仅能够形成其他智能体对当前环境的信念,还能够表征其他智能体的社会认知,理解其他智能体的目的和意图。即在图1的例子中,心理理论能力不仅可以保证个体认识到自己和他人看到的空间环境不尽相同、意识到他人更容易理解接收者中心参考框架,还可以支持个体判断他人的意图,比如发现对方盯着他左边的木块,推论他的意图是想拿起那个木块。近年来,越来越多的研究表明,心理理论对空间视角采择和空间语言交互具有重要影响(赵婧,王璐,&苏彦捷,2010)。

首先,心理理论影响空间视角采择的自发性和效率。在层次1空间视角采择方面,有研究者认为其自发产生的机制是个体对采择对象进行了心理化(mentalizing)加工*

*也有另一派研究者认为层次1空间视角采择的自发产生是一般领域认知加工的结果。由于该理论争论与本综述关系不大,故不详细展开。感兴趣的读者可参阅(Heyes,2014)。。其证据包括个体仅对拥有心理状态的他人自发进行层次1空间视角采择,而不会对木块这种没有心理状态的物体自动进行层次1空间视角采择(Nielsen,Slade,Levy,& Holmes,2015);而当他人戴上眼罩后,由于个体内隐地对他人的心理状态进行了推论(即他人看不见),因此个体不再自发对他人进行层次1视角采择(Furlanetto,Becchio,Samson,& Apperly,2016)。在层次2空间视角采择方面,大量研究表明个体的表现与其心理理论能力正相关,即心理理论能力越强,层次2空间视角采择成绩越好(Clements-Stephens,Vasiljevic,Murray,& Shelton,2013;Shelton,Clements-Stephens,Lam,Pak,& Murray,2012)。而心理理论能力严重受损的自闭症患者,其层次2视角采择成绩也显著低于正常人(Pearson,Ropar,& Hamilton,2013)。

其次,心理理论作用于个体对他人意图的判断,从而影响其空间语言交互过程。当他人注视或把手伸向目标物体时,即表现出与目标物体交互的意图时,人们会更多地从他人的视角描述物体的位置(Clinton,Magliano,& Skowronski,2018;Furlanetto,Cavallo,Manera,Tversky,& Becchio,2013;Tversky & Hard,2009)。有趣的是,类似的现象也发生在人-机器人交互过程中,即当机器人表现出与目标物体交互的意图时,人们也会更多地从机器人的视角描述物体位置(Zhao,Cusimano,& Malle,2015),或者更多地将注意力集中在机器人视线关注的物体上(Staudte & Crocker,2011)。

2.4 人-人空间语言交互过程

理解人-人空间语言交互,除了要掌握其认知机制(即心理理论、空间视角采择、空间语言参考框架的理解与表达),还需要掌握其交互过程。日常的人-人空间语言交互,并非片段的、孤立的,而是一个基于任务目标、随着任务进展和对方反馈动态发展变化的过程。即在图1的例子中,告诉对方将汽车尾部的木块递给自己,仅仅是整个合作任务的一个环节。在这之前,还涉及个体基于明确的任务要求或对他人意图的推理形成共同目标,然后通过对抽象目标实现方式的检索来做出抽象符号层面的计划,之后再根据计划来规划自身的交互语言或动作行为,并在具体的执行过程中根据对方的反馈不断进行调整和修改,以最终完成共同目标(Bratman,1992;Devin & Alami,2016)。表现为在一个任务流程中,个体会不断地切换参考框架(大约每两句话切换一次)(Trafton et al.,2005)。当发现对方无法理解某种参考框架时,人们会采用另外一种参考框架对空间信息进行转述(Schober,1993),当发现对方的空间视角采择能力较低时,更多地采用接收者中心参考框架(Schober,2009)。

将上述过程进行抽象提炼,可以得到一个简要的人-人空间语言交互过程模型(图2)。首先,交互双方需要就任务目标达成共识,并判断出对方的意图,同时还需要从双方视角下对场景进行识别,基于各参考框架建立物体之间、人与物体之间的空间关系表征(Clinton,et al.,2018;Furlanetto,et al.,2013;Tversky,& Hard,2009)。指令发出者基于前述信息,对交互语言进行规划,形成若干种空间参考框架语言的备选项(比如图1情境下,形成“拿我左边的木块”“拿你右边的木块”备选项)(Carlson,& Deman,2008)。随后,指令发出者基于任务情境和知觉到的双方的个体空间能力和偏好差异,从备选项中选择一种进行表达(比如选择说出“拿我左边的木块”)(Burigo & Schultheis,2018;Galati,Michael,Mello,Greenauer,& Avraamides,2013;Ryskin,Wang,& Brown-Schmidt,2016;Schultheis & Carlson,2017)。指令接收者在听到对方的空间语言之后,对其中的空间信息进行提取并与自己先前建立的空间关系表征进行匹配,如能成功提取信息和匹配,则表现为能够理解对方的空间语言,进入根据指令规划并执行交互动作的环节(如拿取目标木块);如不能成功提取信息或匹配,则表现为不能理解对方的空间语言,表现为犹豫不决或通过语言问询向对方确认指令,或者以自己认为正确的其实是错误的理解来规划和执行交互的动作(如拿取非目标木块)(Galati,Dale,& Duran,2019)。通过观察指令接收者的行为,指令发出者获得反馈,并根据反馈来评估指令接收者是否正确理解了自己的指令以及任务是否完成。如果完成,则任务结束。如果未完成,则指令发出者需要对任务现状进行再次评估,判断先前交互失败的原因:如果是由于对方不能理解先前的参考框架信息,则指令发出者可以回到“选择并说出空间语言”环节,重新选择对方能够听懂的空间语言表达;如果是由于自己的空间语言缺乏必要的关键信息(如只说“拿左边的木块”,却没有明确是谁的左边),则指令发出者须回到“规划可能的空间语言”环节,重新形成更加清晰的空间语言;如果是由于自己在确定任务目标、对方意图或识别空间场景时出现偏差,则指令发出者须回到第一个环节修正错误(Galati,Panagiotou,Tenbrink,& Avraamides,2018;Schultheis & Carlson,2018)。

图2 人-人空间语言交互过程模型(实线箭头表示个体内部的认知流程,虚线箭头表示个体间的信息传递)

在这个交互模型各个环节的背后,需要前述提及的各种认知机制的支持。其中,视角采择主要作用于识别空间场景,即个体不仅要从自己的视角建构空间场景的表征,还要从对方的视角建构空间场景表征(Galati,et al.,2019;Gunalp et al.,2019;Todd et al.,2017);在后续的规划、选择并说出和理解空间语言的过程中,都涉及对各种空间语言参考框架的处理(Burigo & Schultheis,2018;Galati,et al.,2013;Kelly et al.,2018;Ryskin et al.,2016;Schultheis & Carlson,2017);而心理理论作为人际交互的基本能力,作用于确定任务目标、判断对方意图、区分自我-他人视角下的空间场景、选择空间语言、理解空间语言、获得反馈并评估、基于评估结果进行调整等各个环节(Clinton et al.,2018;Furlanetto et al.,2013;Tversky & Hard,2009)。

3 以人为中心的机器人空间认知

随着人工智能的不断发展,机器人在越来越多的领域成为了人类新的任务交互对象。遵循以人为中心的研发原则(唐宁等,2018;许为,in press;周吉帆等,2016;Lemaignan et al.,2017),设计机器人拥有与人相似的空间认知能力,实现机器人在空间语言交互上与人智能同构有两大重要优势:首先,符合人类用户的认知行为习惯,可以降低认知冲突,减少不必要的用户对机器人的适应和学习过程;其次,机器人通过对人行为意图的加工,实现对任务目标的理解与分解,在与人进行合作时,将大大降低人所需要发出的空间语言指令的数量,降低人的认知负荷的同时提高了任务完成的效率(Fischer & Demiris,2016;Trafton et al.,2005)。比如,在图3的情境中(Trafton et al.,2005),桌面上有两个扳手,从人的视角只能看到一个,另一个被盒子挡住了,但从机器人的视角能看见两个。此时人向机器人发出“把扳手给我”的指令,如果机器人拥有空间视角采择能力,能够判断出从人的视角只能看见扳手2,并做出合理推论,人要的是他能看见的扳手2,那么机器人可以迅速地做出反应,递上扳手2。但如果机器人不具备空间视角采择能力,它必须首先询问和再次确认人的意图,人必须中断当前的思维和任务,投入心力去了解机器人的困境,然后再重新下达机器人能够理解的指令。

图3 可以运用空间视角采择易化人机交互过程的场景案例

[原图来自(Trafton et al.,2005)]

要实现以人为中心的机器人空间认知,需要基于前述人-人空间语言交互的认知机制,赋予机器人相应的认知能力和知识架构(李新德&张秀龙,2014;朱博,高翔,&赵燕喃,2017)。首先,机器人的视觉识别,除了能够从自己视角获取周围环境的空间表征之外,还应该能够表征交互对象视角下的空间表征,即具有空间视角采择能力(如Fischer & Demiris,2016;Trafton et al.,2005);其次,机器人应该能够基于5种空间参考框架对自我和他人视角下的空间表征进行编码,并能够将任意一种参考框架编码以符合自然语言语法规则的方式说出,或者能够听懂任意一种空间参考框架下的自然语言(如Gu,Taguchi,Hattori,Hoguro,& Umezaki,2016;Hato,Satake,Kanda,Imai,& Hagita,2010;Srimal,Muthugala,& Jayasekara,2017);再次,机器人在选择说出哪种空间参考框架和理解空间语言时,能够借助心理理论智能推测交互对象的意图和心理状态,做出最佳的选择或理解(如Devin & Alami,2016;Görür,Rosman,Sivrikaya,& Albayrak,2018;Lemaignan et al.,2017;Winfield,2018);最后,作为一个以人为中心、与人智能同构的机器人,还应该具备适应、调整和学习的能力,即基于交互对象的特征设置默认空间参考框架(如针对女性设置为接收者中心参考框架),并且在交互过程中根据对方的反馈进行动态调整(如Martins,Santos,& Dias,2019;Rossi,Ferland,& Tapus,2017)。

3.1 机器人的空间视角采择

作为人-人空间语言交互的重要认知能力,研究者们很早就认识到了赋予机器人空间视角采择能力的重要性,并设计出机器人模型加以证明(Breazeal,Berlin,Brooks,Gray,& Thomaz,2006;Trafton et al.,2005)。实现机器人空间视角采择有三个关键方面:机器人能够识别环境及其中的各个物体,能够追踪人的视线方向并确定其能否看见目标物体(层次1空间视角采择),能够将机器人视角下的场景转换为对方视角下的场景(层次2空间视角采择)。

受机器人视觉加工能力的限制,早期的机器人空间视角采择实现方法,必须借助动作捕捉系统和/或人工标记来获取人的头部朝向和物体位置的信息,或者必须提前向机器人提供某物体能否被对方看见的信息(Breazeal et al.,2006;Johnson & Demiris,2007;Kennedy,Bugajska,Harrison,& Trafton,2009;Pandey,Ali,& Alami,2013;Trafton et al.,2005),这大大限制了机器人的环境适用性。近年来,随着人工智能视觉识别软硬件技术的提升,研究者们通过将低成本的RGB-D深度相机和机器人自带的视觉系统相结合,开发出机器人实时获取当前三维环境的空间和物体信息、识别人的头部姿态以推论其视线方向的算法,初步实现了无须提前标记或动作捕捉系统的实时层次1、2空间视角采择(Fischer & Demiris,2016)。

3.2 机器人的空间参考框架

在人-机器人空间语言交互过程中,机器人的空间参考框架能力主要体现在环境感知和语言处理两个方面。即一方面机器人能够基于感知到的空间场景产生各种空间参考框架的自然语言,另一方面能够听懂各种空间参考框架的自然语言并将其准确匹配到所感知的空间场景中。其中涉及了若干对人类而言似乎是理所当然,但要实现于机器人却极具挑战性的能力。

在环境感知方面,机器人需要在识别环境中各物体和人的基础上,基于各空间参考框架建立完备的空间关系表征:针对接收者中心、自我中心和物体中心空间参考框架,机器人需要以符合人类认知和语言规则的方式、基于各参照物来划定其前后左右上下等空间范围(Gu et al.,2016;Srimal et al.,2017);对于指示参考框架,机器人则需要识别指令发出者的手指方向、头部朝向或视线方向,并基于人类的认知习惯划定“这”“那”“大概这边”“大概那边”等指示的空间范围(Hato et al.,2010);对于世界中心参考框架,机器人则需要配置罗盘或GPS装置,使其维持东南西北的方向感。当前相关的机器人研究,大多只针对某一类参考框架任务展开,场景也多为实验室预设的简单场景,还不能达到像人一样在真实复杂情境下同时建立多个参考框架空间表征。

在空间语言处理方面,机器人面临的挑战是处理非约束的、模糊的、多变的自然语言,包括:(1)从非约束的自然语言中提取出关键的空间信息(Fasola & Matariĉ,2014;Huo,Alexenko,& Skubic,2014)。比如机器人能够从“请你去餐桌拿一杯水放到我的书桌上我一会儿要喝”这句日常对话中提取出关键的空间信息“去餐桌”“拿一杯水”“放到我的书桌上”。(2)基于自然空间语言构建语义地图,以提升对未知、非结构复杂场景的空间环境识别能力(Walter,Hemachandra,Homberg,Tellex,& Teller,2014)。比如在一个未知环境中,机器人能通过分析人类的语音指令“厨房在走廊尽头”建构出走廊和厨房的空间位置关系,从而弥补或修正基于视觉传感器扫描建构空间表征导致的误差。(3)理解和表达模糊的、相对的概念和描述。比如“一起”“稍微分散”“散开”(Edirisinghe,Muthugala,Sirithunge,& Jayasekara,2018),远近、大小、深浅(Muthugala & Jayasekara,2017),又或者是“那个戴眼镜穿粉红色衬衫的女孩”(Mao et al.,2016)。(4)能够根据语境理解和表达空间和物体的不同概念层级(Hagiwara,Inoue,Kobayashi,& Taniguchi,2018)。比如理解“在家里”、“在客厅”或“在电视机前”是同一个空间位置,“那辆车”、“那辆小轿车”或“那辆奔驰”是同一个物体。尽管在上述各个方面机器人研究都取得了一定进展,但也存在场景多为实验室预设简单场景、语言指令较为简单和缺少整合性研究的问题。

3.3 机器人的心理理论

在空间语言交互任务中,早期的研究者主要强调在空间环境感知层面赋予机器人心理理论,即机器人能够正确地对他人进行空间视角采择(Trafton et al.,2005),近年来,越来越多的研究者提出还应该在目标、计划和行动层面赋予机器人心理理论(Devin & Alami,2016;Görür et al.,2018;Lemaignan et al.,2017;Winfield,2018),即机器人能够理解任务目标和计划,并在整个任务流程中监控对方的行为以实时表征他人的态度和信念。

尽管各研究实现机器人心理理论的方法不同,关注的具体任务各异,但实现目标和基本思路大致相同。在实现目标上,各研究均期望机器人能够合理地预测对方的行为,而非被动地等待对方的反馈。在实现的基本思路上,大多数研究都会分别建构两个模块来分别表征机器人自己和对方的认知心理状态,并通过一个总的任务管理器来跟踪管理任务的进程。在具体的任务上,已有的研究涉及:预测他人行进路线、模拟他人行为(Winfield,2018);处理预期之外的人类行为,包括人突然不想完成既定任务、人接到了另一个任务、人感觉到了劳累或者人突然不想让机器人帮忙等(Görür et al.,2018);监控对方行为以合理推论其对当前情境的知识状态,比如对方短暂离开、走神等(Devin & Alami,2016)。

3.4 机器人空间认知的未来研究方向

在上述机器人空间视角采择、参考框架、心理理论研究的基础上,未来的机器人空间认知研究,应该朝向更加高效、更加整合、更加以人为中心的方向发展。

在视角采择能力方面,除了加强机器人对复杂环境和物体的识别能力之外(朱博等,2017),还可以进一步加强机器人对视线方向计算的精度,比如赋予机器人眼动识别能力以更精确地确定他人的视线方向,在计算层次1视角采择时考虑人的视野大小等(Fischer & Demiris,2016)。

在空间参考框架处理能力方面,有两大可以提升的方向:其一,在每一个可命名的要素层级对交互情境中涉及的人、物体和空间场景进行识别,以建构层次更加丰富的空间表征、适应人们灵活选取空间参照物的特点。比如在图1的场景中,带红色圆点的木块可以基于汽车(“在汽车后面”)或汽车的一部分来(“靠近汽车尾部”)定位,这就要求在识别汽车时,还需要识别出它的尾部、头部、前后车轮、前后车门等人们常常使用的可命名单位。同样,对人的识别也需要再进一步识别出躯干、头、手等经常被用作空间参照物的部位(Robertson,2004;Waller,Lippa,& Richardson,2008),以保证机器人能够建立诸如“目标物在你的视线前方”或“目标物在你的身体右侧”等空间表征。其二,打通各类空间参考框架研究之间的壁垒,在一个整合的空间参考框架处理模块之下,实现机器人自由使用和灵活切换各空间参考框架,比如能把“我的左边”转换为“你的右边”、“你的东边”、“汽车前面”或“这边”。

在心理理论能力层面,还可以进一步提升机器人对用户的适应性交互(user-adaptive interaction)(Martins et al.,2019;Rossi et al.,2017),使得机器人更加“以人为中心”。一方面,要让机器人能够更准确地识别人类用户的行为和能力、推论其意图和目标,在此基础上选择最适合的空间参考框架进行交互。另一方面,还要赋予机器人自主学习和反馈调整的能力。比如,当发现对方不能理解某种空间参考框架时,能够及时转换为另外一种空间参考框架表述;在与某位用户进行短暂交互之后,对其空间语言参考框架偏好有所把握,并在之后的交互过程中投其所好。

最后,机器人空间智能研发的终极目标是建立一个整合的、以人为中心的机器人空间语言交互处理系统(Lemaignan et al.,2017)。该系统应当包括视角采择、参考框架处理、心理理论等重要认知模块,能够处理确定任务目标、判断对方意图、识别自我-他人视角下的空间场景、规划可能的空间语言、选择并说出空间语言、理解自然空间语言、获得反馈并基于反馈进行调整等各项任务。最终实现机器人以符合人类认知习惯的方式、流畅高效地与人进行空间语言交互,成为人类信任和喜爱的伙伴(Broadbent,2017)。

4 总 结

基于“以人为中心”的原则,赋予机器人与人智能同构的空间认知能力,是实现机器人像人一样可以通过自然空间语言交互的关键。它要求我们一方面深刻理解人类的空间语言交互的认知机制和过程,另一方面将人类的认知机制和过程应用到机器人研发当中。

通过对人-人空间语言交互的认知机制的分析,我们发现除了强大的视觉加工和语言处理能力之外,人类还拥有独特的空间视角采择和心理理论能力,并能够处理多种空间语言参考框架。在对人-人空间语言交互过程进行抽象概括的基础上,我们提出了人-人空间语言交互模型,划分出交互过程中的重要任务阶段,包括:确定任务目标、判断对方意图、识别自我和对方视角下的空间场景、规划可能的空间语言、选择并说出空间语言、理解空间语言、获得反馈并评估;并对各任务阶段间的关系及其背后的认知机制进行了论述。

在充分认识人-人空间语言交互的认知机制的基础上,我们提出了以人为中心的机器人空间认知方案。机器人应当具有空间视角采择能力,能够识别环境中的各种空间参考框架,听懂和表达各种参考框架下的自然空间语言指令,能够运用心理理论判断对方的意图并根据用户反馈及时调整交互策略。尽管当前机器人空间认知研究在上述各个方面都取得了一定的进展,但仍需朝着更加高效、更加整合、更加以人为中心的方向不断前进。

猜你喜欢
接收者木块指令
基于SDN的组播安全机制
《单一形状固定循环指令G90车外圆仿真》教案设计
功能翻译理论视角下英语翻译技巧探讨
怎样数出小木块的个数
可撤销用户动态更新广播加密方法的研究
关于ARM+FPGA组建PLC高速指令控制器的研究
基于Qt和OpenDDS的船舶电力模拟训练系统指令处理方法
口碑传播中影响因素作用机制研究及应用
MAC指令推动制冷剂行业发展
错在哪里