图灵测验在人机社交传播领域的应用

2020-02-03 09:38陈颖

今传媒 2020年1期

陈颖

摘要：近几年社交机器人在社交媒体上的应用越来越广泛，并对政治、经济、社会造成了重大影响，如何实现人与社交机器人的和谐相处也成为传播学的研究热点。正因为社交机器人的类人性与人机交互效果有关，而图灵测验是一个非常好的测量机器类人性的方法，因此本文尝试从图灵测验入手来思考如何促进人机社交传播，并介绍了如何将图灵测验应用于人机社交传播领域，提出目前的图灵测验在应用过程中有哪些局限性及相应改进措施。

关键词：人机社交传播;社交机器人;图灵测验

中图分类号：G206.2文献标识码：A 文章编号：1672-8122（2020）01-0135-04

随着信息技术的突破，社交机器人得到了普及和应用，在各个社交平台掌握的话语权也不断扩大，对当今的社交媒体环境造成了巨大的冲击，人机社交传播也引起各领域学者的重视，并成为一个重要的研究方向。

一、社交机器人的兴起

“社交机器人”的定义较为广泛，这里采用张洪忠等学者的定义，指在社交媒体上与真人用户进行互动的计算机算法，可以分为聊天机器人与垃圾机器人[1]。前者指通过自然语言与人类进行互动的聊天软件（如微软小冰），后者指通过自动化技术在社交媒体上控制多个社交账号并传播特定信息的人工智能。目前社交机器人技术尚处于初级阶段，但是发展迅速。一方面，开发者可以获取大量的用户行为数据（如各种社交网站及APP上面的视频、声音、文本等）;另一方面，出现了可以收集、组织和处理这些丰富数据集的复杂技术（如云计算、自然语言处理等），社交机器人已从早期功能单一的机器人进化到可以熟练模仿真实用户在线行为的社交机器人。

社交机器人账号普遍存在于各类社交平台，可以模仿人类的语言批量生产内容，模拟人类的情感构建社交关系，对政治、经济、社会等产生重要影响。社交媒体正由人类主导的现状慢慢转化为人机共同生存的状态[1]。人类与社交机器人的互动由“计算机中介传播”转化为“人机传播”，社交机器人由传播的“中介”转化为传播的“主体”，人机交互发展为具有社交性质的人机社交传播[2]。因此，如何实现人类与社交机器人的和谐相处也成为一个传播学的研究热点[1]。

社交机器人的传播效果以及与人类的传播关系受到其类人性的影响[1]。研究者们认为一个理想的社交机器人应该能够以一种自然的、拟人的方式与人类进行沟通或者互动[3]。人工智能专家在设计社交机器人时，非常关注社交机器人是否能够模拟人类的情感与行为，这里的潜在逻辑是：人类更喜欢用与他人（其他同类）互动的方式与机器进行互动[4]。前人的实证研究也表明，机器的类人性在人机交互中起着重要的作用，例如，当社交机器人对人类表达同理心[5]、情感行为[6]和恰当的语言形式[7]时，人们会体会到更强烈的愉悦感和可接受感;在暴力条件下，人们对具有更多类人性的机器人表现出更多的同理心[8]。

那么如何衡量社交机器人的类人性程度呢？人工智能专家们倾向于从技术层面来判断社交机器人的类人性程度，通过一些客观的指标来定义社交机器人的类人性水平。此外，图灵测验作为一种主观的辅助测量方法，也常常被用于衡量社交机器人的类人性程度。与技术层面的测量方法相比，图灵测验则着眼于社交机器人在人机互动过程中对人类的影响，以人的判断作为衡量社交机器人类人性程度的标准，这个标准是一种主观的指标。本文主要讨论如何应用图灵测验去测量社交机器人的类人性，从而为社交机器人的设计提供一些启发，使人机关系更加和谐。

二、图灵测验在人机社交传播领域的应用

Turing在《Computing Machinery and Intelligence》一文中最早提出了图灵测验的思想[9]。他为了回答“机器是否可以具有意识”这个问题，设计出这样一个思想实验：假设一个机器能够在对话过程中完美模仿人类语言而不被发现，即可认为该机器通过图灵测验，该机器可以被认为具有自我意识。因此，图灵测验又被称为“模仿游戏”，通过机器在语言水平上是否可以模仿人类来判定机器的意识水平。关于图灵测验是否能够证明机器具有意识这个问题，自图灵测验提出以来一直备受争议，这里不对此进行深入讨论。目前比较认可的说法是，通过图灵测验意味着机器可以在行为上模仿人类。图灵测验可以用于测量一个社交机器人是否能够在行为层面（包括语言层面）模仿人类，假如一个社交机器人能够模仿人类的行为，在人与人的交流中取代人类而无法被感知，使判断者无法对其身份进行正确区分，即可以说该社交机器人在行为层面与人类非常接近。那么，社交机器人的类人性就可以通过这种方法进行衡量。

Harnad在图灵测验的基础上提出了5级图灵测试层次结构，以涵盖图灵测验的各种难度[10]。T1水平是“玩具模型”水平，它只需要机器具有我们认知能力的一小部分，假设机器能够完美模仿偏执型精神分裂症患者的语言交流能力即可视为通过了T1。标准图灵测验位于T2水平，这要求机器在语言能力上与正常的成年人类无法区分。T3水平则要求机器在所有外部表现（如外观、声音、表情等）层面与正常人类完全不可区分。T4水平要求在微观功能水平具有不可区分性，如机器的人造神经元和合成神经递质在功能上与真实人类的神经元和神经递质不可区分。T5水平则要求机器与人类在所有微观粒子层面具有同一性。

目前图灵测验在社交机器人中的应用主要在T1到T2之间，当前的自然语言技术使社交机器人已经达到T1水平，但暂时无法通过T2。标准图灵测验通过的标准是：与人类进行自由的交流，并在交流结束后使人类无法做出正确区分。这里的“自由”意味着不对对话主题、对话方式、对话时间等进行限制。“正确区分”指的是将人类（具有正常智力的成年人）分类为人，将机器分类为机器，其他所有情况均视为“无法正确区分”[11]。

目前社交机器人距离通过标准图灵测验还有很长一段距离，但是确实在迅速逼近这个目标，标准图灵测验只有通过与不通过之分，很难体现出机器智能水平的进步。标准图灵测验的一个限制是标准过于严格同时又没有精细的划分标准。为了使图灵测验更具应用价值，研究者们常常对图灵测验进行不同程度的限制，使图灵测验由一个思想实验具现化为实际的可操作测试，从而制定各种不同难度水平的图灵测验，这样可以更加清晰地观察到社交机器人的水平。例如，英国伦敦皇家学会在2014年就进行过一场图灵测验，测验时每次对话时长被限制為5分钟，模仿对象为13岁小男孩，通过标准设定为30%，对话主题没有限制[12];2018年5月，谷歌首席执行官在2018年的I/O大会上展示了语音助手 “Google Assistant”如何通过电话预约方面的图灵测验（通过电话预约美发沙龙和餐馆）[13]。

通过总结发现，前人的各种修正版图灵测验主要从对话主题、对话时间、参照物、评价标准等方面入手。

1.对于对话主题，目前的技术水平无法使社交机器人涵盖各个方面的知识，所以可以根据社交机器人的应用领域来对对话主题进行设置。如专门用于交友的机器人可以把对话主题限制在交友这个范围内;幼儿教育机器人可以把对话主题限制在幼儿教育这个领域。

2.对于对话时间，可以根据时长设置不同难度的图灵测验，如从1分钟到半小时。

3.对于参照物，可以设置为正常智力的儿童、少年、青年、成年人等。

4.对于评价标准，比较常用的标准是超过30%的判断者无法区分即可认为通过图灵测验，随着技术水平的增长，可以逐渐增加为50%、80%等。

通过上述各种方法，图灵测验就从一个思想实验转换成一种实用性更强的社交机器人类人性测量工具。

三、图灵测验在应用过程中存在的缺陷及相应改进措施

1.目前所有的图灵测验都是通过判断者的自我报告来确定社交机器人的类人性，自我报告技术允许判断者描述他们的主观经历[14]，是一种直接而明确的测量方法，一直被认为是归因意识的黄金标准[15]。但是自我报告技术的一致性和有效性一直受到批评，因为它无法探测无意识认知[15]。无意识认知是指当前的经历和行为受到无法意识到的心理结构和心理过程所影响的一种现象[16]，它包括内隐学习[17]、内隐思维[18]、内隐语言处理[19]、内隐情感[20]、内隐态度[21]等。

意识认知和无意识认知都对评价、决策和推理等心理过程具有普遍而强大的影响，它们具有不同的特点，适用于不同的环境[22]。人类的意识和无意识并不总是一致的，二者之间存在分离。例如，Greenwald等研究者针对相同心理结构（如態度、刻板印象或自尊）的内隐测量结果和外显自我报告测量结果之间的关系进行了研究，他们发现结果往往是弱内隐-外显相关的[23]。此外，Zhang X等学者也在神经层面发现了意识与无意识的分离[24]。这种分离意味着无意识也可以提供很多信息，无意识可以解释影响判断的心理过程和刺激，这通常是无法通过意识检测到的[25]。因此，在应用图灵测验时考虑无意识认知的结果可能会为我们理解机器的类人性提供更全面的信息，如人们如何将人性归因于他人。

神经影像学的方法（包括功能磁共振、脑电等）被广泛应用于无意识研究。如Krach等研究者使用功能磁共振成像的方法来研究人类在人机交互过程中是如何内隐地将心理状态归因于机器的，他们发现，当受试者在做决策任务时，他们无意识地倾向于推测类人性更高的机器[26]。

我们可以将自我报告法与功能磁共振成像等神经影像学方法相结合，研究图灵测验中人机交互的神经基础。因为当判断者在图灵测验中对人类与机器做出不可区分的口头报告时，神经层面的活动也许会有显著差异。也许存在某些脑区或者脑网络对图灵测验中的判断起到至关重要的作用。与通过图灵测验的机器相比，当判断者与人类互动时，可能会有不同的大脑模式。结合图灵测验与神经影像学的手段也许可以解释为什么人类被认为是人类，为什么机器被认为是机器的神经机制。未来的研究可以探讨神经影像学的结果、自我报告的结果与日常人机交互行为记录之间的关系。不同的方法强调了同一心理过程的不同方面，相比单独使用一种方法能够更全面地了解心理过程。

2.此外，图灵测验中的自我报告会受到报告者心理状态的影响。因为在图灵测验中判断者需要做一定的逻辑推理，而以往的研究表明，极端情感状态（如积极情绪、消极情绪）、情感特质（如焦虑、抑郁）、情感内容（如图像、文字）会显著损害逻辑推理能力[27]。为了避免极端心理状态对判断结果的影响，我们可以将贝克抑郁量表、贝克焦虑量表和PAD情绪量表等应用于判断者的筛选中，这是为了避免这样一种状况，即判断者具有极端的心理状态但因为未达到临床标准所以无法通过简单的交流识别出来。这时就需要借助专业的心理测量工具来排除处于极端心理状态的判断者。

3.不可忽视的是，图灵测验中的自我报告会受到实验者偏差和确认偏差的影响。实验者偏差[28]意味着研究人员可能无意识地诱导判断者做出符合实验假设的反应。确认偏差[29]指的是人们倾向于收集、解释信息，以支持他们现有的信念或假设。图灵测验可能会受到这些偏差的影响。例如，Loebner prize（一个基于图灵测验的聊天机器人竞赛，致力于找到最接近人类的聊天机器人）为了帮助聊天机器人愚弄更多的判断者，而故意选择资质较差的判断者，将对话限制在异想天开的话题中，这种做法备受质疑。为了避免这种偏差，可以对竞赛的相关组织者（负责招募判断者的工作人员、确立对话主题的工作人员、负责接待竞赛参与者的工作人员等）隐瞒真正的目的。

四、结语

目前社交机器人已经成为自然科学、社会科学及交叉科学研究的热点，人机交互传播在机器人学、伦理学、传播学、心理学等领域都引起了高度重视。如何促进人机社交传播，使人机关系和谐发展是一个研究热点。本文讨论了图灵测验在人机社交传播方面的应用价值，以及可能存在的缺陷和相应的改进措施。因为图灵测验是对社交机器人与人类进行情感互动可视化测量的最佳方法之一，图灵测验的改进在促进人机社交传播方面有一定的意义。社交机器人的一个基本假设是“人类更喜欢以与他人互动的方式与机器互动”，因此，通过特定的图灵测验可能是理想的社交机器人的必要条件。虽然图灵测验相对于许多简单的社交机器人标准而言更为复杂，但在本文中，我们认为图灵测验仍然是评估社交机器人性能的一种好方法。本文认为未来在人机社交传播领域的研究可以应用图灵测验来评估和量化社交机器人的类人性。

参考文献：

[1] 张洪忠，段泽宁，韩秀. 异类还是共生：社交媒体中的社交机器人研究路径探讨[J].新闻界， 2019（2）： 10-17.

[2] 蔡润芳. 人机社交传播与自动传播技术的社会建构——基于欧美学界对Socialbots的研究讨论[J]. 当代传播， 2017（6）： 53-58.

[3] Graaf D， Allouch B， Dijk V. What Makes Robots Social？ A Users Perspective on Characteristics for Social Human-Robot Interaction[C].in International Conference on Social Robotics.2015：184-193.

[4] Fong T， Nourbakhsh I， Dautenhahn K. A survey of socially interactive robots[J]. Robotics and autonomous systems， 2003，42（3-4）： 143-166.

[5] Pereira A， Leite I， Mascarenhas S， et al. Using empathy to improve human-robot relationships[C]. in International Conference on Human-Robot Personal Relationship. Springer， 2010：130-138.

[6] Breazeal C. Emotion and sociable humanoid robots[J]. International Journal of Human-Computer Studies， 2003，59（1-2）： 119-155.

[7] Kim Y， Kwak S， Kim M. Am I acceptable to you？ Effect of a robots verbal language forms on peoples social distance from robots[J]. Computers in Human Behavior， 2013，29（3）： 1091-1101.

[8] Riek L， Rabinowitch T， Chakrabarti B， et al. Empathizing with robots： Fellow feeling along the anthropomorphic spectrum[C]. in 2009 3rd International Conference on Affective Computing and Intelligent Interaction and Workshops. IEEE， 2009：1-6.

[9] Turing A. Computing machinery and intelligence[J]. Mind， 1950，59（236）： 433.

[10] Harnad S. Other bodies， other minds： A machine incarnation of an old philosophical problem[J]. Minds and Machines， 1991，1（1）： 43-54.

[11] Warwick K， Shah H. Passing the Turing test does not mean the end of humanity[J].Cognitive computation， 2016，8（3）： 409-419.

[12] Warwick K， Shah H. Can machines think？ A report on Turing test experiments at the Royal Society[J]. Journal of experimental & Theoretical artificial Intelligence， 2016，28（6）： 989-1007.

[13] 李潮文. 2018 Google I/O：谷歌展示AI打電话预约技术[EB/OL].https：//www.guancha.cn/economy/2018_2005_2009_456287.shtml. 2018.

[14] Chan D. So why ask me？ Are self-report data really that bad[J].Statistical and methodological myths and urban legends： Doctrine， verity and fable in the organizational and social sciences， 2009：309-336.

[15] Destrebecqz A， Peigneux P. Methods for studying unconscious learning[J].Progress in brain research， 2005（150）： 69-80.

[16] Kihlstrom F. Cognition， unconscious processes[J]. Neuroscience year： supplement， 1989（1）： 34-36.

[17] Reber S.Implicit learning of artificial grammars[J].Journal of verbal learning and verbal behavior， 1967，6（6）： 855-863.

[18] Bowers S， Regehr G， Balthazard C， et al. Intuition in the context of discovery[J].Cognitive psychology， 1990，22（1）： 72-110.

[19] Schacterr L， Rapscak Z， Rubens B， et al. Priming effects in a letter-by-letter reader depend upon access to the word form system[J]. Neuropsychologia， 1990，28（10）： 1079-1094.

[20] Hodgson R， Rachman S. II. Desynchrony in measures of fear[J]. Behaviour Research and Therapy， 1974，12（4）： 319-326.

[21] Greenwald G， Banaji R， Rudman A， et al. A unified theory of implicit attitudes， stereotypes， self-esteem， and self-concept[J]. Psychological review， 2002，109（1）： 3.

[22] Dijksterhuis A， Nordgren F. A theory of unconscious thought[J].Perspectives on Psychological science， 2006，1（2）： 95-109.

[23] Greenwald G， Nosek A， Banaji R， et al. Validity of the salience asymmetry interpretation of the Implicit Association Test： Comment on Rothermund and Wentura（2004）[J].Journal of experimental psychology General， 2005，134（3）： 420-425; author reply 426-430.

[24] Zhang X， Chen X， Yu Y， et al. Masked smoking‐related images modulate brain activity in smokers[J]. Human brain mapping， 2009，30（3）： 896-907.

[25] Nisbett E， Wilson D. Telling more than we can know： Verbal reports on mental processes[J]. Psychological review， 1977，84（3）： 231.

[26] Krach S， Hegel F， Wrede B， et al. Can machines think？ Interaction and perspective taking with robots investigated via fMRI[J].PloS one，2008，3（7）： e2597.

[27] Blanchette I， Richards A.The influence of affect on higher level cognition： A review of research on interpretation， judgement， decision making and reasoning[J].Cognition & Emotion， 2010，24（4）： 561-595.

[28] Rosenthal R， Fode L. The effect of experimenter bias on the performance of the albino rat[J].Systems Research and Behavioral Science， 1963，8（3）： 183-189.

[29] Nickerson S. Confirmation bias： A ubiquitous phenomenon in many guises[J].Review of general psychology， 1998，2（2）： 175.

[責任编辑：杨楚珺]

今传媒2020年1期

今传媒的其它文章: “一带一路”倡议下国际新闻课程初探; 马克思主义新闻观探析; 表情包斗图：社交媒体情绪传播的仪式和心态; 新闻框架理论下的美朝峰会事件分析; 基于CBBE模型的党报新媒体品牌研究; 气象官方微博在防灾减灾中的功能探究