奖赏学习对视觉注意的调控*

2018-04-10 09:56贾珂李晟

应用心理学 2018年2期

　贾　珂　李　晟

(1.密歇根州立大学心理学系，密歇根州 48824，美国;2.剑桥大学心理学系，剑桥 CB2 3EB，英国；3.北京大学心理与认知科学学院；4.北京大学麦戈文脑科学研究所；5.行为与心理健康北京市重点实验室；6.北京大学机器感知与智能教育部重点实验室，100871 北京)

1　引　言

由于大脑在同一时间内加工信息的容量有限，因而在面对外界环境中源源不断的信息输入时，个体需要对信息进行选择性处理。这一过程既包括了对相关信息的选择，也包含了对无关信息的忽略。在经典的注意理论(Posner & Petersen,1990;Desimone & Duncan,1995;Kastner & Ungerleider,2000;Connor,Egeth & Yantis,2004)中，影响个体注意分配的因素主要划分为两个方面，一是刺激显著性驱动的、自下而上的注意过程(stimulus-driven bottom-up attention)，例如在众多绿色盆景中的一束红色花卉会自动捕获个体的注意。二是由任务导向的、自上而下的注意过程(goal-directed top-down attention)，例如在开车过程中，个体会有意识地注意红绿灯、各种路牌和路标，以确保驾驶安全。综合近年来的大量研究结果可见，除上述两个因素之外，个体的注意还受到刺激(位置、特征或客体)所赋有的价值影响(Awh,Belopolsky,& Theeuwes,2012;Chelazzi et al.,2013)，比如糖果和玩具对于小孩，金钱对于成年人来说都是具有价值的外部奖赏刺激。这些外部奖赏刺激产生的效应甚至可以在无意识、无注意的条件下促进个体的视觉加工(Pessiglione et al.,2007;Xue,Zhou & Li,2015;Seitz,Kim & Watanabe,2009)。

早期研究主要关注奖赏作为直接的线索或者反馈，对个体唤醒程度、动机水平、任务导向的选择性注意和执行控制能力等方面的即时强化作用(详见综述Pessoa & Englemann,2010)。然而，近年来基于奖赏学习范式的研究结果则揭示了奖赏对选择性注意的另一种调节机制。例如与奖赏建立起关联的刺激，可以在没有奖赏反馈的新异情境中持续吸引注意，甚至在与任务无关的情境中影响注意选择和感知觉加工(详见综述Anderson,2013;2016；Chelazzi et al.,2013)。从理论的角度而言，这一系列发现与经典条件作用(Pavlov,1927;Rescorla & Wagner,1972)和学习理论的预测性原则(Mackintosh，1975)均相吻合，即奖赏—刺激联结性学习不仅可以让对奖赏等重要结果具有预测性的刺激衍生获得内部价值，还可以使得该刺激在竞争中获得更多注意资源。这种奖赏与预测性相结合所得的双重特征，使得奖赏相关刺激能够在注意选择中占据优势。奖赏驱动的注意效应(reward-driven attention)在人类和灵长类动物研究中均有体现，可在不同任务之间迁移泛化，影响不同脑区的神经活动以及外显的行为表现，如反应时、正确率、眼动等(详见综述Chelazzi et al.,2013;Failing & Theeuwes,2017)。概括而言，奖赏能够驱动其关联刺激产生注意效应(Della Libera & Chelazzi,2009;Raymond & O’Brien,2009;Hickey et al.,2010;Anderson et al.,2011;Wang et al.,2013)，并且该效应的发生不依赖于刺激本身的物理显著性，或奖赏与任务目标的相关性。这种奖赏驱动的效应源于中脑(midbrain)、纹状体(striatum)等奖赏加工脑区(Anderson et al.,2016；Hickey et al.,2015；Gong et al.,2017)，它不仅可以调控注意控制相关的高级脑区，如前扣带回(anterior cingulate cortex)(Hickey et al.,2010)、后顶区(posterior parietal cortex)(Peck et al.,2009；Krebs et al.,2011)，甚至可以影响奖赏关联刺激在早期视觉皮层的神经表征(Weil et al.,2010； Serences,2008；Hickey et al.,2010；2015；Gong et al.,2017)。上述结果的意义在于对传统注意理论的拓展和修正。针对传统的注意优先图(attentional priority map)模型(Bisley and Goldberg,2010)，改进的版本将包含奖赏在内的选择经验(selection/reward history)作为独立于任务目标和刺激显著性的成分纳入了注意选择理论中(Awh et al.,2012)。值得说明的是，虽然有研究提出奖赏驱动效应在一定程度上反映了选择经验的影响(Sha & Jiang,2015)，但也有研究通过扩大被试量(Anderson & Halpern,2017)，或将有抑郁症状的群体作为被试(Anderson,2017)，其结果均支持了奖赏学习与选择经验的区别。

鉴于已有研究综述中，对奖赏学习如何调节注意及其神经机制的总结视角和对于奖赏如何吸引注意的内容侧重(Anderson,2013;Chelazzi et al.,2013;Anderson,2016;Le Pelley et al.,2016;Failing & Theeuwes,2017)，本文一方面采用不同角度，以基于空间捕获(space-based attentional capture)vs.基于特征的注意调控(feature-based attentional modulation)为切入点归纳已有研究结果，另一方面重点介绍奖赏学习对注意抑制的调控及其神经机制。

2　奖赏学习对选择性注意的调控机制

2.1　奖赏学习驱动的空间注意捕获vs.基于特征注意的调控

大量的视觉搜索研究表明，奖赏学习可以驱动基于空间位置的注意捕获效应。例如，Anderson等人(2011)将实验分为训练和测试两个独立的阶段(图1)，在训练阶段被试需要在不同颜色的刺激中搜索目标(红色或者绿色圆形)并判断目标刺激中的刺激朝向(水平或竖直)。预先设置的高、低奖赏反馈以不同概率的形式呈现，如红色圆形伴随80%概率的高奖励反馈；绿色圆形伴随20%的高奖励反馈，旨在促使个体建立起特定颜色和奖赏之间的联系。在测试阶段采用奇异刺激搜索(feature singleton search)，搜索目标为特异形状(比如多个圆形中的一个菱形)。该目标刺激可以是除红绿色之外的任一颜色，而同时作为干扰刺激的圆形之一则可能是与奖赏关联的颜色。结果发现，当干扰刺激中出现高奖赏相关的颜色时，被试的反应时显著慢于低奖赏颜色作为干扰刺激和没有奖赏关联颜色的条件。由此说明，原本中性的视觉刺激在获得与奖赏的关联后能够自动吸引空间注意。这种由奖赏学习驱动的效应不受限于任务目标或刺激的物理显著性(Le Pelley,2015;Failing & Theeuwes,2015)，刺激类型(Laurent et al.,2012；Anderson,2016)和测试情境(Anderson et al,2011;Hickey et al.,2015)，可维持长达半年以上(Anderson & Yantis,2013)，还能够泛化至包含奖赏相关特征的非训练刺激(Gong & Li,2014;Lee & Shomstein,2014)，或与奖赏信息归属同一类别的刺激(Hickey et al.,2015)。这一系列研究结果均体现了奖赏对注意优先图的调节(Chelazzi et al.,2014)。

图1奖赏-刺激联结学习的范式(彩图见网络版)

(A)训练任务；(B)测试任务。图摘自Anderson,Laurent & Yantis,2011。

奖赏学习不仅影响注意资源在不同空间位置上的分配(Della Libera & Chelazzi,2009;Hickey et al.,2010;Anderson et al.,2011)，还能改变对刺激特征(或客体)的选择和表征。例如在注意瞬脱任务中(attentional blink)，加工与奖赏关联的面孔刺激不受到注意资源减少的限制(Raymond & O’Brien,2009) ，而该发现被证实与个体加工奖赏刺激的效率提高有关(O’Brien & Raymond,2012)。鉴于选择性注意和工作记忆共享同一机制(Gazzaley & Nobre,2012)，奖赏学习对刺激特征的调节也可见于记忆相关的研究范式。例如，在新旧刺激再认范式中，与奖赏关联的刺激可以被更准确地辨认，该行为效应同时伴随着脑电信号中与刺激新颖性相关成分潜伏期的缩短(Bunzeck et al.,2009)。奖赏学习除了可以增强与其直接关联的刺激表征，还可以泛化至包含奖赏关联特征在内的其他刺激上。如Gong等人(2014)采用与Anderson(2011)相同的训练范式建立起奖赏与颜色之间的联结。在随后的测试阶段，研究者采用变化探测范式(change detection paradigm)，将奖赏关联颜色作为与任务无关的刺激特征，要求被试基于刺激的朝向变化做出判断。结果发现，个体对与奖赏关联颜色匹配目标刺激的探测敏感性增强，且该变化与决策标准无关。该效应在限制空间注意转移的条件下仍然存在，为奖赏学习在增强基于特征的注意调控方面提供了直接的证据。考虑到奖赏对工作记忆的促进可能源于编码和/或存储阶段的加工改变，Thomas等人(2016)在分离了这两个过程后发现，奖赏学习可能是通过对储存过程的调节来影响记忆表现。类似的结果还可以进一步拓展到奖赏学习对映像记忆 (Infanti et al.,2015)和长时记忆的促进(Murayama & Kitagami，2014)。

采用神经技术的研究为上述奖赏学习所引发的空间和特征注意效应提供了可能的机制性解释。例如脑电研究发现奖赏关联刺激会诱发注意相关的N2pc成分(Kiss et al.,2009;Qi et al.,2013)，提高刺激加工相关的P1波幅(Hickey et al.,2010)，并由此提示奖赏学习效应的发生处于对感知觉信息加工的早期阶段。灵长类动物的电生理实验则发现，对奖赏联结的表征主要体现在与显著图密切相关的脑区(Bisley & Goldberg,2010)，即后顶叶(Peck et al.,2009)。近年来，基于人类功能磁共振成像(fMRI)的研究还揭示了中脑活动(Hickey & Peelen,2015；Gong et al.,2017)在预测奖赏驱动注意效应中的作用，与奖赏相关的电生理结果一致(Schultz,2002)。采用正电子发射断层的成像技术进一步发现了奖赏对学习和测试阶段的不同影响，即学习阶段右脑前尾状核(Anderson et al.,2017)和测试阶段背侧纹状体(Anderson et al.,2016)的多巴胺递质释放可分别预测奖赏在行为上驱动的注意效应量。此外，奖赏相关区域释放的多巴胺递质会传向额顶区(Frank,Loughry & O’Reilly,2001； Botvinick & Cohen,2014；Hickey & Peelen,2015)，通过增强自上而下的注意控制来影响感知觉信息在低级视觉区域的表征(van Schouwenburg,Aarts & Cools,2010； Serences,2010)。

2.2　奖赏学习驱动的注意抑制(attentional suppression)

由于奖赏关联刺激常作为干扰物出现，妨碍个体完成任务目标的过程，因而被试能否通过对奖赏刺激的注意抑制以优化行为表现是值得研究的问题。一方面有研究表明，奖赏学习很难引发对干扰刺激的抑制(Hickey et al.,2011)，即使在特定任务情境中告知被试对奖赏关联刺激的注意会直接导致奖赏的损失，仍不能消减奖赏驱动的注意效应(Le Pelley et al.,2015；Failing et al.,2015)。然而另一方面，也有研究为奖赏促进注意抑制的潜在可能提供了一定的支持。例如Della Libera 等人(2009)发现，在奖赏学习阶段对于干扰刺激的忽略可以增强被试在测试阶段对该刺激的抑制作用。但由于该抑制效应可能主要反映了被试对奖赏刺激与抑制之间关系的学习结果，因而难以确定其结论的拓展性。此外，有研究着眼于奖赏驱动的效应在时程上的变化，通过追踪个体眼动过程发现奖赏关联刺激的呈现在短暂捕获眼动后，伴随着更强的注意排斥过程，即眼动方向偏离奖赏关联刺激所在位置(Hickey & van Zoest,2012)。类似结果也体现在脑电实验中，被试对目标刺激的搜索减慢伴随着奖赏关联干扰刺激诱发的注意成分N2pc。相反，快速搜索到目标的试次则对应着奖赏刺激所引发的抑制成分Pd(Qi et al.,2013)。

近年来有关注意抑制研究的发展(Sawaki & Luck,2010；Geng,2014；Gaspelin & Luck，2017)也同时促进了奖赏学习和注意抑制的相关研究。通过学习获得的奖赏预测性能否特定任务情境中对该刺激的抑制增强得到了进一步的研究。Gong等人(2016)采用记忆导向的搜索任务(memory-guided visual search)并结合脑电技术(图2)，通过将先前与奖赏建立联结的特征作为线索刺激呈现，要求被试记忆该线索并在随后的搜索任务中忽略与该线索特征匹配的干扰刺激。结果发现，高奖赏关联特征作为干扰刺激，比低奖赏或无奖赏关联的干扰刺激所需反应时更短，提示奖赏可以促进对任务无关刺激的抑制。该效应伴随着前额区电极 P2和后顶枕区P3波幅的增强，以及与抑制过程相关的额区theta活动增强(Cavanagh et al.,2013)。连接性分析进一步表明，该结果是由于奖赏促进了其关联刺激在工作记忆中的表征优势，从而加强了自上而下的注意控制所致。该结果一方面支持了奖赏对主动抑制的调控，另一方面也与其先前研究所发现的奖赏与工作记忆表征关系相符，证实视觉刺激的工作记忆表征强度不仅可以通过匹配目标模板来促进搜索，还可以通过匹配干扰刺激模板(template for rejection)来调控抑制机制(Woodman & Luck,2007;Cunningham & Egeth,2016)。为进一步考察奖赏学习对自上而下注意的调控机制，特别是具有奖赏显著性刺激的感知觉表征是否可以被抑制，Gong等人(2017)利用fMRI技术(图3)，重点考察注意抑制对奖赏关联刺激在初级视觉皮层V1的表征影响。其实验采用视觉搜索任务，通过目标和干扰刺激相对于背景刺激的朝向差异来控制刺激间的相对物理显著性。同时，不同朝向的干扰刺激通过扫描前的视觉搜索训练获得高低不同的奖赏显著性。结果发现，当干扰刺激的物理显著性高于搜索目标时，呈现高奖赏关联的干扰刺激相对于低奖赏对应条件下的反应时更短。该结果与选择性抑制的理论模型(Houghton & Tipper,1994)相符，提示刺激间竞争程度决定了对干扰刺激的抑制强度。同时，该行为效应还伴随着中脑多巴胺区域的活动增强，以及V1神经元群体对干扰刺激高奖赏相关朝向的反应减弱。运用自然场景为实验刺激的研究也在客体选择视觉区(object-selective visual cortex，LOC)发现了相似的抑制作用(Hickey et al.,2015)。这些结果一方面为现有研究中一些矛盾的结果提供了解释，例如奖赏引发的自动的注意吸引(Hickey et al.,2010；Anderon et al.,2011;Falling et al.,2015；Le Pelley et al.,2015)在特定情境下消失(Lee & Shomstein，2014)，在眼动和脑电实验中表现为吸引和抑制效应的混合(Hickey & van Zoest，2012；Qi et al.,2013)，另一方面也为奖赏调节注意显著性表达的灵活性(flexibility)提供了实证支持，反映了奖赏学习对自上而下注意控制的增强作用不仅可以用于提高刺激的显著性表征，也可以根据任务要求弱化其显著性的表达。

图2奖赏与注意抑制的脑电研究(彩图见网络版)

(A)奖赏相关刺激诱发额区P2波幅的增强；(B)奖赏相关刺激诱发枕顶区P3波幅的增强；(C)奖赏驱动额区的theta活动增强；(D)奖赏信号引发自上而下注意控制的增强。图摘自Gong,Yang,& Li,2016。

图3　奖赏学习与注意抑制的fMRI研究(彩图见网络版)

(A)视觉搜索的行为实验范式；(B)奖赏引发对其干扰刺激的抑制增强效应；(C)奖赏相关干扰刺激在初级视觉皮层表征强度减弱；(D)行为与初级视觉皮层神经活动在奖赏条件间的相关关系；(E)基于个体结构像定义的中脑腹侧被盖区；(F)中脑神经活动在奖赏条件间的变化。图摘自Gong,Jia,& Li,2017。

3　研究总结与未来研究方向

通过学习获得的奖赏预测性可以增强其相关刺激的知觉表征，提高该刺激在注意选择中的优先性(Awh et al.,2012)。综合已有行为与神经方面的研究结果可见，奖赏学习不仅可以增强对特定空间位置或刺激特征选择，还可以在特定情境下通过认知控制(cognitive control)促进抑制的发生以优化行为。综上所述，奖赏对认知控制的调控方向决定了奖赏在注意优先图中的表达形式，即注意吸引或抑制。同时考虑到奖赏学习过程中伴随的记忆成分，上述效应可能与奖赏相关刺激在工作记忆中的表征增强有关(图4)。通过学习获得的奖赏预测性可以增强刺激的显著性，一方面引发自动的注意捕获，另一方面经由自上而下的认知控制促进对其相关刺激的抑制过程。

图4　奖赏学习调控注意的选择与抑制

3.1　奖赏学习调节注意优先图的神经机制

奖赏学习对于选择性注意的影响机制不同于传统注意模型中所包含的任务目标和刺激显著性，属于能够调节注意优先图的独立成分(Awh et al.,2012)。然而在自然场景中，构成注意显著图的这三个成分大多是同时存在的，通过对注意神经机制的共同调控以影响视觉加工过程。因而，这三个成分如何协同作用，其相互作用是否受到不同情境(如基于空间或特征注意)影响，及其效应所发生所对应的神经过程均需要进一步的研究揭示。Chelazzi等人(2014)提出，虽然影响注意的三个因素在大脑中各自有相对独立的表征脑区，但其最终还是会遵循“winner-take-all”的原则将注意导向优先图中激活最强的位置。因此，电生理和人类脑成像研究所揭示的负责表征注意优先图的重要脑区，如顶内沟外侧壁(lateral intraparietal cortex,LIP)(Bisley & Goldberg,2010)、额叶眼动区(frontal eye field,FEF)(Serences & Yantis,2007；Ptak,2012)、上丘(superior colliculus)(Krauzlis et al,2013)，是否也参与编码基于奖赏学习所建立的联结性信息，并且不同因素在共同改变刺激表征时是否存在时程上的差异也有待进一步研究。

奖赏可以影响视觉刺激在低级感知觉皮层的加工与表征，但当前的研究尚不能为该效应的发生来源及其神经过程提供直接的证据。从一方面而言，奖赏学习在行为上产生的效应与刺激显著性所驱动的自下而上注意过程类似。因而有研究者提出，奖赏—刺激联结可能通过改变大脑皮层可塑性而从刺激属性上改变了个体对奖赏关联刺激的感知觉表征(Peck et al.,2009)。这种解释与奖赏学习效应能在不同任务间迁移(Lee & Shomstein,2014；Gong et al.,2014)，并在较长时间内得以保持的结果相符(Anderson & Yantis,2013)。然而，从另一方面来看，现有的研究结果却大多支持额顶区的反馈调节在实现视觉区表达奖赏效应中的作用(Weil et al.,2010；Serences,2008；Hickey et al.,2015；Gong et al.,2017)。因此，多巴胺神经递质的调节是否存在自下而上的通路(如皮层下核团向早期感知觉皮层的投射)还是一个亟待考察的问题。

3.2　奖赏学习与意识的关系

直接的外部奖赏线索或反馈可以在无意识的条件下提高被试在完成任务过程中的努力程度(invested effort)，然而相对于阈上的奖赏刺激而言，无意识奖赏却不能根据任务要求影响速度—正确率的权衡关系(Bijleveld et al.,2010)。此外，也有研究发现对奖赏刺激的意识程度并不一定影响行为结果，但阈上和阈下奖赏刺激分别对应于大脑奖赏区域的活动却存在显著差异(Bijleveld et al.,2014)。综合而言，不同意识水平下，外部奖赏在任务准备和决策过程中产生的相同和差异性影响可能与任务情境等多种因素有关(Zedelius et al.,2014)。

虽然这些研究结果为奖赏学习与意识的依存关系提供了引导，但上述研究主要集中于直接的外部奖赏和高级的认知任务，比如数学计算、语词记忆等。因而，与奖赏关联的简单视觉刺激能否在无意识的条件下影响注意尚且缺乏系统的研究。值得一提的是，对该问题的研究在知觉学习领域中已有一定的成果。例如，Seitz等人(2009)在知觉学习过程中通过呈现阈下的光栅刺激，匹配在时间上耦合给予的外部奖赏(水)，结果发现个体学习后对奖赏配对光栅刺激的辨别能力提高。该研究表明，被试可以有效习得阈下刺激与阈上外部奖赏之间的关系。此外，Xue等人(2015)采用在运动探测任务的知觉学习实验中，采用阈下奖赏作为反馈刺激，结果发现被试对与高奖赏相关运动方向的探测能力显著高于低奖赏对应的运动方向。这些结果提示，奖赏学习效应的发生不一定需要依赖个体对刺激或奖赏的意识程度，但对刺激意识程度的减弱却可能使得奖赏效应需要较长的学习时间才能产生。

在行为研究之外，对无意识奖赏联结的加工是否存在特殊的神经通路也是值得研究的问题。例如，与恐惧情绪相关的刺激可以在无意识条件下被知觉即与杏仁核向不同区域传递信号有关(Vuilleumier，2015)。相似的，已有的电生理研究结果发现，杏仁核不仅具有编码恐惧情绪的能力，也可以对奖赏关联刺激产生特定神经反应，且该神经活动的变化伴随着对该刺激所在空间位置的注意增强效应(Peck & Salzman,2014)。该结果即为无意识条件下奖赏信息所产生的效应提供了一定的神经支持。

3.3　奖赏学习与其他因素(惩罚，情绪或新颖性相关刺激)的区别

奖赏驱动的注意效应被认为在调节显著图中具有一定的特殊性，但奖赏与其他相关因素，比如惩罚、情绪性或新颖性刺激等因素之间是否存在行为层面或神经机制方面的差异还缺乏一定的研究，而基于已有研究的结果也存在较大的不一致性。

以研究中对惩罚的操控为例，实验者通过减少金钱(monetary loss)或给予轻微电刺激等方式建立起与特定刺激之间的连接，结果发现与奖赏驱动类似的注意捕获效应(Wang et al.,2013；Wentura et al.,2014;Schmidt et al.,2015)，但也有研究发现在限制注意的条件下，惩罚并不能如同奖赏一样促进其关联刺激的加工(Raymond et al.,2009)，类似支持奖赏有别于惩罚的研究还可见于运动学习的实验(Abe et al.,2011;Galea et al.,2015)。相似的，对比奖赏和情绪的相关研究也大多倾向于两者所引发的效应相似性，因而常被纳入同一理论模型进行探讨(Pessoa,2009)。对正性情绪和奖赏研究的归纳总结表明，两者在增强任务相关认知控制过程中起到了相同的作用并共享同一神经机制，即两个因素都可以诱发中脑释放多巴胺递质，并向认知控制区域传递信号，但两者在其他方面也存在一定的差异(详见综述Chiew & Braver,2011)。未来研究可以从两个因素如何影响非任务相关信息的感知觉和认知加工过程着手，进一步揭示两者可能的潜在差异。

相对于惩罚或情绪，将刺激新颖性和奖赏进行对比的研究较少。先前的大多数观点认为，新颖刺激实则也是一种奖赏，因为它同样可以诱发中脑区域的多巴胺递质(Bunzeck & Düzel,2006;Wittmann et al.,2007;Guitart-Masip et al.,2010)。然而近年来的研究表明，新颖性驱动的效应虽然也在后顶区表征，但其效应在时程上与奖赏表征的分离为两者的互相独立提供了一定的支持(Foley et al.,2014)。

3.4　奖赏学习与动作选择(selection for action)

在实验室情境中，研究者大多采用简单的按键反应代表行为输出。然而不可忽略的是现实情境中还存在更多样性的行为输出模式，如抓握(force)和抓取(reach and grasp)，Go/No Go任务中涉及的反应撤回(response withhold)等。当前研究主要集中于奖赏如何影响基于视觉层面的注意选择(selection for vision)，相对较少关注奖赏学习对其他动作选择的可能影响。

已有研究采用手指捏握任务(pinch force task)发现，相对于中性或惩罚条件，提供奖赏并不能对运动学习产生即时的促进效应。相对的，奖赏反馈可以在学习后6小时产生巩固和促进效应，并且该效应可以在较长时间内(30天)维持稳定(Abe et al.,2011)。该结果与视觉选择的研究类似，均体现了奖赏信息对长时记忆的巩固作用(Murayama & Kitagami，2015)。然而，也有研究体现了奖赏对视觉和动作选择的不同影响。例如Moher等人(2015)分别采用按键和抓取导向的搜索任务来考察奖赏学习的影响，结果发现，对奖赏关联干扰刺激的抑制作用未能体现在按键任务中，却有效地调节了抓取动作的过程。由此可见，奖赏对于不同行为输出方式的调节可能存在差异。因此研究奖赏如何调节更为复杂的动作过程，并揭示其对应的神经机制也是值得研究的方向之一。

3.5　奖赏学习在临床上的应用

奖赏学习对注意调控的研究，可能有助于对一些临床症状的相关研究，比如注意缺陷多动障碍(attention deficit/hyperactivity disorder,ADHD)，成瘾行为(drug addition)和抑郁症(depression)等。Li 等人(2017)将奖赏学习的范式应用于自闭症(autism)儿童。结果发现，虽然自闭症儿童学习奖赏—面孔联结的耗时比同龄正常儿童较长，但学习却可以提高儿童在有奖赏关联面孔干扰条件下的搜索速度。Sali等人则发现(2017)，相对于正常儿童，有注意缺陷的儿童较少受到奖赏驱动的注意效应影响。由此提示奖赏学习对调节ADHD儿童注意加工的重要影响。关于奖赏学习在儿童发展过程中可能起到的作用，及其对于临床多种症状的诊断，可能为奖赏学习应用于未来研究中提供指向性。基于特殊群体的研究还可能为奖赏效应的特殊性提供关键性证据。例如Anderson(2017)对比抑郁症群体和正常被试经过奖赏学习和(无奖赏的)选择经验所引发的注意效应，结果发现，基于选择经验的注意效应在两个群体中并无显著差异；然而，相较于正常被试，抑郁症被试表现出较弱的奖赏驱动效应，由此提示奖赏学习与选择经验两个概念对应于发生机制的区别。

Abe,M.,Schambra,H.,Wassermann,E.M.,Luckenbaugh,D.,Schweighofer,N.,& Cohen,L.G.(2011).Reward improves long-term retention of a motor memory through induction of offline memory gains.CurrentBiology,21(7),557-562.

Anderson,B.,Laurent,P.,& Yantis,S.(2011).Value-driven attentional capture.ProceedingsoftheNationalAcademyofScience,108(25),10367-10371.

Anderson,B.A.(2013).A value-driven mechanism of attentional selection.JournalofVision,13(3),7-7.

Anderson,B.A.(2016).The attention habit:How reward learning shapes attentional selection.AnnalsoftheNewYorkAcademyofSciences,1369(1),24-39.

Anderson,B.A.,Chiu,M.,DiBartolo,M.M.,& Leal,S.L.(2017).On the distinction between value-driven attention and selection history:Evidence from individuals with depressive symptoms.PsychonomicBulletin&Review,24(5),1636-1642.

Anderson,B.A.,& Halpern,M.(2017).On the value-dependence of value-driven attentional capture.Attention,Perception,&Psychophysics,79(4),1001-1011.

Anderson,B.A.,Kuwabara,H.,Wong,D.F.,Gean,E.G.,Rahmim,A.,Brašiç,J.R.,…Yantis,S.(2016).The role of dopamine in value-based attentional orienting.CurrentBiology,26(4),550-555.

Anderson,B.A.,Kuwabara,H.,Wong,D.F.,Roberts,J.,Rahmim,A.,Brašiç,J.R.,& Courtney,S.M.(2017).Linking dopaminergic reward signals to the development of attentional bias:A positron emission tomographic study.NeuroImage,157,27-33.

Anderson,B.A.,Laurent,P.A.,& Yantis,S.(2014).Value-driven attentional priority signals in human basal ganglia and visual cortex.BrainResearch,1587,88-96.

Anderson,B.A.,& Yantis,S.(2013).Persistence of value-driven attentional capture.JournalofExperimentalPsychology:HumanPerceptionandPerformance,39(1),6-9.

Awh,E.,Belopolsky,A.V.,& Theeuwes,J.(2012).Top-down versus bottom-up attentional control:A failed theoretical dichotomy.TrendsinCognitiveSciences.16(8):437-443.

Bijleveld,E.,Custers,R.,& Aarts,H.(2010).Unconscious reward cues increase invested effort,but do not change speed-accuracy tradeoffs.Cognition,115(2),330-335.

Bijleveld,E.,Custers,R.,Van der Stigchel,S.,Aarts,H.,Pas,P.,& Vink,M.(2014).Distinct neural responses to conscious versus unconscious monetary reward cues.HumanBrainMapping,35(11),5578-5586.

Bisley,J.W.,& Goldberg,M.E.(2010).Attention,intention,and priority in the parietal lobe.AnnualReviewofNeuroscience,33(1),1-21.

Botvinick,M.M.,& Cohen,J.D.(2014).The computational and neural basis of cognitive control:Charted territory and new frontiers.CognitiveScience,38(6),1249-1285.

Bunzeck,N.,Doeller,C.F.,Fuentemilla,L.,Dolan,R.J.,& Duzel,E.(2009).Reward motivation accelerates the onset of neural novelty signals in humans to 85 milliseconds.CurrentBiology,19(15),1294-1300.

Bunzeck，.N.,Düzel.E.(2006).Absolute coding of stimulus novelty in the human substantia nigra/VTA.Neuron,51:369-379,

Cavanagh,J.F.,Eisenberg,I.,Guitart-Masip,M.,Huys,Q.,& Frank,M.J.(2013).Frontal theta overrides Pavlovian learning biases.JournalofNeuroscience,33(19),8541-8548.

Chelazzi,L.,Perlato,A.,Santandrea,E.,& Della Libera,C.(2013).Rewards teach visual selective attention.VisionResearch,85,58-62.

Chelazzi,L.,Eštoçinov,J.,Calletti,R.,Gerfo,E.L.,Sani,I.,Della Libera,C.,& Santandrea,E.(2014).Altering spatial priority maps via reward-based learning.JournalofNeuroscience,34(25),8594-8604.

Chiew,K.S.,& Braver,T.S.(2011).Positive affect versus reward:Emotional and motivational influences on cognitive control.Frontiersinpsychology,2,279.

Connor,C.E.,Egeth,H.E.,& Yantis,S.(2004).Visual attention:Bottom-up versus top-down.CurrentBiology.14(19):R850-R852.

Cunningham,C.A.,& Egeth,H.E.(2016).Taming the white bear:Initial costs and eventual benefits of distractor inhibition.PsychologicalScience,27(4),476-485.

Desimone,R.,& Duncan,J.(1995).Neural mechanisms of selective visual attention.AnnualReviewofNeuroscience,18(1),193-222.

Failing,M.,Nissens,T.,Pearson,D.,Le Pelley,M.,& Theeuwes,J.(2015).Oculomotor capture by stimuli that signal the availability of reward.JournalofNeurophysiology,114(4),2316-2327.

Failing,M.,& Theeuwes,J.(2017).Selection history:How reward modulates selectivity of visual attention.PsychonomicBulletin&Review,1-25.

Foley,N.C.,Jangraw,D.C.,Peck,C.,& Gottlieb,J.(2014).Novelty enhances visual salience independently of reward in the parietal lobe.JournalofNeuroscience,34(23),7947-7957.

Frank,M.J.,Loughry,B.,& O’Reilly,R.C.(2001).Interactions between frontal cortex and basal ganglia in working memory:A computational model.Cognitive,Affective,&BehavioralNeuroscience,1(2),137-160.

Galea,J.M.,Mallia,E.,Rothwell,J.,& Diedrichsen,J.(2015).The dissociable effects of punishment and reward on motor learning.NatureNeuroscience,18(4),597.

Gaspelin,N.,& Luck,S.J.(2017).The role of inhibition in avoiding distraction by salient stimuli.TrendsinCognitiveSciences,22(1):79-92.

Gazzaley,A.,& Nobre,A.C.(2012).Top-down modulation:bridging selective attention and working memory.TrendsinCognitiveSciences,16(2),129-135.

Geng,J.J.(2014).Attentional mechanisms of distractor suppression.CurrentDirectionsinPsychologicalScience,23(2),147-153.

Gong,M.,Jia,K.,& Li,S.(2017).Perceptual competition promotes suppression of reward salience in behavioral selection and neural representation.TheJournalofNeuroscience,37(26),6242-6252.

Gong,M.,& Li,S.(2014).Learned reward association improves visual working memory.JournalofExperimentalPsychology:HumanPerceptionandPerformance,40(2),841-856.

Gong,M.,Yang,F.,& Li,S.(2016).Reward association facilitates distractor suppression in human visual search.EuropeanJournalofNeuroscience,43(7),942-953.

Guitart-Masip M,Bunzeck N,Stephan KE,Dolan RJ,Düzel E (2010) Contextual novelty changes reward representations in the striatum.TheJournalofNeuroscience,30:1721-1726

Hickey,C.,Chelazzi,L.,& Theeuwes,J.(2010).Reward changes salience in human vision via the anterior cingulate.TheJournalofNeuroscience,30(33),11096-11103.

Hickey,C.,Kaiser,D.,& Peelen,M.V.(2015).Reward guides attention to object categories in real-world scenes.JournalofExperimentalPsychology:General,144(2),264-273.

Hickey,C.,& Peelen,M.V.(2015).Neural mechanisms of incentive salience in naturalistic human vision.Neuron,85(3),512-518.

Hickey,C.,& Van Zoest,W.(2012).Reward creates oculomotor salience.CurrentBiology.22(7):R219-R220.

Hickey,C.,& Peelen,M.V.(2017).Reward selectively modulates the lingering neural representation of recently attended objects in natural scenes.JournalofNeuroscience,37(31),7297-7304.

Houghton,G.,& Tipper,S.P.(1994).A model of inhibitory mechanisms in selective attention.InInhibitoryprocessesinattention,memory,andlanguage(pp.53-112).Infanti,E.,Hickey,C.,& Turatto,M.(2015).Reward associations impact both iconic and visual working memory.VisionResearch,107,22-29.

Kastner,S.,& Ungerleider,L.G.(2000).Mechanisms of visual attention in the human cortex.AnnualReviewofNeuroscience,23(1),315-341.

Krebs,R.M.,Boehler,C.N.,Egner,T.,& Woldorff,M.G.(2011).The neural underpinnings of how reward associations can both guide and misguide attention.JournalofNeuroscience,31(26),9752-9759.

Laurent,P.A.,Hall,M.G.,Anderson,B.A.,& Yantis,S.(2015).Valuable orientations capture attention.VisualCognition,23(1-2),133-146.

Le Pelley,M.E.,Mitchell,C.J.,Beesley,T.,George,D.N.,& Wills,A.J.(2016).Attention and associative learning in humans:An integrative review.PsychologicalBulletin,142(10),1111-1140.

Le Pelley,M.E.,Pearson,D.,Griffiths,O.,& Beesley,T.(2015).When goals conflict with values:Counterproductive attentional and oculomotor capture by reward-related stimuli.JournalofExperimentalPsychology:General,144(1),158-171.

Le Pelley,M.E.,Mitchell,C.J.,Beesley,T.,George,D.N.,& Wills,A.J.(2016).Attention and associative learning in humans:An integrative review.PsychologicalBulletin,142(10),1111.

Lee,J.,& Shomstein,S.(2014).Reward-based transfer from bottom-up to top-down search tasks.PsychologicalScience,25(2),466-75.

Li,T.,Wang,X.,Pan,J.,Feng,S.,Gong,M.,Wu,Y.,…Yi,L.(2017).Reward learning modulates the attentional processing of faces in children with and without autism spectrum disorder.AutismResearch,10(11),1797-1807.

Libera,C.Della,& Chelazzi,L.(2009).Learning to attend and to ignore is a matter of gains and losses.PsychologicalScience,20(6),778-784.

Mackintosh,N.J.(1975).A theory of attention:Variations in the associability of stimuli with reinforcement.PsychologicalReview,82(4),276-298.

Moher,J.,Anderson,B.A.,& Song,J.H.(2015).Dissociable effects of salience on attention and goal-directed action.CurrentBiology,25(15),2040-2046.

Murayama,K.,& Kitagami,S.(2014).Consolidation power of extrinsic rewards:Reward cues enhance long-term memory for irrelevant past events.JournalofExperimentalPsychology:General,143(1),15.

Pavlov,I.P.(1927).Conditioned Reflexes.Oxford University Press (Vol.17).Peck,C.J.,Jangraw,D.C.,Suzuki,M.,Efem,R.,& Gottlieb,J.(2009).Reward modulates attention independently of action value in posterior parietal cortex.JournalofNeuroscience,29(36),11182-11191.

Peck,C.J.,& Salzman,C.D.(2014).Amygdala neural activity reflects spatial attention towards stimuli promising reward or threatening punishment.Elife,3:e04478

Pessiglione,M.,Schmidt,L.,Draganski,B.,Kalisch,R.,Lau,H.,Dolan,R.J.,& Frith,C.D.(2007).How the brain translates money into force:A neuroimaging study of subliminal motivation.Science,316(5826),904-906.

Pessoa,L.,& Engelmann,J.B.(2010).Embedding reward signals into perception and cognition.FrontiersinNeuroscience,4,17.

Posner,M.I.,& Petersen,S.E.(1990).The attention system of the human brain.AnnualReviewofNeuroscience,13(1),25-42.

Qi,S.,Zeng,Q.,Ding,C.,& Li,H.(2013).Neural correlates of reward-driven attentional capture in visual search.BrainResearch,1532,32-43.

Raymond,J.E.,& O’Brien,J.L.(2009).Selective visual attention and motivation:The consequences of value learning in an attentional blink task.PsychologicalScience,20(8),981-988.

Rescorla,R.A.,& Wagner,A.R.(1972).A theory of Pavlovian conditioning:Variations in the effectiveness of reinforcement and nonreinforcement.ClassicalConditioningIICurrentResearchandTheory,21(6),64-99.

Sali,A.W.,Anderson,B.A.,Yantis,S.,Mostofsky,S.H.,& Rosch,K.S.(2017).Reduced value-driven attentional capture among children with ADHD compared to typically developing controls.JournalofAbnormalChildPsychology,1-14.

Sawaki,R.,& Luck,S.J.(2010).Capture versus suppression of attention by salient singletons:Electrophysiological evidence for an automatic attend-to-me signal.Attention,Perception,&Psychophysics,72(6),1455-1470.

Schmidt,L.J.,Belopolsky,A.V.,& Theeuwes,J.(2015).Attentional capture by signals of threat.CognitionandEmotion,29(4),687-694.

Schultz,W.(2002).Getting formal with dopamine and reward.Neuron,36(2),241-263.

Seitz,A.R.,Kim,D.,& Watanabe,T.(2009).Rewards evoke learning of unconsciously processed visual stimuli in adult humans.Neuron,61(5),700-707.

Serences,J.T.(2008).Value-based modulations in human visual cortex.Neuron,60(6),1169-1181.

Stanisor,L.,van der Togt,C.,Pennartz,C.M.A.,& Roelfsema,P.R.(2013).A unified selection signal for attention and reward in primary visual cortex.ProceedingsoftheNationalAcademyofSciences,110(22),9136-9141.

Thomas,P.M.J.,Fitz Gibbon,L.,& Raymond,J.E.(2016).Value conditioning modulates visual working memory processes.JournalofExperimentalPsychology:HumanPerceptionandPerformance,42(1),6-10.

van Schouwenburg,M.,Aarts,E.,& Cools,R.(2010).Dopaminergic modulation of cognitive control:distinct roles for the prefrontal cortex and the basal ganglia.CurrentPharmaceuticalDesign,16(18),2026-2032.

Vuilleumier,P.(2005).How brains beware:Neural mechanisms of emotional attention.TrendsinCognitiveSciences,9(12),585-594.

Wang,L.,Yu,H.,& Zhou,X.(2013).Interaction between value and perceptual salience in value-driven attentional capture.JournalofVision,13(3),5-5.

Weil,R.S.,Furl,N.,Ruff,C.C.,Symmonds,M.,Flandin,G.,Dolan,R.J.,…Rees,G.(2010).Rewarding feedback after correct visual discriminations has both general and specific influences on visual cortex.JournalofNeurophysiology,104(3),1746-1757.

Wentura,D.,Müller,P.,& Rothermund,K.(2014).Attentional capture by evaluative stimuli:gain-and loss-connoting colors boost the additional-singleton effect.PsychonomicBulletin&Review,21(3),701-707.

Wittmann，.B.C.,Bunzeck，.N.,Dolan，R.J.,Düzel，E.(2007).Anticipation of novelty recruits reward system and hippocampus while promoting recollection.Neuroimage,38:194-202.

Woodman,G.F.,& Luck,S.J.(2007).Do the contents of visual working memory automatically influence attentional selection during visual search?JournalofExperimentalPsychology:HumanPerceptionandPerformance,33(2),363-377.

Xue,X.,Zhou,X.,& Li,S.(2015).Unconscious reward facilitates motion perceptual learning.VisualCognition,23(1-2),161-178.

Zedelius,C.M.,Veling,H.,Custers,R.,Bijleveld,E.,Chiew,K.S.,& Aarts,H.(2014).A new perspective on human reward research:How consciously and unconsciously perceived reward information influences performance.Cognitive,Affective,&BehavioralNeuroscience,14(2),493-508.

奖赏学习对视觉注意的调控*

1 引 言

2 奖赏学习对选择性注意的调控机制

2.1 奖赏学习驱动的空间注意捕获vs.基于特征注意的调控

2.2 奖赏学习驱动的注意抑制(attentional suppression)

3 研究总结与未来研究方向

3.1 奖赏学习调节注意优先图的神经机制

3.2 奖赏学习与意识的关系

3.3 奖赏学习与其他因素(惩罚，情绪或新颖性相关刺激)的区别

3.4 奖赏学习与动作选择(selection for action)

3.5 奖赏学习在临床上的应用