上下文预期在快速场景识别中的作用*

2017-02-05 08:40
心理学报 2017年5期
关键词:预期词汇实验

(浙江大学心理与行为科学系,杭州 310028)

1 前言

对场景的感知和识别是人们在与周围环境交互中必需具备的能力。从进化的角度来说,及时发现和识别视野中出现的危险,对于人类的生存非常重要(LoBue &Deloache,2008)。也正因如此,人类感知周围视觉环境的能力非常出色。早期研究发现,即使在快速序列呈现(Rapid Serial Visual Presentation,RSVP)的条件下,观察者仍能够对场景进行语意层面上的有效辨认和命名(Potter,1975;Thorpe,Fize,&Marlot,1996)。

然而,人类的知觉过程并不仅仅是刺激驱动的,日常生活中所遇到的场景往往不是单独出现的,而是包围在周围环境中,而环境中的某些相关信息可能会影响人类对场景的加工。因此,越来越多研究者开始关注过往的知识经验(Gamond et al.,2011;Greene,Botros,Beck,&Li,2015)和知觉预期(Summerfield &Egner,2009;Seriès &Seitz,2013;Summerfield &De Lange,2014)等对场景识别的影响。

1.1 快速场景识别与前馈模型

早期研究主要关注人们对场景信息的快速加工能力。Thorpe等人(1996)让观察者判断在快速呈现(20 ms)的自然场景图片中是否存在动物,并记录观察者完成这种归类任务时的脑电活动,结果发现在场景刺激呈现 150 ms后,由不同类别场景图片所诱发的脑电活动就已出现显著差异。这说明,人类大脑在完成快速场景识别时最快只需要 150 ms的时间。Kirchner和Thorpe (2006)利用眼动追踪的方法进行了相关的研究,他们要求被试从事扫视迫选任务(forced-choice saccade task),判断并列呈现的两个场景图像中哪一个有动物出现。眼动记录的结果显示,被试可以在120 ms内做出正确的选择。Potter,Wyble,Hagmann和 McCourt (2014)采用RSVP范式进行研究,他们的场景图片呈现时间最短只有13 ms,结果发现观察者仍然能从12张连续呈现的图片中识别目标场景。基于许多类似研究的结果,一些研究者认为,快速的场景识别仅需依赖并行和前馈(feed-forward)的加工过程(Schmidt &Schmidt,2009;Fabre-Thorpe,2011),自上而下的反馈(feedback)由于太慢而无法参与其中(Koivisto,Kastrati,&Revonsuo,2014)。

许多研究者认为,人类要在如此短的时间内完成对自然场景的快速识别,其视觉系统只能依赖由刺激驱动的前馈加工(Bacon-Macé,Macé,Fabre-Thorpe,&Thorpe,2005;Potter et al.,2014;VanRullen&Thorpe,2001;VanRullen,2007)。由此,有研究者提出了前馈理论,认为视觉系统仅依靠最早传入的信息就足以完成对场景的快速识别。Serre,Oliva和Poggio (2007)提出了基于前馈理论(feedforward theories)的神经计算模型,该模型可以很好地预测被试在快速场景分类任务中的反应。支持该模型的研究者还认为,在快速视觉分类任务中存在一个“最小反应时” (minimal reaction time,MinRT),即观察者刚刚能够正确识别场景的最早时间窗口(Fabre-Thorpe,2011)。如果快速场景识别受到自上而下的经验和预期等因素的影响,那么通过学习和训练去增加观察者对场景刺激的熟悉度,就应该能够缩短MinRT。而实验结果显示,MinRT在不同的刺激类型和不同的任务条件下均表现得非常稳定,也就是说即使被试在经过反复训练后已对刺激材料非常熟悉,也无法显著减小 MinRT (Fabre-Thorpe,Delorme,Marlot,&Thorpe,2001)。因此,MinRT的存在也支持了早期场景识别的前馈加工假设。

神经生理学研究通过记录场景识别过程中的神经活动,发现当场景刺激呈现到视网膜上后,视觉信号经过视神经传至 V1、V2、V4,最后直到下颞叶皮层(inferior temporal cortex,IT),也就是沿着腹侧通路(Felleman &van Essen,1991)传播。重要的是,在刺激呈现后100 ms左右,第一波信息已经可以传递至与场景识别相关的 IT区域的神经元(DiCarlo &Maunsell,2000;Hung,Kreiman,Poggio,&DiCarlo,2005)。以往研究发现,与注意和策略等相关的反馈信号源自于前额叶等更高级的脑区(Bressler,Tang,Shulman,Shulman,&Corbetta,2008),而这些区域对早期视觉皮层的影响最早发生在刺激呈现后的 150~170 ms,且大多数结果显示这些自上而下的反馈过程一般在刺激呈现后 200~300 ms才会真正发挥作用(Martínez et al.,2001;Noesselt et al.,2002)。因此,这些研究者也认为对快速场景的识别无需反馈过程的参与就可完成。

1.2 局部反馈与预期对视觉过程的影响

虽然上述研究试图证明前馈传递在快速场景识别中具有重要作用,并认为反馈由于出现太晚而无法影响快速场景识别的过程,但是人类的知觉过程显然并不仅仅是刺激驱动的,还会受到知识经验和知觉预期等因素的影响。生理学研究表明,即使在早期视觉加工区域,神经元之间的反馈连接无论是在数量还是密度上都与前馈连接不相上下(Felleman &van Essen,1991;Sporns &Zwi,2004)。而且有研究发现,前馈信号传递至IT区域后10 ms左右,在腹侧通路内部会产生一些局部范围内的反馈过程(Pascual-Leone &Walsh,2001),也就是说这些局部反馈过程(local recurrent process)可能在刺激呈现后150 ms之内影响早期视觉加工。显然,发生在早期的局部反馈过程与前面提到的较晚出现的注意反馈是不同的(Wyatte,Jilk,&O’Reilly,2014)。但是,对于前者对视觉过程的作用,目前还存在较多争议(Tapia &Beck,2014)。有研究者认为该过程的作用可用“框架填充模型(frame-and-fill)”加以解释,后者认为与前馈过程用于创建场景的框架不同,局部反馈信息用于填充其中的细节信息(Ahissar,Nahum,Nelken,&Hochstein,2009)。另外,有些研究者则认为,这一反馈过程对于视觉意识的产生非常重要(Fahrenfort,Scholte,&Lamme,2007;Koivisto et al.,2014)。也有研究者认为,局部反馈与早期知觉过程中的预期有关,其主要作用是将知觉过程中的预测错误最小化(Rao &Ballard,1999;Panichello,Cheung,&Bar,2012)。

对于预期在知觉过程中的作用,心理学和神经生理学研究者一直没有给予足够的重视,或者将预期和注意的效应混为一谈(Summerfield &Egner,2009)。一般来说,注意对知觉过程的影响主要是基于任务目标,即通过对信息来源进行过滤来减缓知觉负荷(Tsotsos,1997);而预期则是通过对信息的处理和解读方式加以限制来优化知觉加工,它可以由先前的知识经验、联结学习、启动效应以及上下文加工来产生。也就是说,预期通过自上而下的方式对视觉过程产生影响。但在目前,对于预期在不同视觉加工阶段的作用机制还存在较多争议。一种假设认为,预期对视觉过程的影响发生在目标刺激出现之前,当观察者对将要出现的目标刺激的期望与实际刺激相一致时(Engel,Fries,&Singer,2001),会显著减少对目标刺激的反应时间。另一种假设则认为,预期可能会影响视觉系统区分目标信号与干扰信号的过程(Liston &Stone,2008),即影响对目标刺激的辨别能力。此外,预期还有可能影响最终的知觉决策或反应偏好,即在存在预期的条件下,观察者可能只要较少的证据即可作出判断。

有研究者根据预期的产生与来源将其分为结构性预期(structural expectation)和上下文预期(contextual expectation)(Seriès &Seitz,2013)。其中,前者与长期学习所积累的知识经验或长时记忆有关,如 Greene等(2015)的研究发现,观察者只有对符合日常经验的合理场景才表现出较好的识别和辨认能力,而对一些较为反常、不太可能出现在日常生活中的场景识别能力较差;而后者则与当前环境中相邻近的其他因素有关,如与场景相关的文字描述或类似场景信息的出现均可以易化场景识别过程。

上下文预期是否也会对快速场景识别过程产生影响?如果存在这种影响,则它在快速场景识别的不同视觉加工阶段具有怎样的作用机制?本研究将主要探讨上述问题。

1.3 研究目的与构思

以往研究显示,预期对知觉过程的影响在作用形式上一般分为两种:一种是促进对视觉信息的主观解读,尤其是当视觉刺激较模糊或存在多种解释时更为重要;另一种是促进反应速度和准确率,也就是反应绩效,如观察者能更好地识别与场景信息相一致的物体(Bar,2004)。本研究首先希望分别通过预期的两种作用形式,检验上下文预期对快速场景识别的影响。

实验 1 试图探究上下文预期对快速场景识别中场景信息主观选择的影响。有研究发现,双眼竞争范式可用于检验经验和预期对输入信息的主观选择的影响(Chopin &Mamassian,2012)。在采用双眼竞争范式时,给被试两眼分别呈现不同图片,由于两边所提供的信息是相互冲突的,人类的大脑必须对这些冲突的信息进行合理化的主观解读(Hohwy,Roepstorff,&Friston,2008),且相冲突的信息并不会被融合到一起同时进入知觉的加工过程,而是交替地占据知觉资源(Sterzer,Frith,&Petrovic,2008)。在外界刺激相同的条件下,人们会更加倾向于选择优势眼(左眼或右眼,因人而异)所看到的信息,即优势眼效应。除此之外,双眼竞争时哪只眼睛中输入的信息能够占据优势,受很多其它因素的影响,如刺激的物理属性(Fahle,1982)、高层次的注意资源、观察者的想象以及喜爱偏好等。Denison,Piazza和Silver (2011)采用双眼竞争范式探究了预期信号是否会对知觉选择产生影响的问题。他们采用不同朝向的光栅图片作为实验材料,并划分了“竞争前序列”和“双眼竞争刺激”两个阶段。在竞争前序列,向两只眼睛呈现一系列相同的光栅图片,这些光栅图片朝向的角度按照顺时针或逆时针依次变换;在双眼竞争刺激中,其中一只眼睛呈现的刺激与竞争前序列的角度变换方向一致,另一只眼睛呈现的刺激与之相反。本研究的实验1借鉴这一范式,试图探究在快速场景识别中观察者对信息的主观解读是否同样会受到上下文预期的影响。

实验2采用双任务范式(Li,Vanrullen,Koch,&Perona,2002),探究上下文预期对快速场景识别绩效的影响。其中,两项任务分别为呈现在视觉中央的词汇分类任务和呈现在视觉外周的快速场景识别任务,前者要求被试判断同时出现的两个名词是否属于同一类别,后者则让被试判断场景图片中是否有动物出现。词汇分类任务出现较早,并有可能包含动物词汇。当词汇分类任务中出现动物词汇且随后出现有动物的场景,或无动物词汇出现且随后出现无动物的场景,则为预期条件,反之则为非预期条件,比较预期与非预期条件下被试快速场景识别的能力和标准是否存在差别。

实验1和实验2分别从主观选择与识别绩效两方面探究预期是否会对快速场景识别产生影响;若能产生影响,则实验3将进一步探究快速场景识别过程中预期效应的作用机制。

为探究预期在不同视觉加工阶段的作用机制,最直接的方法是分别对场景识别的不同加工阶段进行探究和比较。我们知道,自然场景图片是由不同空间频率的信息组成的。所谓空间频率,是指单位空间内图像或刺激图形明暗变化的周期数,一般通过傅里叶变换将图像转化为频率域得到,单位为周/图像,或周/度(Delplanque,N’diaye,Scherer,&Grandjean,2007)。高空间频率(higher spatial frequencies,HSF)反映场景中较为精细、明确的信息(如场景中物体的边缘、线条等),而低空间频率(lower spatial frequencies,LSF)则反映场景中较模糊的整体信息。在快速场景识别过程中,对不同空间频率信息的加工时间和方式有所不同,当场景图片呈现时间较短(30 ms)时低频信息更占优势,而当场景呈现时间较长(150 ms)时高频信息更占优势(Schyns &Oliva,1994)。生理学研究表明,不同空间频率的信息由不同的神经通道负责加工(Vuilleumier,Armony,Driver,&Dolan,2003)。其中,小细胞通路(parvocellular pathways,P)的空间分辨力较高,时间分辨力较低,主要负责传递高空间频率信息,到达腹侧视觉皮层;而大细胞通路(magnocellular pathways,M)的空间分辨力较低,时间分辨力较高,主要将运动信息和低空间频率的信息传递至背侧视觉皮层。以往研究表明,经由小细胞通路传递的信息,其到达视觉皮层的时间比大细胞通路大约晚20 ms (Nowak &Bullier,1997)。一般认为,场景识别是一个由模糊到精细(coarse-to-fine)的过程(Musel,Chauvin,Guyader,Chokron,&Peyrin,2012;Musel et al.,2014)。鉴于此,实验3将分别以低空间频率场景(实验3a)和高空间频率场景(实验3b)作为实验材料,采用与实验2相似的双任务范式,探究预期在快速场景识别过程中不同加工阶段的作用机制。

2 实验1:预期对快速场景识别中的主观选择的影响

实验1采用双眼竞争范式,通过比较被试在不同预期条件下双眼竞争的结果,探讨上下文预期对快速场景识别中主观选择的影响。

2.1 方法

2.1.1 被试

24名(13男,11女)浙江大学在校大学生参与本实验。他们的视力或矫正视力正常,均为右利手。平均年龄为 21.0岁(19~24岁)。在实验结束后,他们可获得一定的报酬或学分。

2.1.2 实验材料和装置

实验材料的场景图片全部来自 MIT计算机科学与人工智能实验室提供的SUN (Scene UNderstanding)场景图片数据库(Xiao,Hays,Ehinger,Oliva,&Torralba,2010)。所有场景图像的尺寸均为250×250像素(在60 cm的观测距离下,约为6.21°× 6.21°视角),并经过灰度处理。这些材料中有些是包含动物的场景图像,里面至少有一个哺乳动物、鸟、爬行动物、鱼或昆虫等,有些是没有包含动物的场景,可能是汽车、食物、植物、沙滩、街道或公园等。在用于双眼竞争测试的图片中,包含动物的场景图片和非动物的场景图片各780张;用于竞争前序列的刺激图片中,包含动物的和非动物的场景图片各2340张。在实验过程中,所有场景图片都只出现1次。

实验程序采用Matlab和Psychophysics Toolbox-3编写(Brainard,1997;Pelli,1997;Pelli &Zhang,1991),在Pentium PC IV电脑上运行,显示器分辨率为1024×768,刷新频率为85 Hz。通过双眼竞争仪的平面立体镜将电脑左右两侧图像分别反射到被试的左眼和右眼,以形成双眼竞争条件。在实验过程中,被试头部通过下颚托架固定,眼睛距离屏幕中心约60 cm。

2.1.3 实验设计和程序

实验1借鉴Denison等(2011)的双眼竞争范式,并采用自然场景图片作为实验材料,以不同长度的竞争前序列所产生的预期为自变量,考察预期对被试的主观选择的影响。其中,竞争前序列采用一系列类别相同的场景图片(均为有动物场景或无动物场景)。实验流程如图1所示,具体程序为:首先,在屏幕左右两侧呈现注视点,持续时间300 ± 100 ms;然后,在左右两侧同时快速呈现一系列相同的场景图片,每张图片呈现108 ms,间隔为36 ms;在竞争前序列呈现完之后,在左右两只眼睛分别呈现一张动物的场景图像和一张非动物的场景图像,呈现时间约为36 ms (3帧,下同),同时出现的还有位于图像中央的红点,要求被试看到红点后马上对当前场景进行判断,即看到的是动物场景还是非动物场景,并通过键盘的F、J键进行反应。

竞争前序列由如下几种条件组成:竞争前序列的长度(1~12),竞争前序列所产生的预期(动物/非动物),与预期类别相一致的场景图片所投射的眼睛(左眼/右眼)。包括控制条件(无竞争前序列)在内,共有52种组合,每种组合重复15次,即每名被试需要完成780个试次。在实验中,每隔195个试次休息一次(休息时间至少为 20 s),完成全部实验共需要 25 min左右。为了保证被试理解实验要求并认真完成实验,每种条件下设置一次检验试次,即在双眼竞争条件下两只眼睛呈现相同的场景图片。如果被试在该 52个检验试次中的判断准确率低于50%,则其实验结果将被剔除。

2.2 结果与讨论

如前所述,实验设计中加入了 52个检验试次,在这些检验试次中,处于双眼竞争情景的左右两只眼睛看到的是完全相同的场景,被试如果在检验试次中反应错误,说明被试没有按照实验要求进行判断或快速场景识别的能力不足。结果发现,4名(1男,3女)被试在检验试次中的判断准确率低于50%,他们的数据被剔除,因此最终只有20名(12男,8女)被试完成双眼竞争中的快速场景识别任务。

在没有任何预期的条件下,即竞争前的序列为0时,被试选择动物场景的比例仅与其优势眼有关。实验设置动物场景或无动物场景出现在左右眼的概率相同,若不存在优势眼效应,则被试选择的场景出现在左右眼睛的概率应该是随机的。而实验1结果显示,在此情景下,被试选择优势眼所看到的场景的平均比例为58% (

SD

=2%),显著高于随机水平:

t

(19)=6.31,

p

<0.001,这说明被试在单纯的双眼竞争选择中,更加倾向于选择优势眼所看到的场景,或者说优势眼所输入的信息更容易占据视觉加工资源。根据实验设计,呈现在优势眼或非优势眼中的场景,与竞争前序列所产生的预期相一致或不一致的比例是相同的,如果预期不会影响被试的主观选择,那么被试选择与竞争前序列所产生的预期相一致的比例也应该与不一致的条件相同,即均为50%。然而,实验结果显示,被试在双眼竞争过程中更加倾向于选择与竞争前序列所造成的预期相一致的场景类别(

M

=79%,

SD

=12%):

t

(19)=9.76,

p

<0.001。这一结果说明,预期能够对快速场景识别过程中观察者的主观判断产生影响。对不同竞争前序列长度的单因素方差分析结果显示(图2),被试的反应不存在显著差异:

F

(11,228)=1.03,

p

>0.5,这说明不同强度的预期对观察者主观判断的影响是稳定的。

图1 实验1的基本流程

图2 竞争前序列所产生的预期对双眼竞争主观选择的影响

2.3 结论

在快速场景的识别过程中,之前出现的对目标场景的上下文预期可影响观察者的主观选择。

3 实验2:预期对快速场景识别中的判别能力和判别标准的影响

实验2采用双任务范式,要求被试对较早呈现在视觉中央的词汇分类任务和较晚呈现在视觉外周的场景识别任务同时进行观察和判断,通过比较预期和非预期条件下场景识别反应的差异来探究预期对快速场景识别中的判别能力和判别标准的影响。

3.1 方法

3.1.1 被试

23名(13男,10女)浙江大学在校大学生参与本实验。他们的视力或矫正视力正常,均为右利手,平均年龄为 21.4岁(18~25岁)。在实验结束后,他们可获得一定的报酬或学分。

3.1.2 实验材料和装置

实验2使用的场景图片同实验1。词汇分类任务使用的词汇来自常见的动物、植物和办公用品,属于三个类别中的名词(均由两个字组成)。

除没有使用双眼竞争仪以外,实验2的装置与实验1一致。

3.1.3 实验设计和程序

实验2采用双任务范式(Li et al.,2002),每名被试均需要完成3个子实验:快速场景识别任务、词汇分类任务和双任务。实验采用信号检测论的方法,检测与分析观察者在不同预期条件下快速场景识别过程中的辨别力与反应偏好。

快速场景识别任务的流程如图3所示。首先,呈现注视点300 ms;之后,场景图片随机出现在屏幕四个象限的中央位置,呈现时间为36 ms;而后,经过 24~48 ms的间隔后,在与场景图片相同的位置上呈现由随机像素构成的掩蔽刺激,呈现时间为36 ms,要求被试通过优势手点击鼠标进行判断。如果观察到场景中有动物出现,则点击鼠标左键进行反应,如果没有,则不进行任何反应。本实验中动物与非动物场景各200张,每个被试需要完成400次判断。整个实验分4个block完成,每两个block之间有20 s的休息时间。

图3 实验2快速场景识别的单任务流程图

词汇分类任务的流程如图4所示。首先,呈现注视点300 ms;之后,在注视点左右两侧同时呈现两个名词,呈现时间为144~168 ms,要求被试尽量准确和快速地判断两个词汇是否属于相同类别,并通过非优势手按S、D键进行反应。词汇类别相同与不同的条件各200次,每个被试需要完成400次判断。整个实验分 4个 block完成,每两个 block之间有20 s的休息时间。

双任务实验的具体流程如图5所示。首先,呈现注视点300 ms;之后,呈现词汇48 ms;接着,呈现场景图片。其中,所呈现的词汇可能包含动物词汇,也可能没有包含动物词汇。若词汇分类任务中出现动物词汇且随后出现有动物的场景,或出现无动物词汇且随后呈现的场景中也无动物,则为预期条件,反之则为非预期条件。双任务实验的其余流程与前两个单任务实验基本一致,即:注视点呈现300 ms后,注视点左右两侧会同时呈现需要分类的词汇,经过48 ms之后在屏幕四个象限的中央位置随机呈现一张场景图片,呈现时间为 36 ms,经过24~48 ms的间隔之后在场景图片的位置上呈现一张随机掩蔽图片,掩蔽时间为 36 ms,在这一过程中词汇刺激始终呈现,直到与场景掩蔽刺激同时消失。要求被试在刺激消失后的1000 ms以内通过优势手点击鼠标对场景中是否有动物出现进行判断,并要求尽可能同时地通过非优势手按 S、D键对词汇分类任务进行反应。

整个实验持续45~60 min。

图4 实验2词汇分类的单任务流程图

3.2 结果与讨论

在双任务范式中,一些被试的双手协调反应能力较差,其中3人(2男,1女)在双任务情景下的词汇分类任务有超过50次未进行反应,数据被剔除。最终,20名(11男,9女)被试完成实验2。在场景识别任务中,根据信号检测论,计算了被试快速场景识别的辨别力和反应偏好。而在词汇分类任务中,则记录了被试反应的准确率和反应时。

首先,比较被试在单任务和双任务情景下快速场景识别的结果。配对

t

检验显示:在单任务(

M

=1.87)和双任务(

M

=1.45)条件下被试的辨别力存在显著差异,

t

(19)=4.65,

p

<0.001,Cohen’s

d

=1.02,结果如图6所示;但是,被试的反应偏好保持一致(

M

分别为1.64和2.09),

t

(19)=1.91,

p

>0.05。这说明,被试在两种实验条件下的判断标准较为一致,而单任务条件下的快速场景识别的绩效显著优于双任务条件。之前有研究者发现,单任务与双任务实验的快速场景识别绩效不存在显著差异,因此认为快速场景识别过程不需要注意的参与(Li et al.,2002)。但是,相比Li等人(2002)采用的简单字符判断任务,本实验选用的是难度更高的词汇分类,因而最终导致双任务条件下的快速场景识别受到影响。本实验的结果与Cohen,Alvarez和Nakayama(2011)的结论相一致,即当干扰任务难度较高时,因占用更多的注意资源而对快速场景识别过程产生了影响。

图5 实验2双任务情景的基本流程图

图6 实验 2单任务与双任务情景下快速场景识别辨别力的比较

实验2中的双任务实验分为预期组和非预期组两种条件,若词汇分类任务中出现动物(或不出现动物)且场景分类任务也出现动物(或不出现动物),则为预期组,反之则为非预期组。由于本实验要求被试在保证两个任务尽量准确的情况下优先完成快速场景识别任务,因此,比较被试在预期与非预期条件下词汇分类任务的准确率有非常重要的意义。结果发现,两者不存在显著差异(

M

分别为0.82和0.81),

t

(19)=1.01,

p

>0.05,即词汇分类任务不受场景信息的干扰。下面,单独对场景识别任务中的预期效应进行检验。比较预期与非预期条件下被试快速场景识别任务的差异。结果发现,辨别力的配对

t

检验存在显著差异(预期条件

M

=1.66,非预期条件

M

=1.23),

t

(19)=5.07,

p

<0.001,Cohen’s

d

=0.91,如图7所示,这说明,在预期条件下被试快速场景识别的能力显著高于非预期条件。对反应偏好的配对

t

检验也显示出显著的差异(预期条件

M

=2.54,非预期条件

M

=1.88),

t

(19)=3.02,

p

<0.05,Cohen’s

d

=0.51说明预期不仅影响快速场景识别能力,同时也影响了被试的主观判断标准。

图7 双任务情景下预期组与非预期组的快速场景识别辨别力比较

3.3 结论

在复杂任务(双任务)条件下,注意资源的分配可以影响快速场景的识别过程。上下文预期对观察者在快速场景识别中的辨别能力和主观判断标准均会产生影响。

4 实验3:预期对不同空间频率场景的快速识别的影响

在实验2的基础之上,本实验希望进一步探讨预期对快速场景识别的影响的内在机制,即预期对不同视觉加工阶段的影响。实验3由实验3a和实验 3b组成,分别探究预期对不同空间频率场景的快速识别的影响。

4.1 方法

4.1.1 被试

24名(13男,11女)浙江大学在校大学生参加了实验 3a,他们的视力或矫正视力正常,均为右利手,平均年龄为20.2岁(18~23岁)。24名(12男,12女)浙江大学在校大学生参加了实验 3b,他们的视力或矫正视力正常,均为右利手,平均年龄为20.2岁(18~23岁)。在实验结束后,所有被试均可获得一定的报酬或学分。

4.1.2 实验材料和装置

通过对原始场景图片进行傅里叶变换和Butterworth滤波(Schyns &Oliva,1994),获得了低空间频率的场景图片(如图 8A,实验 3a)和高空间频率的场景图片(如图8B,实验3b),以用于本实验。

其余实验材料和装置均与实验 2的完整频谱(broad-band spatial frequencies,BSF)场景条件相同。

图8 不同空间频率的场景的示例

4.1.3 实验设计和程序

实验3a和实验3b的实验设计和流程均与实验2相同,仅实验材料不同。

4.2 结果与讨论

实验3a中有4名(2男,2女)被试在双任务情景下的词汇分类任务的未反应次数超过 50次,因而数据被剔除,最终有效数据为20名(11男,9女)。实验3b中有4名(2男,2女)被试在双任务情景下的词汇分类任务中的未反应次数超过 50次,其数据同样被剔除,最终有效数据也为20名(10男,10女)。

首先,分别分析实验3a和3b中单、双任务的快速场景识别的绩效,结果如表1所示,在不同空间频率条件下,被试的辨别力在单、双任务中的差异与实验2是一致的,因此都支持实验2的结论。

其次,比较实验3a和实验3b中被试在快速场景识别单任务中的反应。

t

检验结果显示,被试的辨别力差异显著(实验3a单任务

M

=1.01,实验3b单任务

M

=0.65),

t

(38)=3.26,

p

<0.05,Cohen’s

d

=1.07。这一结果与前人结论一致,即场景识别是一个由模糊到精细(coarse-to-fine)的过程(Musel et al.,2014),低频信息在场景识别的早期加工阶段更占优势,而高频信息在场景识别的后期更占优势(Schyns &Oliva,1994)。

表1 不同空间频率条件下快速场景识别单、双任务辨别力和反应偏好的比较

与实验2一样,为检验快速场景识别过程中的预期效应,需要确认双任务中的词汇任务不会受到场景信息的影响,结果为实验3a:

t

(19)=0.03,

p

>0.05;实验 3b:

t

(19)=2.05,

p

>0.05,Cohen’s

d

=0.15。在此基础上,检验不同空间频率条件下预期对被试辨别力的影响,结果如图9所示。可以发现,三种空间频率条件下预期组与非预期组的辨别力均存在显著差异。这一结果说明,在快速场景识别的不同加工阶段,预期均会影响被试的辨别能力:实验3a,预期组

M

=0.82,非预期组

M

=0.51,

t

(19)=4.82,

p

<0.001,Cohen’s

d

=0.75;实验 3b,预期组

M

=0.58,非预期组

M

=0.26,

t

(19)=6.28,

p

<0.001,Cohen’s

d

=1.32。三种不同空间频率条件下预期对被试反应偏好的影响如图10所示。可以发现,被试在加工完整信息(实验 2)和高空间频率信息(实验 3b)的场景时,反应偏好均受到预期的影响(实验 3b预期组

M

=1.54,非预期组

M

=1.17,

t

(19)=3.54,

p

<0.05,Cohen’s

d

=0.79);而对低空间频率信息(实验 3a)的加工,被试的反应偏好不受预期影响(实验 3a预期组

M

=1.56,非预期组

M

=1.36,

t

(19)=2.08,

p

>0.05)。这一结果说明,虽然对低频信息的加工更占优势,但是对完整信息场景的加工过程,仍然需要整合不同阶段的结果。

图9 不同空间频率条件下预期对辨别力的影响

图10 不同空间频率条件下预期对反应偏好的影响

4.3 结论

在快速呈现条件下,观察者对低空间频率场景的加工更好。上下文预期在快速场景识别的不同加工阶段都会影响观察者的辨别力,但对反应偏好的影响只出现在较晚的加工阶段。

5 总讨论

5.1 上下文预期对快速场景识别的影响

在快速场景识别的研究中,关于上下文预期的研究相对较少,尤其是其对快速场景识别过程的影响,这是因为以往通常认为快速场景识别是一个自动化的前馈加工过程,不会受注意和策略等自上而下的反馈过程所影响。但是,近期越来越多的研究者开始关注预期对知觉过程的影响,且已发现与知识经验相关的结构性预期能够影响人们的快速场景识别过程(Greene et al.,2015)。不过,与当前环境信息相关的上下文预期,可以影响甚至掩盖结构性预期的作用(Kerrigan &Adams,2013),且结构性预期的习得过程也与上下文预期的重复积累紧密相关(Chalk,Seitz,&Seriès,2010)。本研究探讨上下文预期对快速场景识别过程的影响,有助于完善预期对知觉过程影响的研究。实验1和实验2分别从被试的主观选择和识别绩效两个方面探究上下文预期是否会影响快速场景识别过程。

实验1采用双眼竞争范式,在让被试进行双眼竞争选择之前,先呈现给被试一系列自然场景图片,被试左右两只眼睛所看到的这一系列的场景图片是相同的,且同一序列中出现的所有场景均为相同类别(如均包含动物)。呈现竞争前序列是为了让被试产生对这一场景类别的预期,这种预期与被试知识经验无关,因此属于为上下文预期(Seriès &Seitz,2013)。实验1的结果发现,与预期一致的信息更容易占据知觉加工资源,使得观察者对冲突信息的主观选择不再仅依赖优势眼,而是会在一定程度上按照竞争前序列所呈现的场景类别对冲突信息做出选择。这说明,大脑在对双眼同时输入的冲突场景信息进行主观选择时,会受到先前视觉经验所产生的上下文预期的影响。这也说明快速场景识别过程并非仅依赖自下而上的输入信息,对这些信息的主观解读受过往经验和预期的影响。Denison等(2011)采用相同的范式以简单光栅偏向为实验材料的研究结果与实验1相似,说明上下文预期对知觉过程的影响是一个相对普遍的现象。以往对快速场景识别的研究多采用快速序列呈现(RSVP)范式,研究者认为在序列呈现条件下,由于每张场景图片呈现时间很短,场景图片对于观察者来说都是陌生刺激且不会重复出现,因此观察者无法对下一张将要出现的场景图片产生预期,进而得出快速场景识别过程只需要依赖前馈加工的结论(Potter et al.,2014)。RSVP范式强调了前馈传递在快速场景识别核心过程中的有效性,但同时也将预期等其它因素排除在外,使得很多研究者忽略了预期等因素在快速场景识别过程中可能产生的影响。

实验2采用双任务范式,探究了预期对快速场景识别中被试反应绩效的影响。快速场景识别任务是让被试判断随机呈现在屏幕四个象限内的场景图片中是否包含动物,而中央干扰任务是词汇分类任务。由于词汇比场景出现时间早,词汇中又有可能包含或不包含动物词汇,从而导致被试在看到场景图片之前会先产生相应的预期。实验2的结果显示,当快速呈现的场景类别与词汇所产生的预期相一致时,被试对场景图片的快速辨别能力更好,被试的反应偏好也存在显著差异。

Li等(2002)采用T/L字母分类与快速场景识别的双任务范式,试图证明快速场景识别过程不需要注意资源的参与,而本研究实验2采用带有语义信息的汉语词汇分类作为中央干扰任务,结果显示单任务与双任务条件下被试快速场景识别绩效存在显著差异,与 Cohen等人(2011)的研究结果一致。因此,我们认为Li等(2002)所采用的双任务太过简单,干扰任务本身所需的注意资源太少,从而不能对外周的场景任务产生影响。实验2中所采用的词汇分类任务本身具有一定的难度,同时又与场景识别任务存在一定的语义相关,相比于简单的字符分类任务,词汇分类任务占据了更多的注意资源。因此,本研究中,双任务中场景分类任务的绩效显著低于与单任务条件下的绩效,很可能是由于注意资源被中央的词汇分类任务所占据。这也提示,快速场景识别过程仍然需要注意资源的参与。而注意对场景识别过程的影响一般出现在较晚阶段(Martínez et al.,2001;Noesselt et al.,2002),因此需要更加深入探究这里的注意机制及其和预期之间的相互作用。注意与预期之间的关系也是预期研究中的重点,实验 2的结果也提示我们,可以以此作为切入点,继续深入研究快速场景识别过程中预期与注意之间的相互作用。

本研究中实验1和实验2的结果,分别从场景信息的主观解读以及辨别能力两个不同方面支持上下文预期对快速场景识别存在影响。以往对于快速场景识别的研究较多关注场景识别的核心过程,忽略了现实生活中多种多样的外界环境信息对场景识别过程的影响,因此对于预期的研究也可以弥补以往场景识别研究在生态效度上的不足。

5.2 上下文预期对快速场景识别不同加工阶段的影响

场景识别过程需要经历多个不同阶段的加工是所有研究者的共识(Wyatte et al.,2014)。实验1和实验2的结果显示上下文预期能够影响快速场景识别过程,实验3进一步探究了这种上下文预期在快速场景识别不同加工阶段的作用机制。场景中的低空间频率信息所携带的是与场景中的大致轮廓相关的模糊信息,在场景识别过程中的传递和加工速度较快;而高空间频率信息则代表场景中精细轮廓相关的细节信息,在场景识别过程中的传递和加工速度相对较慢。因此,研究者一般认为场景识别是由模糊到精细的过程(Musel et al.,2012,2014),即早期对低频信息的加工占优势,后期对高频信息的加工占优势。实验3在这些研究结论的基础上沿用实验 2的范式,分别以低频信息场景图片(实验3a)和高频信息场景图片(实验3b)作为实验材料。结果首先验证了之前研究者们的假设,即在快速场景识别中,对低频信息的识别加工更快、更好,在呈现时间较短的条件下,低频信息的提取和加工更占优势(Schyns &Oliva,1994)。然后,基于以上研究及实验结果,通过比较实验 3a和实验 3b,发现不同空间频率信息的场景的预期效应不同。无论是高频信息还是低频信息,一致性的预期都能显著提高被试快速场景识别的能力,表明预期对场景信息加工的影响在不同加工阶段都会出现;然而只有在实验 3b中预期影响了被试的反应偏好,说明预期对被试认知决策的影响只出现在对高频信息的加工过程中。出现这一结果的可能原因是,在快速呈现条件下低频信息加工更占优势,被试更有把握做出判断,所以反应偏好保持一致。然而,这一假设无法解释被试对完整场景信息(实验 2)的反应偏好也受到预期的影响。高频信息的预期效应与完整信息的预期效应相同,说明虽然在快速场景识别过程中对低频信息的加工更快、更占优势,但是当有外在预期影响的条件下,对高频信息的加工反而体现出更重要的作用。这一结果也进一步说明,存在大量干扰信息的现实生活中,观察者的预期将会影响场景识别过程。因此,在后续的研究中,需要更加关注预期的作用。

6 结论

上下文预期能够影响快速场景识别过程中观察者的主观判断和对场景的识别绩效。对于较早加工的低空间频率场景信息,只有知觉辨别能力受到上下文预期的影响;而对于较晚加工的高空间频率场景信息,知觉辨别能力和知觉决策过程均会受到上下文预期的影响,说明,快速场景识别过程需要整合两种空间频率信息加工结果作出最终判断。

Ahissar,M.,Nahum,M.,Nelken,I.,&Hochstein,S.(2009).Reverse hierarchies and sensory learning.

Philosophical Transactions of the Royal Society B:Biological Sciences,364

(1515),285−299.Bacon-Macé,N.,Macé,M.J.M.,Fabre-Thorpe,M.,&Thorpe,S.J.(2005).The time course of visual processing:Backward masking and natural scene categorization.

Vision Research,45

(11),1459−1469.Bar,M.(2004).Visual objects in context.

Nature Review Neuroscience,5

(8),617−629.Brainard,D.H.(1997).The psychophysics toolbox.

Spatial Vision,10

(4),433−436.Bressler,S.L.,Tang,W.,Shulman,C.M.,Shulman,G.L.,&Corbetta,M.(2008).Top-down control of human visual cortex by frontal and parietal cortex in anticipatory visual spatial attention.

Journal of Neuroscience,28

(40),10056−10061.Chalk,M.,Seitz,A.,&Seriès,P.(2010).Rapidly learned stimulus expectations alter perception of motion.

Journal of Vision,10

(8),2.Chopin,A.,&Mamassian,P.(2012).Predictive properties of visual adaptation.

Current Biology,22

(7),622−626.Cohen,M.A.,Alvarez,G.A.,&Nakayama,K.(2011).Natural-scene perception requires attention.

Psychological Science,22

(9),1165−1172.Delplanque,S.,N’diaye,K.,Scherer,K.,&Grandjean,D.(2007).Spatial frequencies or emotional effects? A systematic measure of spatial frequencies for IAPS pictures by a discrete wavelet analysis.

Journal of Neuroscience Methods,165

(1),144−150.Denison,R.N.,Piazza,E.A.,&Silver,M.A.(2011).Predictive context influences perceptual selection during binocular rivalry.

Frontiers in Human Neuroscience,5

,166.DiCarlo,J.J.,&Maunsell,J.H.R.(2000).Form representation in monkey inferotemporal cortex is virtually unaltered by free viewing.

Nature Neuroscience,3

(8),814−821.Engel,A.K.,Fries,P.,&Singer,W.(2001).Dynamic predictions:Oscillations and synchrony in top–down processing.

Nature Reviews Neuroscience,2

(10),704−716.Fabre-Thorpe,M.(2011).The characteristics and limits of rapid visual categorization.

Frontiers in Psychology,2

,243.Fabre-Thorpe,M.,Delorme,A.,Marlot,C.,&Thorpe,S.(2001).A limit to the speed of processing in ultra-rapid visual categorization of novel natural scenes.

Journal of Cognitive Neuroscience,13

(2),171−180.Fahle,M.(1982).Binocular rivalry:suppression depends on orientation and spatial frequency.

Vision Research,22

(7),787−800.Fahrenfort,J.J.,Scholte,H.S.,&Lamme,V.A.F.(2007).Masking disrupts reentrant processing in human visual cortex.

Journal of Cognitive Neuroscience,19

(9),1488−1497.Felleman,D.J.,&van Essen,D.C.(1991).Distributed hierarchical processing in the primate cerebral cortex.

Cerebral Cortex,1

(1),1−47.Gamond,L.,George,N.,Lemaréchal,J.D.,Hugueville,L.,Adam,C.,&Tallon-Baudry,C.(2011).Early influence of prior experience on face perception.

NeuroImage,54

(2),1415−1426.Greene,M.R.,Botros,A.P.,Beck,D.M.,&Li,F.F.(2015).What you see is what you expect:Rapid scene understanding benefits from prior experience.

Attention Perception Psychophysics,77

(4),1239−1251.Hohwy,J.,Roepstorff,A.,&Friston,K.(2008).Predictive coding explains binocular rivalry:An epistemological review.

Cognition,108

(3),687−701.Hung,C.P.,Kreiman,G.,Poggio,T.,&DiCarlo,J.J.(2005).Fast readout of object identity from macaque inferior temporal cortex.

Science,310

,863−866.Kerrigan,I.S.,&Adams,W.J.(2013).Highlights,disparity,and perceived gloss with convex and concave surfaces.

Journal of Vision,13

(1),9.Kirchner,H.,&Thorpe,S.J.(2006).Ultra-rapid object detection with saccadic eye movements:Visual processing speed revisited.

Vision research,46

(11),1762−1776.Koivisto,M.,Kastrati,G.,&Revonsuo,A.(2014).Recurrent processing enhances visual awareness but is not necessary for fast categorization of natural scenes.

Journal of Cognitive Neuroscience,26

(2),223−231.Li,F.F.,Vanrullen,R.,Koch,C.,&Perona,P.(2002).Rapid natural scene categorization in the near absence of attention.

Proceedings of the National Academy of Sciences of the United States of America,99

(14),9596−9601.Liston,D.B.,&Stone,L.S.(2008).Effects of prior information and reward on oculomotor and perceptual choices.

Journal of Neuroscience,28

(51),13866−13875.LoBue,V.,&DeLoache,J.S.(2008).Detecting the snake in the grass:Attention to fear-relevant stimuli by adults and young children.

Psychological Science,19

(3),284−289.Martínez,A.,Di Russo,F.,Anllo-Vento,L.,Sereno,M.I.,Buxton,R.,&Hillyard,S.A.(2001).Putting spatial attention on the map:Timing and localization of stimulus selection processes in striate and extrastriate visual areas.

Vision Research,41

,1437−1457.Musel,B.,Chauvin,A.,Guyader,N.,Chokron,S.,&Peyrin,C.(2012).Is coarse-to-fine strategy sensitive to normal aging?.

PLoS One,7

(6),e38493.Musel,B.,Kauffmann,L.,Ramanoël,S.,Giavarini,C.,Guyader,N.,Chauvin,A.,&Peyrin,C.(2014).Coarseto-fine categorization of visual scenes in scene-selective cortex.

Journal of Cognitive Neuroscience,26

(10),2287−2297.Noesselt,T.,Hillyard,S.A.,Gwoldorff,M.G.,Schoenfeld,A.,Hagner,T.,Jäncke,L.,… Heinze,H.J.(2002).Delayed striate cortical activation during spatial attention.

Neuron,35

(3),575−587.Nowak,L.G.,&Bullier,J.(1997).The timing of information transfer in the visual system.In

Extrastriate cortex in primates:Cerebral cortex

(Vol.12,pp.205−241).US:Springer.Panichello,M.F.,Cheung,O.S.,&Bar,M.(2012).Predictive feedback and conscious visual experience.

Frontiers in Psychology,3

,620.Pascual-Leone,A.,&Walsh,V.(2001).Fast backprojections from the motion to the primary visual area necessary for visual awareness.

Science,292

(5516),510−512.Pelli,D.G.(1997).The videotoolbox software for visual psychophysics:Transforming numbers into movies.

Spatial Vision,10

(4),437−442.Pelli,D.G.,&Zhang,L.(1991).Accurate control of contrast on microcomputer displays.

Vision Research,31

(7-8),1337−1350.Potter,M.C.(1975).Meaning in visual search.

Science,187

,965−966.Potter,M.C.,Wyble,B.,Hagmann,C.E.,&McCourt,E.S.(2014).Detecting meaning in RSVP at 13 ms per picture.

Attention Perception Psychophysics,76

(2),270−279.Rao,R.P.N.,&Ballard,D.H.(1999).Predictive coding in the visual cortex:A functional interpretation of some extra-classical receptive-field effects.

Nature Neuroscience,2

(1),79−87.Schmidt,T.,&Schmidt,F.(2009).Processing of natural images is feedforward:A simple behavioral test.

Attention Perception Psychophysics,71

(3),594−606.Schyns,P.G.,&Oliva,A.(1994).From blobs to boundary edges:Evidence for time-and spatial-scale-dependent scene recognition.

Psychological Science,5

(4),195−200.Seriès,P.,&Seitz,A.R.(2013).Learning what to expect (in visual perception).

Frontiers in Human Neuroscience,7

,668.Serre,T.,Oliva,A.,&Poggio,T.(2007).A feedforward architecture accounts for rapid categorization.

Proceedings of the National Academy of Sciences of the United States of America,104

(15),6424−6429.Sporns,O.,&Zwi,J.D.(2004).The small world of the cerebral cortex.

Neuroinformatics,2

,145−162.Sterzer,P.,Frith,C.,&Petrovic,P.(2008).Believing is seeing:Expectations alter visual awareness.

Current Biology,18

(16),R697−R698.Summerfield,C.,&Egner,T.(2009).Expectation (and attention)in visual cognition.

Trends in Cognitive Sciences,13

(9),403−409.Summerfield,C.,&De Lange,F.P.(2014).Expectation in perceptual decision making:Neural and computational mechanisms.

Nature Reviews Neuroscience,15

(11),745−756.Tapia,E.,&Beck,D.M.(2014).Probing feedforward and feedback contributions to awareness with visual masking and transcranial magnetic stimulation.

Frontiers in Psychology,5

,1173.Thorpe,S.,Fize,D.,&Marlot,C.(1996).Speed of processing in the human visual system.

Nature,381

(6582),520−522.Tsotsos,J.K.(1997).Limited capacity of any realizable perceptual system is a sufficient reason for attentive behavior.

Consciousness and Cognition,6

(2-3),429−436.VanRullen,R.(2007).The power of the feed-forward sweep.

Advances in Cognitive Psychology,3

(1-2),167−176.VanRullen,R.,&Thorpe,S.J.(2001).The time course of visual processing:From early perception to decisionmaking.

Journal of Cognitive Neuroscience,13

(4),454−461.Vuilleumier,P.,Armony,J.L.,Driver,J.,&Dolan,R.J.(2003).Distinct spatial frequency sensitivities for processing faces and emotional expressions.

Nature Neuroscience,6

(6),624−631.Wyatte,D.,Jilk,D.J.,&O’Reilly,R.C.(2014).Early recurrent feedback facilitates visual object recognition under challenging conditions.

Frontiers in Psychology,5

,674.Xiao,J.X.,Hays,J.,Ehinger,K.A.,Oliva,A.,&Torralba,A.(2010).Sun database:Large-scale scene recognition from abbey to zoo.In

2010 IEEE conference on computer vision and pattern recognition

(pp.3485−3492).San Francisco,CA:IEEE.

猜你喜欢
预期词汇实验
声波实验
关于植物的小实验
分析师一致预期
分析师一致预期
分析师一致预期
词汇小达人
词汇小达人
词汇小达人
词汇小达人
最酷的太空实验