关于内隐测验的十大常见问题和不完全正确的常见假设

关于内隐测验的十大常见问题和不完全正确的常见假设

(原文题目:Ten Frequently Asked Questions About Implicit Measures and Their Frequently Supposed, But Not Entirely Correct Answers)

伯特伦·加沃斯基

西安大略大学

自我报告测验之所以会受到批判,通常来说是由于其对自我呈现的敏感性以及它们不能被捕捉到用于内省的那些心理内容。在过去的十年里,研究者试图通过内隐测验来克服这些问题,内隐测验能从被试的表现来推断他们的心理过程。在这篇文章中我会对当前可用的那些内隐测验进行一个述评,讨论这些内隐测验的10个常见假设。我认为这些假设中许多是不符合现有证据的或者是理论上有问题的。然而对用传统的自我报告测验很难预测的行为的预测方面,内因测验已经被证明是有效的。因此,即使内隐测验也许仍旧不能提供用这些测验来解释的信息,但是在理解人类行为的决定性因素时,内隐测验是一个及其有价值的心理研究工具。

关键词:联合加工,内隐测验,测量,研究方法,效度

与我所拥有的知识相比,我的自知之明是如此微薄可怜。没有东西可以使我们如观察外部世界一样来很好地观察我们的内部世界。

——弗兰兹·卡夫卡 第三笔记

在上面的引用里卡夫卡暗指的是直接观察我们心理的圣杯是不可能的--人类的内心世界。心理实体,如态度、情感、信仰或动机,都是不能直接观察的,必须通过反映这些概念的日常行为来推测。然而,卡夫卡关注的内容是更有深度的,那就是他对我们能够观察我们自己内部精神生活的能力抱有质疑。此怀疑得到了二十世纪后的一些心理学家们的支持,他们认为我们的行为是没有心理过程的内省来引导的(例如,尼斯贝特& 威尔逊,1977)。相反,除了基于对其他个体的基本认识的同种行为的观察能使我们个体形成的“奈”理论外,没有能和有时被看作“自我认知优先”理论一样的能够更好地解释人的内部世界的理论了。(威尔逊 & 邓恩,2004)。

毫无疑问,在使用自我报告测验的心理学研究中,这种内省的限制是存在严重的问题的,并且这个问题貌似比受到普遍关注的自我呈现的失真更严重(例如,克罗尼 & 马洛,1960;

保罗胡斯,1984)。基于这些问题,心理学家开始寻找别的方法,而不用自我报告的方法来观察人们的内心。相关的最重大的进展是内隐测验的发展。与传统的自我报告测验相反,内隐测验通过被试在实验范式中的表现来推断内部心理过程,最常采用的是快速分类任务。在过去的十年中,内隐测验激发了心理学的所有学科中的大量研究,这可以清楚的证明了内隐测验的流行。

现在这篇文章的主要目的是针对现在可用的内隐测验和关于这些测验经常被问的一些问题进行一个概括。后者讨论的巨大的差距是内隐测验方法和被更广泛的认可,使用这些措施的研究在基础研究上的启发。关于内隐测验提出10个非常常见的假设,由于概念性原因,这些假设中许多是不符合现有证据或理论上有问题的。在本文的其余部分,我更简洁的解释了讨论“关于内隐测验实际上告诉我们什么”,这使我们理解人类的行为具有重要意义。

内隐测验

内隐测验的历史要追溯到前面所提到的克服自我报告测验局限性的问题上来。最著名的内隐测验之一就是主题统觉测验(TAT),它专门被设计,用来评价无法通过内省获得的人的内隐动机 (回顾,参见麦克利兰,康斯那,& 温伯格,1989)。另外一个著名的早期内隐测验是情感Stroop任务,这个测验在精神病理学的研究中是一个非常受欢迎的工具 (回顾,参见威廉姆斯,马修斯& 麦克劳德,1996)。尽管这些测验可能被看成内隐测量领域的先锋者(早期方法:参见韦伯, 坎贝尔,施瓦兹 & 赛瑞斯特,1966),但是在过去的十年,在一个很重要的方面内隐测验类型的发展和这些以前的内隐测验是不同的。主题统觉测验和情感Stroop任务都是关注个人心理概念的(如成就,焦虑),最近开发的内隐测验着重于评估心理概念之间的连接(数学--男性,黑人--消极)。现今的内隐测验主要集中在后者内隐测验的类型上,在过去十年中,这种内隐测验类型在心理学的各个领域受到了极大的欢迎。

内隐联想测验

最著名的内隐测验之一就是由格林瓦德, 麦克吉, 和施瓦兹 (1998)开发的内隐联想测验(IAT)。这个内隐联想测验的标准版包括两个二元分类任务,这种任务是以具有一致性联系和具有不一致性联系的方式联合起来的。例如,种族内隐联想测验通常用于研究种族偏见,这种测验涉及他们在种族中对黑人和白人面孔的分类,他们的价值观中对积极词汇和消极词汇的分类。在偏见一致性程序中,要求被试对黑人面孔和消极关键词做出反应,对白人面孔和另一种积极关键词做出反应。相反,在偏见不一致程序中,要求被试对黑人面孔和积极关

键词做出反应,对白人面孔和另一种消极关键词做出反应。内隐联想测验的基本原理是,有关任务的概念与我们记忆中的概念有紧密联系时,能够促使我们对概念更快更准确的反应。然而任务概念和我们记忆中的概念有不一致的联系时,我们快速而准确的反应就会受到抑制(计分程序,参见 格林沃德,诺塞克& 巴纳吉; 2003)。在内隐联想测验的应用程序中,为使测验中的使任务更加灵活,几乎无数个可能的维度被使用,这些维度包括偏见(例如, 盖沃斯基,彼得斯,王祥& 斯特克, 2008),刻板印象(例如, 盖沃斯基,艾伦伯格,邦斯,祖科娃&克罗尔;2003),自尊(例如,格林沃德 & 法纳姆;2000),自我概念(例如,阿森多普,邦斯& 毛里求斯;2002),品牌评价(例如,弗汉德&帕金斯;2005),恐惧症和焦虑症的唤醒刺激(例如, 迪曼,格雷格 & 伍迪;2001),酒精依赖(沃斯,凡尔登,舒德思&德容;2002),和药物成瘾(沃斯,胡本&克拉克;2007),仅仅举出早期应用的一小部分例子。最近对内隐联想测验程序修改的大量建议被提出,包括开发一些使任务更适合评价单一概念而不是评价两个相关联概念的内隐联想测验的变式, (卡平斯基 & 斯坦曼 2006),和通过把具有一致性联系和不具有一致性联系的概念结合到一部分中来避免阻碍自我表现的内隐联想测验的变式,(泰奇-莫奇哥马巴,克罗尔&罗斯慕德;2008;也可参见:罗斯慕德,泰奇-莫奇哥马巴,噶斯特& 温土亚:在出版)。

评价启动任务

另一个著名的内隐测验是法西奥,杰克森,邓盾和威廉姆斯的评价启动任务(也可参见:法希奥,圣波马斯图鲍威尔&卡德斯;1986),该任务采用的是认知心理学中顺序启动效应的基本思想(尼利,1977),使用在评价决策上的启动效应作为自动评价的一个指标(要审查,参见法希奥,2001;克罗尔&姆斯;2003)。在标准化范式中,给被试短暂地呈现一个启动刺激(比如一个黑色的脸),紧接着是一个积极或消极的目标词。被试的任务是通过按两个反应按键中的一个迅速判断目标词汇是积极的还是消极的。在某种程度上,如果启动刺激能使被试对积极词汇做出更快的反应,那么就认为启动刺激和积极评价相关。然而如果启动刺激能促进被试对消极词汇做出的反应更快,就认为启动刺激和消极评价有关(计分程序,参见,温特布林克;2007)。评价启动任务可以用来评价任何类型的对象,其对象能在一个顺序启动范式中当做一个启动刺激被呈现出来,并且已成功的被应用到阈上和阈下刺激的启动上(例如:奥尔森&法希奥;2002)。虽然任务的标准变式地采用典型的对积极和消极的目标词进行的评价决策,但是有人建议修改这个测验的程序,包括对积极和消极目标词的发音(巴奇,柴肯,雷蒙德&哈姆斯,1996)以及对目标刺激的积极和消极图片的命名(司欧特,赫尔曼,德温盖,范德科沃&艾琳, 2007)。

语义启动任务

一个不太普遍但与评价启动任务非常相似的范式是温特柏林、贾林、和帕克的语义启动任务。这个测验的基本原理和法希奥等人的(1995)评价启动任务基本相同,而唯一的区别在于,这个任务给被试呈现的是有意义和无意义的字符串作为目标刺激,被试的任务是尽快判定呈现的字符串是有意义的还是无意的。某种程度上,如果给定的启动刺激能促使被试对有意义的目标词更快做出反应,就认为启动刺激和目标词的语义是有联系的(计分程序,参见,温特柏林,2007)。例如,在一个关于种族刻板印象的应用程序里,温特伯林等人发现在呈现目标词之前,对被试非意识的呈现黑色这个词时,被试对目标词做出快速反应的促进作用是与非裔美国人的刻板印象有关连的。和法希奥等人的评价启动任务不同的是,温特伯林等人的研究范式主要关注点在于词汇的语义,而非对给定对象的关系做评价。

情感错误归因程序

一个相对最近但是已经非常流行的测验是佩恩,成一,哥沃,和斯图尔特的情感错误归因程序(AMP)。在这个测验里,给被试短暂地呈现一个启动刺激,紧接着呈现一个简单的中性汉字(也可参见墨菲&扎因斯1993)。这个汉字马上用一个黑白的面具代替,被试的任务是指出与普通汉字相比而言,这个汉字在视觉上更让人愉悦还是更不让人愉悦。典型的发现是当一开始呈现给被试的是积极的刺激而非消极的刺激的时候,被试会认为这个中性汉字更倾向于让人愉悦。更有趣的是,即使这个实验似乎已经相当明显而且很容易控制,但是在情感错误归因程序中的启动效应已经表明了启动效应可能会对那些企图故意控制启动刺激的影响的被试产生对抗,即使被试启动刺激可能会影响被试在实验中的反应这一信息已经被告知 (佩恩,成一等人,2005)。从法希奥等人(1995)的评价启动任务看来,情感错误归因程序可能会被用来评估任意种类的刺激的反应,这种刺激可以在任务中作为启动刺激。

外在情感西蒙任务

一个有趣但是不常见的内隐测验是德荷文(2003a)的外在情感西蒙任务(EAST)。在这个测验的关键程序里,目标词(例如,啤酒)用两种不同的颜色(例如,黄色与蓝色)呈现给被试,积极的和消极的词汇以白色的形式呈现给被试。当这些词以白色呈现时,被试被指导要根据所呈现词的效价进行分类,当这些词以彩色呈现时,被试要以他们的颜色进行分类。例如,在应用外在情感西蒙任务评价酒精饮料时(例如,德容,沃斯,范德巴克&惠汀,2007),

给被试呈现白色的积极和消极的词汇(例如,蜘蛛,日出),然后用酒精性饮料和非酒精性饮料的名字(例如,啤酒,果汁)一些用黄色呈现给被试,另一些用蓝色呈现给被试。被试的任务是,当他们看到白色的消极词汇、或者看到一个用蓝色呈现的词汇时按左键,当他们看到一个白色积极词汇、一个用黄色呈现的词时按右键。在某种程度上来说,当要求做出反应的这个词与一个积极词汇而不是消极的词汇相联系时,被试倾向于更快地对颜色词做出反应,由此可以推断出被试对所描绘的有颜色的对象是有积极的反应的。虽然,外在情感西蒙任务在最初的时候是被设计用来做评价反应的一个测验的,但是最近有大量的研究证明,它也被应用于其他许多的领域,例如自我相关评价(例如,泰奇,施纳贝尔,邦斯&艾森德芙,2004;也可参见,施母可&易格福,2006)。

Go/No-Go联想测验

诺斯克和班吉 (2001)的Go/No-Go联想测验(GNAT)的灵感来自内隐联想测验(格林沃德,1998)的基本逻辑,想要使这个任务更适合对单一概念评价,而不是对两个相互关联的概念评价(也可参见:卡平斯基&斯坦曼, 2006)。简单的讲,GNAT用一个go/no-go任务,在这个任务中要求被试对不同种类的目标刺激做一个go反应(如,通过按空格键),并对一个分心刺激做一个no-go反应(即:不做按键反应)。在任务的一个程序里,目标刺激包括与其属性概念相关的刺激(如,苹果)和给定特质维度的一极的刺激(如,积极词汇);分心刺激包括给定特质维度的另一极的刺激。在第二个程序中,作为目标“go刺激”和作为分心 “no-go刺激”的属性的分类被调换。GNAT测验有一个反应的最后期限,以便被试在最后期限之前对目标做出go反应(如:600 ms)。对采集到的数据用信号检测理论分析(格林 &斯沃琪, 1966),以便使对两个go刺激的尝试(如:苹果-积极词汇,苹果-消极词汇)在敏感性得分上的差异(d)作为区分属性概念和特质概念的一个指标来被解释。诚如内隐联想测验,GNAT测验在应用过程中是相对比较灵活的,因为这个测验中的目标和分心刺激可以包含大量的概念和属性,包括社会团体(例如, 诺塞克 & 班吉,2001),自我相关 (例如,班德诺,罗林斯& 塞拉姆,2007),焦虑唤醒和恐惧刺激(例如,泰德曼,2007).。

接近——回避任务

也许会被归入一般分类之中的接近--回避任务是最后一个种类的内隐测验。这个任务的一般假设是,积极的刺激会促进接近反应抑制回避反应,而消极的刺激会促进回避反应抑制接近反应。首次发表证明这个效应的索拉兹 (1960)发现与消极词汇相比被试对积极词汇更倾

向于接近反应。恰恰相反,与积极词汇相比被试对消极词汇更倾向于回避反应。关于这些发现的外延,成一和巴奇的研究证明,不管接近--回避反应中与反应相关的刺激(如,积极--接近,消极--回避与消极--接近,积极--回避)的特征的效价是否匹配,亦或是反应的特定类型与不相关特征相匹配,(如,接近用黄色字体的积极和消极词汇,回避用蓝色字体的积极和消极词汇),这种效应都会产生。然而,对这些效应的早期的解释,与早期的这种效应解释相反,是因为动机取向和特定动作之间直接的和不灵活的联系(例如, 斯特拉克 &德茨,2004)。越来越多证据表明对接近--回避任务一致性效应的影响,取决于被分配到特定动作上(例如,伸肌收缩对屈肌收缩)的积极和消极的意义(例如,积极对消极的)任务的描述。例如,埃德尔和罗斯莫德(2008)发现当反应动作被描述为拉(例如,积极的意义归因于屈肌收缩)和推(例如,消极意义归因于伸肌收缩)杠杆时,被试看到积极词汇时拉杠杆(屈肌收缩)和看到消极词汇推杠杆(伸肌收缩)的速度更快。然而相关研究发现,当相同的运动反应被描述为向上(例如,积极的意义归因于伸肌收缩)和向下(例如,消极意义归因于屈肌收缩),这些影响被翻转,(例马克曼& 邦迪,2005;赛博特, 诺依曼,诺赛森&斯特拉克:2008)。虽然大多数研究都已经用了上述的各种标准范式的变式,但是这些范式所衍生出的范式,包括对视觉意义进行左--右反应的接近--回避任务(布兰迪,马克曼& 梅斯纳尔:2005),以及它的主体运动的变式,都被用来与评价自我相关所联系(施纳贝尔,邦斯& 艾森德普:2006)。

关于内隐测验的常见问题

内隐测验几乎已经被用于心理学的所有副学科。然而内隐测验能告诉我们的却远远多于已有数据。以下,我会讨论十个问题和常见假设,但我们从内隐测验所提供的数据中推断出来的这些问题的答案却是不完全正确的。虽然在讨论中得出的结论在很大程度上是研究内隐测验内部机制(回顾,参见温特伯林& 施瓦茨:2007)的研究者分享的,但在内隐测验广泛的讨论中,对它们意义的误解仍然是非常常见的。

问题1:内隐测验是为通向无意识提供了一个窗口吗?

关于内隐测验的一个普遍的假设,就是这些测验可以评价人的无意识心理,而这些无意识心理是无法通过有意识内省实现的(例如, 班吉, 雷蒙, &卡班特, 2001)。这种假设是基于方法学的,内隐测验不像传统的自我报告那样预测人的有意识心理。然而,从逻辑学角度来看,这也不意味着内隐测验预测的就是无意识。后者是一个需要被验证的问题 (德胡文:

2006;格沃斯基&邦德华森:2007) 。事实上,最近的研究表明有一些恰恰相反的证据(例如,噶沃斯基,霍夫曼&威尔伯:2006;格沃斯基,利贝尔&皮特斯:2007).。例如,内隐测验与自我报告有低相关,这一发现通常被解释为无意识本质的联系的证据 (元分析,参见 霍夫曼,格沃斯基,斯文德纳,李&施密特:2005).。然而,也许有其他许多原因会与自我报告测验有低相关,并非由于缺乏内省方法,其中包括测量错误,概念相关,自我表现和许多其他因素(回顾,参见霍夫曼,斯温德纳,诺塞克&施密特 2005)。另外,最近研究表明,如果指导被试对态度对象进行内省,则内隐测验和自我报告测验的相关会增加(例如,噶沃斯基&利贝尔:2008;斯奥索,斯密斯&诺塞克:2007)。这些很难通过对无意识描述的解释来发现。加入内隐测验所描述的的确是无意识心理,则内省指导很有可能会影响自我报告测验的平均值。然而,从无意识角度来看,两种测验之间相关的增加似乎十分令人惊讶(更为详细的讨论,参见格沃斯基等:2006)。

问题2:内隐测验能克服社会赞许性的问题吗?

关于内隐测验的另一个常见假设,他们克服了一直困扰自我报告测验的社会赞许性问题(例如,法希奥等人,1995)基于与内隐测验相比自我报告测验更容易调整人们的反应他们提出了这一观点(例如,邦斯,赛斯& 泽比:2001;易格福&舒木科:2002;金姆: 2003;施纳贝尔 等人:2006;史蒂芬斯:2004)。然而,经验主义的研究表明这种情况是非常复杂的。简单地来说,社会赞许的假设会暗示当社会赞许性比较低时,自我报告测验和内隐测验的相关应该很高,然而当社会赞许性高时,两种测验相关应该是低的(参见格沃斯基 等人,2007)。尽管一些研究发现在实际上支持(例如,诺塞克, 2005;利可塔, 2006)这一预测,其他的研究并没有发现社会赞许性的任何影响(例如,易格福 & 舒木科,2003; 霍夫曼, 格沃斯基等人,2005),甚至发现了相反的模式 (例如,霍夫曼,噶沃斯基等人:2005;利可塔:2006)。尽管在某种程度上图片似乎更影响直接具体的动机,例如控制偏见反应的动机(回顾 噶沃斯基等人:2007),但是,内隐测验和自我报告测验的相关已经表明,它会随着几种非动机的认知因素的变化而变化,并且两种测验的相关远比社会赞许性和自我呈现要复杂的多(参见 霍夫曼,斯沃德纳等人:2005)。

问题3:内隐测验会对伪装免疫吗?

另一个假设,与内隐测验直接相关的最后一个,是内隐测验对伪装免疫吗?很明显,与自我报告测验相比,内隐测验的特殊属性使它更少受到伪装的影响(例如, 邦斯等:2001;

易格福 & 舒木科:2002;金姆,2003;施纳贝尔等人:2006,史蒂芬斯:2004).。然而,经验证明内隐测验并非完全不受伪装影响,通过深思熟虑来尝试控制它的反应,已经证明,一些内隐测验的分数是可以改变的(例如,德格尼尔:正在出版;费德勒& 比鲁威尔:2005;克罗尔 & 泰奇:2007;鲁尔威,哈丁& 辛克莱尔:2001;施纳贝尔等人,2006;史蒂芬斯:2004;泰奇 & 克罗尔, 在出版; 也可参见 佩恩, 成一等人,2005)。很明显,与自我报告测验相比这些效应更小。然而,从这些研究来看,认为内隐测验对伪装“免疫”似乎不太准确。

问题4:内隐测验可以被当作测谎仪使用吗?

基于内隐测验的一个受伪装影响很小的假设,另一个普遍假设当一个人不愿意说出一个特定的观点和信仰时,内隐测验可以当作一个测谎仪来使用(例如,尼尔, 2005; 萨托利 古斯塔, 泽格马斯特, 费拉拉, & 卡斯特里奥, 2008)。很显然,根据上述的研究来说这个假设似乎存在问题,上述研究表明企图做虚假反应深思熟虑之后能改变内隐测验的分数(例如, 德格尼尔,因普莱斯; 费德勒 & 比欧里奥, 2005; 克罗尔 & 泰奇,2007; 洛尔利等人,2001; 施纳贝尔 等人,2006; 史蒂芬斯 2004;泰奇 & 克罗尔, 2008)。这种影响意味着存在潜在的疏忽错误,即内隐测验可能无法检测到受欢迎的“真正的反应” (参见费德勒, 史密德 &施塔尔, 2002)。除此之外,内隐测验测出的心理内容可能是模糊的,注意到这一点也是非常重要的。例如,许多研究儿童的性观念的内隐测验检测能否鉴别判定儿童的性骚扰者(例如,格雷, 布朗,麦克科罗齐, 史密斯, &斯诺登, 2005; 尼斯, 费尔斯通 &布莱德温, 2007; 也可参见, 卡姆普斯, 雷特尔, 詹森,2005)。结果表明,内隐测验在区分恋童癖者和非恋童癖者上却是是非常成功的。然而,需要注意的是,儿童的性关联可能在其根本,而非恋童癖上有许多因素。例如当一个人将儿童作为性虐待目标时(参见格雷等人, 2005)。这样的例子会暗示出做出假预测的风险性,也挑战了内隐测验作为测谎仪的适合性。因为这些原因,应该谨慎对待任何宣称可以作为测谎仪的内隐测验。

问题5:内隐测验能反应真实的自我吗?

这个问题是与社会赞许性有关的,伪装和谎言的检测都有共同的含义,就是内隐测验某种程度上能揭示一个人真正的态度、观点和信念,而这些态度、观点和信念是在自我报告测验中这个人不愿意揭示的东西(例如法希奥等人, 1995; 奥尔森 & 法希奥, 2004)。然而,上述问题已经阐明,这种说法并非没有问题。另外,注意一个人“真正的自我”的两种可能解释是很重要的,这两种解释相互矛盾(噶沃斯基, 皮特斯, & 利贝尔, 2008)。第一个解释意

味着对反应失败时“真正的自我”被揭露出来的故意的控制。这种解释与上述问题所暗示的问题是一致的,表明人们成功的控制自己的行为被打断时才揭示出一个人的本性(参见 佩恩, 雅各布, & 兰伯特, 2005)。第二种可能的解释与第一种解释相对应认为当一个人有意识地企图去做或者说话时,“真正的自我”会被揭露出来。从这个角度看,任何没有企图的动作都被归因于个人的外部力量,而非在人们控制之下的“真正的自我”。(参见阿克斯 & 泰德洛克, 2004)。因此,第一种解释相当于“真实的自我”的无意识的行为,而第二种解释相当于“真实的自我”的有意识行为(噶沃斯基等人, 2008)。由于这些解释都是定义以及文化世界观的问题,而非实证观察,任何关于“真正的自我”的宣称都可以被看作主观偏好。因此,即使对于内隐测验的反应陷入无意识行为的范畴时在真实的自我的主观偏好方面,内隐测验解释真实自我的描述都是偶然的。

问题6:内隐测验能反应出早期的社会化经历吗?

我们的一个强烈直觉是通过探寻内隐测验所评估的内容的潜在源头这些测验可以反应早期的社会化经历(例如格林沃德&班吉, 1995; 路德曼, 2004)。按照这种假设,已经有大量的研究成功的证明了内隐测验与不同种类的早期童年经历有关。已经报道的这样的研究有,对吸烟的态度 (路德曼 费伦, & 荷彭, 2007),对超重的态度路德曼等人, 2007),种族偏见(辛克莱, 邓恩, &劳尔利, 2005),自尊(特拉华, 佩勒姆, &天恩, 2006)。然而,为了使这个社会化假设更具长期的说服力,通过实验室的简单操作有几个研究成功地诱导了内隐测验的变式(例如,嘎哇斯基, 沃尔特, &布兰克, 2005; 格雷格, 赛博特, &班吉, 2006)。因此,尽管确实早期的社会化经验可能是内隐测验评估的一个潜在来源,但是这些关联可能还掺有许多自身的因素,而非早期社会化经历。因此,用内隐测验解释观察到的变化来直接反映早期社会化经验可能存在逻辑上的错误,例如一个已经准确被证实的“A推出B”的关系(例如,早期社会化经历的变化可以推测出内隐测验的变化),在这种情况下就会得出“B也能推出A”的这种错误关系。

问题7:内隐测验能反映高度稳定的关联么?

与内隐测验直接有关的最后一个普遍假设是,内隐测验反映的心理联系如果形成,在一段时间内就会高度稳定(例如,威尔森,林德赛, & 斯库勒, 2000)。这个假设与内隐测验在态度改变操作上比自我报告测验更敏感的研究结果相一致 (例如,噶沃斯基&斯特拉克, 2004; 格雷格等人., 2006; 雷戴尔 & 麦康内尔, 2006)。然而,也有一些恰恰相反的研究发现。在

这些研究中内隐测验能为态度改变提供证据然而而外显测验则不能提供证据(例如,噶沃斯基 &利贝尔, 2008; 吉普森, 2008; 卡平斯基& 希尔顿, 2001;奥尔森 &法希奥, 2006)。甚至,有许多研究表明内隐测验对环境是高度敏感的(例如,达斯古普塔& 格林沃德, 2001; 劳尔利等人 2001; 雷戴尔& 噶沃斯基, 在出版莱布林克, 贾德, & 帕克, 2001),这进一步挑战了内隐测验的反映是高度稳定的联系的这个假设。用现有的证据进行全面查看,噶沃斯基和 布德怀森 (2006)认为,上下文的特定模式激发自我报告测验和内隐测验的改变主要取决于:(a)给定可控情境的加工类型、联想记忆的激活、信息或命题验证激活的影响;(b)一个过程的变化是否会间接影响另一个过程的变化。这种交互影响(反映在内隐测验中)和命题过程(反映在自我报告中)可能会产生各种可以预测的结果,包括在内隐测验而非自我报告测验中的改变,(例如,噶沃斯基&利贝尔, 2008; 奥尔森 & 法希奥, 2006),自我报告测验而不是在内隐测验改变(例如,格沃斯基 & 斯特拉克, 2004; 格雷格等人, 2006),和在自我报告测验和内隐测验中一致的改变(例如,格沃斯基 &利贝尔, 2008; 奥尔森 & 法希奥,2001),甚至在自我报告测验和内隐测验上相反的效应(例如, 雷戴尔, 麦康内尔, 麦凯, & 斯特恩, 2006)。另外,格沃斯基和布德怀森 (2006)的概念规定了在哪种情形下,内隐测验不对抗作为语境功能的变化,这已在雷戴尔和格沃斯基(在出版)最近的一项研究中证实。

问题8:内隐测验反映的仅仅是文化的联系么?

对于内隐测验的一个正在上升的担忧是,内隐测验是仅仅反映不被个人所赞同的文化或个体外的联系么?这场争论已经在一般问题的不同水平所展开,从对内隐测验特定种类的批评(例如,奥尔森 & 法希奥, 2004)到对具有普遍意义的内隐测验的批评(例如,阿克斯& 泰德洛克, 2004).。然而,在评价这些批判时,仍有许多问题是需要考虑的。第一,内隐测验从定义来看不能评估对评价和信念的认可(德霍沃, 2006)。相反的,这些测验只能评估心理内容会不会被明确支持的可能性。第二,声称只有一些联系在本质上是个人的,而其他的联系本质上是他人的(例如 奥尔森 & 法希奥, 2004),这就暗示了在记忆中联系的表现,也许会随着他们来源的功能,而有所不同(格沃斯基& 布德怀森, 2006)。这样一种声明不仅预料到能够允许这些差异的心理表征理论,也需要对应用到心理联系中的个人,个体以外的下一个精准明确的定义。然而,到目前为止,通过内隐测验问题评估个人与个体外自然的联系所得出得概念上的要求,还都没有得到满足(进一步讨论,参见 格沃斯基等人, 2008)。

问题9:内隐测验有多可靠?

从概念问题到方法问题,内隐测验的可靠性是心理计量学专家普遍关心的一个问题。在上面的第一个问题里面,我们已经指出了内隐测验和传统的自我报告测验的低相关,这种低相关可能是由于测量误差。遗憾的是,如此大比例的测量误差也许是众多内隐测验的一个关键的问题,从心理测量学角度考虑,内部一致性分数显然不令人满意(例如,邦斯,1999, 2001; 柏森,斯旺, & 尼贝克, 2000; 坎宁安等人.2001; 奥尔森n &法希奥, 2003; 泰奇等人, 2004)。从心理测量学观点来看,只有两个测验表明了内部一致性(例如,克伦巴赫的α值在0.8范围内)是可接受的,即内隐联想测验 (格林沃德等人., 1998)和情感错误归因程序。另一个问题就是内隐测验报告可靠性的问题,这不是通常的惯例,对一个现成的研究做出评定很困难。对于其他的测验来说,遵守这个要求当然是很有用的。

问题10:所有的内隐测验都的结果都是同等的么?

最后一个假定是内隐测验通常是可以互换的,至少在采用相同的实验材料时所有的内隐测验会产生相同的结果, (例如,谢尔曼,罗斯,科赫,普莱森& 查辛,2003).。之所以认为这个假设不正确主要有两个原因。第一,内隐测验在某种程度上评价的相关范畴和概念是不一样的(奥尔森 & 法希奥, 2003)。例如,法希奥等人(1995)的评价启动任务的标准变式不要求被试加工最初刺激的类别范畴(例如,明确将黑色的脸归为黑人类),这样任务更适合主要特质的功能,而不是最初的那类(例如利文斯顿 &布鲁尔, 2002; 奥尔森 & 法希奥, 2003)。在内隐联想测验中,这种情况是不一样的,被试明显的要求根据刺激的范畴对呈现的刺激进行分类。因此,由于他们评价不同的联系从两种测验中得出的结论可能会不一致(例如,举例相关与类别相关)。第二,不同的内隐测验采用不同的机制评价心理联系。因此,在某种程度上,这些机制会产生交互作用,不同的机制的内隐测验可能表现不同的结果。尽管对于这个问题的研究还很少,但是有证据表明,基于不同机制的相同的内隐测验同样的实验控制可能得到完全相反的结果。像这样相反地结果,可能由于测验机制的变化而非测验结构的真正的变化,用多种不同的测验来检验内隐测验的效果的真正本质是有帮助的。

我们能从内隐测验中学到什么?

鉴于对问题的假设审查,人们自然会问这样的问题:我们能从内隐测验中学到什么?根据人类普遍的信息处理的双重加工模型,一些理论家们认为,内隐测验为联想记忆的激活提供了一个代理,不管这些联想被看做是正确的还是不正确的。相反的,传统的自我报告测验是假定反映加工过程的建构效度的,目的在于在评估这些联系的主观效度(例如,格沃斯基 &

布德怀森, 2006;斯特拉克&道奇, 2004; 也可参见 毕福斯, 2005; 黎波曼, 吉尔伯特,& Trope, 2002; 斯洛曼, 1996; E. R. 史密斯 & 德士, 2000)。尽管内隐测验并没有完全的反映激活联想(康瑞, 谢尔曼, 格沃斯基,胡根贝格, & 格鲁姆, 2005),但是关于内隐加工和外显加工在这样简单概念上面的区分,已经被成功的应用到自我报告测验和内隐测验的决定因素方面(格沃斯基 & 布德怀森, 2006),并且也把内隐测验和自我报告测验的应用有关的用到了外显的行为方面。在这方面最引人注目的发现是,即使外显行为在自我报告测验中看作是无效的,但由内隐测验测出的内隐加工会影响这些行为。在研究中最突出的特点是,内隐测验能够预测标准自我报告测验很难预测的即时的行为(例如 艾森德普 等人, 2002; 易格福 & 舒木科,2002; 法希奥等人, 1995; 麦克康内& 雷柏的, 2001)。根据这些发现,在减少认知容量的条件下去预测行为方面内隐测验要比自我报告测验更具优势(例如,霍夫曼,舒文德纳, 卡斯特里, & 施密特,2008; 霍夫曼, 劳奇, &格沃斯基, 2007)。其他研究表明,内隐测验在预测行为变化上,是优于自我报告测验的(例如,帕鲁金妮 2005),因为内隐测验能够为行为上激活的联想提供更深一层次的证据。甚至对于低工作记忆容量的个体采用个体差异方法的研究表明,内隐测验在预测人类偏好的直觉行为时要比分析加工风格更好(例如,康纳, 帕鲁金妮,戈尔曼, 埃尔斯,& 普雷斯特维奇 2007)。此外,采用个体差异的方法研究表明对于更喜欢直观的分析处理方式的人和低工作记忆容量的人内隐测验能更好地预测行为(例如, 胡根贝格 & 布德怀森, 2003, 2004),此外,内隐测验评估的激活联想已被证明会引起模糊信息的偏见,并且这种偏见似乎会影响外在意识行为(例如,格沃斯基, 歌赛科, &邦斯, 2003; 也可参见, 甘地阿库瑞, &格沃斯基, 2008)。最后,大量的研究表明,由内隐测验测到的激活联想与自我报告测验测到的外显信念之间有差异,这种差异可能会一种产生独特的心理状态,这种心理状态可能会促进减少这种差异行为。例如,乔丹,斯宾塞,儹那,星河布朗,和克莱尔 (2003)发现,在自我报告测验和内隐测验中所呈现出的独特的自尊的差异模式的个体,会加强他们防御行为的水平。同样,佩蒂, 托玛拉, 布林, 和贾维斯(2006)的研究表明,自我报告测验和内隐测验所测得的态度上有差异的个体在态度相关信息中更有可能采用精细的加工方式(也可参见布林,贝蒂, & 威尔士, 2006)。根据以上论述我们可以得出,虽然内隐测验有时无法提供归因于其措施的信息的类型,但是,它们提供了有价值地在增加探索人类内在精神生活的心理学方面的研究工具,这在理解人类行为的决定因素上是必不可少的。

关于内隐测验的十大常见问题和不完全正确的常见假设

(原文题目:Ten Frequently Asked Questions About Implicit Measures and Their Frequently Supposed, But Not Entirely Correct Answers)

伯特伦·加沃斯基

西安大略大学

自我报告测验之所以会受到批判,通常来说是由于其对自我呈现的敏感性以及它们不能被捕捉到用于内省的那些心理内容。在过去的十年里,研究者试图通过内隐测验来克服这些问题,内隐测验能从被试的表现来推断他们的心理过程。在这篇文章中我会对当前可用的那些内隐测验进行一个述评,讨论这些内隐测验的10个常见假设。我认为这些假设中许多是不符合现有证据的或者是理论上有问题的。然而对用传统的自我报告测验很难预测的行为的预测方面,内因测验已经被证明是有效的。因此,即使内隐测验也许仍旧不能提供用这些测验来解释的信息,但是在理解人类行为的决定性因素时,内隐测验是一个及其有价值的心理研究工具。

关键词:联合加工,内隐测验,测量,研究方法,效度

与我所拥有的知识相比,我的自知之明是如此微薄可怜。没有东西可以使我们如观察外部世界一样来很好地观察我们的内部世界。

——弗兰兹·卡夫卡 第三笔记

在上面的引用里卡夫卡暗指的是直接观察我们心理的圣杯是不可能的--人类的内心世界。心理实体,如态度、情感、信仰或动机,都是不能直接观察的,必须通过反映这些概念的日常行为来推测。然而,卡夫卡关注的内容是更有深度的,那就是他对我们能够观察我们自己内部精神生活的能力抱有质疑。此怀疑得到了二十世纪后的一些心理学家们的支持,他们认为我们的行为是没有心理过程的内省来引导的(例如,尼斯贝特& 威尔逊,1977)。相反,除了基于对其他个体的基本认识的同种行为的观察能使我们个体形成的“奈”理论外,没有能和有时被看作“自我认知优先”理论一样的能够更好地解释人的内部世界的理论了。(威尔逊 & 邓恩,2004)。

毫无疑问,在使用自我报告测验的心理学研究中,这种内省的限制是存在严重的问题的,并且这个问题貌似比受到普遍关注的自我呈现的失真更严重(例如,克罗尼 & 马洛,1960;

保罗胡斯,1984)。基于这些问题,心理学家开始寻找别的方法,而不用自我报告的方法来观察人们的内心。相关的最重大的进展是内隐测验的发展。与传统的自我报告测验相反,内隐测验通过被试在实验范式中的表现来推断内部心理过程,最常采用的是快速分类任务。在过去的十年中,内隐测验激发了心理学的所有学科中的大量研究,这可以清楚的证明了内隐测验的流行。

现在这篇文章的主要目的是针对现在可用的内隐测验和关于这些测验经常被问的一些问题进行一个概括。后者讨论的巨大的差距是内隐测验方法和被更广泛的认可,使用这些措施的研究在基础研究上的启发。关于内隐测验提出10个非常常见的假设,由于概念性原因,这些假设中许多是不符合现有证据或理论上有问题的。在本文的其余部分,我更简洁的解释了讨论“关于内隐测验实际上告诉我们什么”,这使我们理解人类的行为具有重要意义。

内隐测验

内隐测验的历史要追溯到前面所提到的克服自我报告测验局限性的问题上来。最著名的内隐测验之一就是主题统觉测验(TAT),它专门被设计,用来评价无法通过内省获得的人的内隐动机 (回顾,参见麦克利兰,康斯那,& 温伯格,1989)。另外一个著名的早期内隐测验是情感Stroop任务,这个测验在精神病理学的研究中是一个非常受欢迎的工具 (回顾,参见威廉姆斯,马修斯& 麦克劳德,1996)。尽管这些测验可能被看成内隐测量领域的先锋者(早期方法:参见韦伯, 坎贝尔,施瓦兹 & 赛瑞斯特,1966),但是在过去的十年,在一个很重要的方面内隐测验类型的发展和这些以前的内隐测验是不同的。主题统觉测验和情感Stroop任务都是关注个人心理概念的(如成就,焦虑),最近开发的内隐测验着重于评估心理概念之间的连接(数学--男性,黑人--消极)。现今的内隐测验主要集中在后者内隐测验的类型上,在过去十年中,这种内隐测验类型在心理学的各个领域受到了极大的欢迎。

内隐联想测验

最著名的内隐测验之一就是由格林瓦德, 麦克吉, 和施瓦兹 (1998)开发的内隐联想测验(IAT)。这个内隐联想测验的标准版包括两个二元分类任务,这种任务是以具有一致性联系和具有不一致性联系的方式联合起来的。例如,种族内隐联想测验通常用于研究种族偏见,这种测验涉及他们在种族中对黑人和白人面孔的分类,他们的价值观中对积极词汇和消极词汇的分类。在偏见一致性程序中,要求被试对黑人面孔和消极关键词做出反应,对白人面孔和另一种积极关键词做出反应。相反,在偏见不一致程序中,要求被试对黑人面孔和积极关

键词做出反应,对白人面孔和另一种消极关键词做出反应。内隐联想测验的基本原理是,有关任务的概念与我们记忆中的概念有紧密联系时,能够促使我们对概念更快更准确的反应。然而任务概念和我们记忆中的概念有不一致的联系时,我们快速而准确的反应就会受到抑制(计分程序,参见 格林沃德,诺塞克& 巴纳吉; 2003)。在内隐联想测验的应用程序中,为使测验中的使任务更加灵活,几乎无数个可能的维度被使用,这些维度包括偏见(例如, 盖沃斯基,彼得斯,王祥& 斯特克, 2008),刻板印象(例如, 盖沃斯基,艾伦伯格,邦斯,祖科娃&克罗尔;2003),自尊(例如,格林沃德 & 法纳姆;2000),自我概念(例如,阿森多普,邦斯& 毛里求斯;2002),品牌评价(例如,弗汉德&帕金斯;2005),恐惧症和焦虑症的唤醒刺激(例如, 迪曼,格雷格 & 伍迪;2001),酒精依赖(沃斯,凡尔登,舒德思&德容;2002),和药物成瘾(沃斯,胡本&克拉克;2007),仅仅举出早期应用的一小部分例子。最近对内隐联想测验程序修改的大量建议被提出,包括开发一些使任务更适合评价单一概念而不是评价两个相关联概念的内隐联想测验的变式, (卡平斯基 & 斯坦曼 2006),和通过把具有一致性联系和不具有一致性联系的概念结合到一部分中来避免阻碍自我表现的内隐联想测验的变式,(泰奇-莫奇哥马巴,克罗尔&罗斯慕德;2008;也可参见:罗斯慕德,泰奇-莫奇哥马巴,噶斯特& 温土亚:在出版)。

评价启动任务

另一个著名的内隐测验是法西奥,杰克森,邓盾和威廉姆斯的评价启动任务(也可参见:法希奥,圣波马斯图鲍威尔&卡德斯;1986),该任务采用的是认知心理学中顺序启动效应的基本思想(尼利,1977),使用在评价决策上的启动效应作为自动评价的一个指标(要审查,参见法希奥,2001;克罗尔&姆斯;2003)。在标准化范式中,给被试短暂地呈现一个启动刺激(比如一个黑色的脸),紧接着是一个积极或消极的目标词。被试的任务是通过按两个反应按键中的一个迅速判断目标词汇是积极的还是消极的。在某种程度上,如果启动刺激能使被试对积极词汇做出更快的反应,那么就认为启动刺激和积极评价相关。然而如果启动刺激能促进被试对消极词汇做出的反应更快,就认为启动刺激和消极评价有关(计分程序,参见,温特布林克;2007)。评价启动任务可以用来评价任何类型的对象,其对象能在一个顺序启动范式中当做一个启动刺激被呈现出来,并且已成功的被应用到阈上和阈下刺激的启动上(例如:奥尔森&法希奥;2002)。虽然任务的标准变式地采用典型的对积极和消极的目标词进行的评价决策,但是有人建议修改这个测验的程序,包括对积极和消极目标词的发音(巴奇,柴肯,雷蒙德&哈姆斯,1996)以及对目标刺激的积极和消极图片的命名(司欧特,赫尔曼,德温盖,范德科沃&艾琳, 2007)。

语义启动任务

一个不太普遍但与评价启动任务非常相似的范式是温特柏林、贾林、和帕克的语义启动任务。这个测验的基本原理和法希奥等人的(1995)评价启动任务基本相同,而唯一的区别在于,这个任务给被试呈现的是有意义和无意义的字符串作为目标刺激,被试的任务是尽快判定呈现的字符串是有意义的还是无意的。某种程度上,如果给定的启动刺激能促使被试对有意义的目标词更快做出反应,就认为启动刺激和目标词的语义是有联系的(计分程序,参见,温特柏林,2007)。例如,在一个关于种族刻板印象的应用程序里,温特伯林等人发现在呈现目标词之前,对被试非意识的呈现黑色这个词时,被试对目标词做出快速反应的促进作用是与非裔美国人的刻板印象有关连的。和法希奥等人的评价启动任务不同的是,温特伯林等人的研究范式主要关注点在于词汇的语义,而非对给定对象的关系做评价。

情感错误归因程序

一个相对最近但是已经非常流行的测验是佩恩,成一,哥沃,和斯图尔特的情感错误归因程序(AMP)。在这个测验里,给被试短暂地呈现一个启动刺激,紧接着呈现一个简单的中性汉字(也可参见墨菲&扎因斯1993)。这个汉字马上用一个黑白的面具代替,被试的任务是指出与普通汉字相比而言,这个汉字在视觉上更让人愉悦还是更不让人愉悦。典型的发现是当一开始呈现给被试的是积极的刺激而非消极的刺激的时候,被试会认为这个中性汉字更倾向于让人愉悦。更有趣的是,即使这个实验似乎已经相当明显而且很容易控制,但是在情感错误归因程序中的启动效应已经表明了启动效应可能会对那些企图故意控制启动刺激的影响的被试产生对抗,即使被试启动刺激可能会影响被试在实验中的反应这一信息已经被告知 (佩恩,成一等人,2005)。从法希奥等人(1995)的评价启动任务看来,情感错误归因程序可能会被用来评估任意种类的刺激的反应,这种刺激可以在任务中作为启动刺激。

外在情感西蒙任务

一个有趣但是不常见的内隐测验是德荷文(2003a)的外在情感西蒙任务(EAST)。在这个测验的关键程序里,目标词(例如,啤酒)用两种不同的颜色(例如,黄色与蓝色)呈现给被试,积极的和消极的词汇以白色的形式呈现给被试。当这些词以白色呈现时,被试被指导要根据所呈现词的效价进行分类,当这些词以彩色呈现时,被试要以他们的颜色进行分类。例如,在应用外在情感西蒙任务评价酒精饮料时(例如,德容,沃斯,范德巴克&惠汀,2007),

给被试呈现白色的积极和消极的词汇(例如,蜘蛛,日出),然后用酒精性饮料和非酒精性饮料的名字(例如,啤酒,果汁)一些用黄色呈现给被试,另一些用蓝色呈现给被试。被试的任务是,当他们看到白色的消极词汇、或者看到一个用蓝色呈现的词汇时按左键,当他们看到一个白色积极词汇、一个用黄色呈现的词时按右键。在某种程度上来说,当要求做出反应的这个词与一个积极词汇而不是消极的词汇相联系时,被试倾向于更快地对颜色词做出反应,由此可以推断出被试对所描绘的有颜色的对象是有积极的反应的。虽然,外在情感西蒙任务在最初的时候是被设计用来做评价反应的一个测验的,但是最近有大量的研究证明,它也被应用于其他许多的领域,例如自我相关评价(例如,泰奇,施纳贝尔,邦斯&艾森德芙,2004;也可参见,施母可&易格福,2006)。

Go/No-Go联想测验

诺斯克和班吉 (2001)的Go/No-Go联想测验(GNAT)的灵感来自内隐联想测验(格林沃德,1998)的基本逻辑,想要使这个任务更适合对单一概念评价,而不是对两个相互关联的概念评价(也可参见:卡平斯基&斯坦曼, 2006)。简单的讲,GNAT用一个go/no-go任务,在这个任务中要求被试对不同种类的目标刺激做一个go反应(如,通过按空格键),并对一个分心刺激做一个no-go反应(即:不做按键反应)。在任务的一个程序里,目标刺激包括与其属性概念相关的刺激(如,苹果)和给定特质维度的一极的刺激(如,积极词汇);分心刺激包括给定特质维度的另一极的刺激。在第二个程序中,作为目标“go刺激”和作为分心 “no-go刺激”的属性的分类被调换。GNAT测验有一个反应的最后期限,以便被试在最后期限之前对目标做出go反应(如:600 ms)。对采集到的数据用信号检测理论分析(格林 &斯沃琪, 1966),以便使对两个go刺激的尝试(如:苹果-积极词汇,苹果-消极词汇)在敏感性得分上的差异(d)作为区分属性概念和特质概念的一个指标来被解释。诚如内隐联想测验,GNAT测验在应用过程中是相对比较灵活的,因为这个测验中的目标和分心刺激可以包含大量的概念和属性,包括社会团体(例如, 诺塞克 & 班吉,2001),自我相关 (例如,班德诺,罗林斯& 塞拉姆,2007),焦虑唤醒和恐惧刺激(例如,泰德曼,2007).。

接近——回避任务

也许会被归入一般分类之中的接近--回避任务是最后一个种类的内隐测验。这个任务的一般假设是,积极的刺激会促进接近反应抑制回避反应,而消极的刺激会促进回避反应抑制接近反应。首次发表证明这个效应的索拉兹 (1960)发现与消极词汇相比被试对积极词汇更倾

向于接近反应。恰恰相反,与积极词汇相比被试对消极词汇更倾向于回避反应。关于这些发现的外延,成一和巴奇的研究证明,不管接近--回避反应中与反应相关的刺激(如,积极--接近,消极--回避与消极--接近,积极--回避)的特征的效价是否匹配,亦或是反应的特定类型与不相关特征相匹配,(如,接近用黄色字体的积极和消极词汇,回避用蓝色字体的积极和消极词汇),这种效应都会产生。然而,对这些效应的早期的解释,与早期的这种效应解释相反,是因为动机取向和特定动作之间直接的和不灵活的联系(例如, 斯特拉克 &德茨,2004)。越来越多证据表明对接近--回避任务一致性效应的影响,取决于被分配到特定动作上(例如,伸肌收缩对屈肌收缩)的积极和消极的意义(例如,积极对消极的)任务的描述。例如,埃德尔和罗斯莫德(2008)发现当反应动作被描述为拉(例如,积极的意义归因于屈肌收缩)和推(例如,消极意义归因于伸肌收缩)杠杆时,被试看到积极词汇时拉杠杆(屈肌收缩)和看到消极词汇推杠杆(伸肌收缩)的速度更快。然而相关研究发现,当相同的运动反应被描述为向上(例如,积极的意义归因于伸肌收缩)和向下(例如,消极意义归因于屈肌收缩),这些影响被翻转,(例马克曼& 邦迪,2005;赛博特, 诺依曼,诺赛森&斯特拉克:2008)。虽然大多数研究都已经用了上述的各种标准范式的变式,但是这些范式所衍生出的范式,包括对视觉意义进行左--右反应的接近--回避任务(布兰迪,马克曼& 梅斯纳尔:2005),以及它的主体运动的变式,都被用来与评价自我相关所联系(施纳贝尔,邦斯& 艾森德普:2006)。

关于内隐测验的常见问题

内隐测验几乎已经被用于心理学的所有副学科。然而内隐测验能告诉我们的却远远多于已有数据。以下,我会讨论十个问题和常见假设,但我们从内隐测验所提供的数据中推断出来的这些问题的答案却是不完全正确的。虽然在讨论中得出的结论在很大程度上是研究内隐测验内部机制(回顾,参见温特伯林& 施瓦茨:2007)的研究者分享的,但在内隐测验广泛的讨论中,对它们意义的误解仍然是非常常见的。

问题1:内隐测验是为通向无意识提供了一个窗口吗?

关于内隐测验的一个普遍的假设,就是这些测验可以评价人的无意识心理,而这些无意识心理是无法通过有意识内省实现的(例如, 班吉, 雷蒙, &卡班特, 2001)。这种假设是基于方法学的,内隐测验不像传统的自我报告那样预测人的有意识心理。然而,从逻辑学角度来看,这也不意味着内隐测验预测的就是无意识。后者是一个需要被验证的问题 (德胡文:

2006;格沃斯基&邦德华森:2007) 。事实上,最近的研究表明有一些恰恰相反的证据(例如,噶沃斯基,霍夫曼&威尔伯:2006;格沃斯基,利贝尔&皮特斯:2007).。例如,内隐测验与自我报告有低相关,这一发现通常被解释为无意识本质的联系的证据 (元分析,参见 霍夫曼,格沃斯基,斯文德纳,李&施密特:2005).。然而,也许有其他许多原因会与自我报告测验有低相关,并非由于缺乏内省方法,其中包括测量错误,概念相关,自我表现和许多其他因素(回顾,参见霍夫曼,斯温德纳,诺塞克&施密特 2005)。另外,最近研究表明,如果指导被试对态度对象进行内省,则内隐测验和自我报告测验的相关会增加(例如,噶沃斯基&利贝尔:2008;斯奥索,斯密斯&诺塞克:2007)。这些很难通过对无意识描述的解释来发现。加入内隐测验所描述的的确是无意识心理,则内省指导很有可能会影响自我报告测验的平均值。然而,从无意识角度来看,两种测验之间相关的增加似乎十分令人惊讶(更为详细的讨论,参见格沃斯基等:2006)。

问题2:内隐测验能克服社会赞许性的问题吗?

关于内隐测验的另一个常见假设,他们克服了一直困扰自我报告测验的社会赞许性问题(例如,法希奥等人,1995)基于与内隐测验相比自我报告测验更容易调整人们的反应他们提出了这一观点(例如,邦斯,赛斯& 泽比:2001;易格福&舒木科:2002;金姆: 2003;施纳贝尔 等人:2006;史蒂芬斯:2004)。然而,经验主义的研究表明这种情况是非常复杂的。简单地来说,社会赞许的假设会暗示当社会赞许性比较低时,自我报告测验和内隐测验的相关应该很高,然而当社会赞许性高时,两种测验相关应该是低的(参见格沃斯基 等人,2007)。尽管一些研究发现在实际上支持(例如,诺塞克, 2005;利可塔, 2006)这一预测,其他的研究并没有发现社会赞许性的任何影响(例如,易格福 & 舒木科,2003; 霍夫曼, 格沃斯基等人,2005),甚至发现了相反的模式 (例如,霍夫曼,噶沃斯基等人:2005;利可塔:2006)。尽管在某种程度上图片似乎更影响直接具体的动机,例如控制偏见反应的动机(回顾 噶沃斯基等人:2007),但是,内隐测验和自我报告测验的相关已经表明,它会随着几种非动机的认知因素的变化而变化,并且两种测验的相关远比社会赞许性和自我呈现要复杂的多(参见 霍夫曼,斯沃德纳等人:2005)。

问题3:内隐测验会对伪装免疫吗?

另一个假设,与内隐测验直接相关的最后一个,是内隐测验对伪装免疫吗?很明显,与自我报告测验相比,内隐测验的特殊属性使它更少受到伪装的影响(例如, 邦斯等:2001;

易格福 & 舒木科:2002;金姆,2003;施纳贝尔等人:2006,史蒂芬斯:2004).。然而,经验证明内隐测验并非完全不受伪装影响,通过深思熟虑来尝试控制它的反应,已经证明,一些内隐测验的分数是可以改变的(例如,德格尼尔:正在出版;费德勒& 比鲁威尔:2005;克罗尔 & 泰奇:2007;鲁尔威,哈丁& 辛克莱尔:2001;施纳贝尔等人,2006;史蒂芬斯:2004;泰奇 & 克罗尔, 在出版; 也可参见 佩恩, 成一等人,2005)。很明显,与自我报告测验相比这些效应更小。然而,从这些研究来看,认为内隐测验对伪装“免疫”似乎不太准确。

问题4:内隐测验可以被当作测谎仪使用吗?

基于内隐测验的一个受伪装影响很小的假设,另一个普遍假设当一个人不愿意说出一个特定的观点和信仰时,内隐测验可以当作一个测谎仪来使用(例如,尼尔, 2005; 萨托利 古斯塔, 泽格马斯特, 费拉拉, & 卡斯特里奥, 2008)。很显然,根据上述的研究来说这个假设似乎存在问题,上述研究表明企图做虚假反应深思熟虑之后能改变内隐测验的分数(例如, 德格尼尔,因普莱斯; 费德勒 & 比欧里奥, 2005; 克罗尔 & 泰奇,2007; 洛尔利等人,2001; 施纳贝尔 等人,2006; 史蒂芬斯 2004;泰奇 & 克罗尔, 2008)。这种影响意味着存在潜在的疏忽错误,即内隐测验可能无法检测到受欢迎的“真正的反应” (参见费德勒, 史密德 &施塔尔, 2002)。除此之外,内隐测验测出的心理内容可能是模糊的,注意到这一点也是非常重要的。例如,许多研究儿童的性观念的内隐测验检测能否鉴别判定儿童的性骚扰者(例如,格雷, 布朗,麦克科罗齐, 史密斯, &斯诺登, 2005; 尼斯, 费尔斯通 &布莱德温, 2007; 也可参见, 卡姆普斯, 雷特尔, 詹森,2005)。结果表明,内隐测验在区分恋童癖者和非恋童癖者上却是是非常成功的。然而,需要注意的是,儿童的性关联可能在其根本,而非恋童癖上有许多因素。例如当一个人将儿童作为性虐待目标时(参见格雷等人, 2005)。这样的例子会暗示出做出假预测的风险性,也挑战了内隐测验作为测谎仪的适合性。因为这些原因,应该谨慎对待任何宣称可以作为测谎仪的内隐测验。

问题5:内隐测验能反应真实的自我吗?

这个问题是与社会赞许性有关的,伪装和谎言的检测都有共同的含义,就是内隐测验某种程度上能揭示一个人真正的态度、观点和信念,而这些态度、观点和信念是在自我报告测验中这个人不愿意揭示的东西(例如法希奥等人, 1995; 奥尔森 & 法希奥, 2004)。然而,上述问题已经阐明,这种说法并非没有问题。另外,注意一个人“真正的自我”的两种可能解释是很重要的,这两种解释相互矛盾(噶沃斯基, 皮特斯, & 利贝尔, 2008)。第一个解释意

味着对反应失败时“真正的自我”被揭露出来的故意的控制。这种解释与上述问题所暗示的问题是一致的,表明人们成功的控制自己的行为被打断时才揭示出一个人的本性(参见 佩恩, 雅各布, & 兰伯特, 2005)。第二种可能的解释与第一种解释相对应认为当一个人有意识地企图去做或者说话时,“真正的自我”会被揭露出来。从这个角度看,任何没有企图的动作都被归因于个人的外部力量,而非在人们控制之下的“真正的自我”。(参见阿克斯 & 泰德洛克, 2004)。因此,第一种解释相当于“真实的自我”的无意识的行为,而第二种解释相当于“真实的自我”的有意识行为(噶沃斯基等人, 2008)。由于这些解释都是定义以及文化世界观的问题,而非实证观察,任何关于“真正的自我”的宣称都可以被看作主观偏好。因此,即使对于内隐测验的反应陷入无意识行为的范畴时在真实的自我的主观偏好方面,内隐测验解释真实自我的描述都是偶然的。

问题6:内隐测验能反应出早期的社会化经历吗?

我们的一个强烈直觉是通过探寻内隐测验所评估的内容的潜在源头这些测验可以反应早期的社会化经历(例如格林沃德&班吉, 1995; 路德曼, 2004)。按照这种假设,已经有大量的研究成功的证明了内隐测验与不同种类的早期童年经历有关。已经报道的这样的研究有,对吸烟的态度 (路德曼 费伦, & 荷彭, 2007),对超重的态度路德曼等人, 2007),种族偏见(辛克莱, 邓恩, &劳尔利, 2005),自尊(特拉华, 佩勒姆, &天恩, 2006)。然而,为了使这个社会化假设更具长期的说服力,通过实验室的简单操作有几个研究成功地诱导了内隐测验的变式(例如,嘎哇斯基, 沃尔特, &布兰克, 2005; 格雷格, 赛博特, &班吉, 2006)。因此,尽管确实早期的社会化经验可能是内隐测验评估的一个潜在来源,但是这些关联可能还掺有许多自身的因素,而非早期社会化经历。因此,用内隐测验解释观察到的变化来直接反映早期社会化经验可能存在逻辑上的错误,例如一个已经准确被证实的“A推出B”的关系(例如,早期社会化经历的变化可以推测出内隐测验的变化),在这种情况下就会得出“B也能推出A”的这种错误关系。

问题7:内隐测验能反映高度稳定的关联么?

与内隐测验直接有关的最后一个普遍假设是,内隐测验反映的心理联系如果形成,在一段时间内就会高度稳定(例如,威尔森,林德赛, & 斯库勒, 2000)。这个假设与内隐测验在态度改变操作上比自我报告测验更敏感的研究结果相一致 (例如,噶沃斯基&斯特拉克, 2004; 格雷格等人., 2006; 雷戴尔 & 麦康内尔, 2006)。然而,也有一些恰恰相反的研究发现。在

这些研究中内隐测验能为态度改变提供证据然而而外显测验则不能提供证据(例如,噶沃斯基 &利贝尔, 2008; 吉普森, 2008; 卡平斯基& 希尔顿, 2001;奥尔森 &法希奥, 2006)。甚至,有许多研究表明内隐测验对环境是高度敏感的(例如,达斯古普塔& 格林沃德, 2001; 劳尔利等人 2001; 雷戴尔& 噶沃斯基, 在出版莱布林克, 贾德, & 帕克, 2001),这进一步挑战了内隐测验的反映是高度稳定的联系的这个假设。用现有的证据进行全面查看,噶沃斯基和 布德怀森 (2006)认为,上下文的特定模式激发自我报告测验和内隐测验的改变主要取决于:(a)给定可控情境的加工类型、联想记忆的激活、信息或命题验证激活的影响;(b)一个过程的变化是否会间接影响另一个过程的变化。这种交互影响(反映在内隐测验中)和命题过程(反映在自我报告中)可能会产生各种可以预测的结果,包括在内隐测验而非自我报告测验中的改变,(例如,噶沃斯基&利贝尔, 2008; 奥尔森 & 法希奥, 2006),自我报告测验而不是在内隐测验改变(例如,格沃斯基 & 斯特拉克, 2004; 格雷格等人, 2006),和在自我报告测验和内隐测验中一致的改变(例如,格沃斯基 &利贝尔, 2008; 奥尔森 & 法希奥,2001),甚至在自我报告测验和内隐测验上相反的效应(例如, 雷戴尔, 麦康内尔, 麦凯, & 斯特恩, 2006)。另外,格沃斯基和布德怀森 (2006)的概念规定了在哪种情形下,内隐测验不对抗作为语境功能的变化,这已在雷戴尔和格沃斯基(在出版)最近的一项研究中证实。

问题8:内隐测验反映的仅仅是文化的联系么?

对于内隐测验的一个正在上升的担忧是,内隐测验是仅仅反映不被个人所赞同的文化或个体外的联系么?这场争论已经在一般问题的不同水平所展开,从对内隐测验特定种类的批评(例如,奥尔森 & 法希奥, 2004)到对具有普遍意义的内隐测验的批评(例如,阿克斯& 泰德洛克, 2004).。然而,在评价这些批判时,仍有许多问题是需要考虑的。第一,内隐测验从定义来看不能评估对评价和信念的认可(德霍沃, 2006)。相反的,这些测验只能评估心理内容会不会被明确支持的可能性。第二,声称只有一些联系在本质上是个人的,而其他的联系本质上是他人的(例如 奥尔森 & 法希奥, 2004),这就暗示了在记忆中联系的表现,也许会随着他们来源的功能,而有所不同(格沃斯基& 布德怀森, 2006)。这样一种声明不仅预料到能够允许这些差异的心理表征理论,也需要对应用到心理联系中的个人,个体以外的下一个精准明确的定义。然而,到目前为止,通过内隐测验问题评估个人与个体外自然的联系所得出得概念上的要求,还都没有得到满足(进一步讨论,参见 格沃斯基等人, 2008)。

问题9:内隐测验有多可靠?

从概念问题到方法问题,内隐测验的可靠性是心理计量学专家普遍关心的一个问题。在上面的第一个问题里面,我们已经指出了内隐测验和传统的自我报告测验的低相关,这种低相关可能是由于测量误差。遗憾的是,如此大比例的测量误差也许是众多内隐测验的一个关键的问题,从心理测量学角度考虑,内部一致性分数显然不令人满意(例如,邦斯,1999, 2001; 柏森,斯旺, & 尼贝克, 2000; 坎宁安等人.2001; 奥尔森n &法希奥, 2003; 泰奇等人, 2004)。从心理测量学观点来看,只有两个测验表明了内部一致性(例如,克伦巴赫的α值在0.8范围内)是可接受的,即内隐联想测验 (格林沃德等人., 1998)和情感错误归因程序。另一个问题就是内隐测验报告可靠性的问题,这不是通常的惯例,对一个现成的研究做出评定很困难。对于其他的测验来说,遵守这个要求当然是很有用的。

问题10:所有的内隐测验都的结果都是同等的么?

最后一个假定是内隐测验通常是可以互换的,至少在采用相同的实验材料时所有的内隐测验会产生相同的结果, (例如,谢尔曼,罗斯,科赫,普莱森& 查辛,2003).。之所以认为这个假设不正确主要有两个原因。第一,内隐测验在某种程度上评价的相关范畴和概念是不一样的(奥尔森 & 法希奥, 2003)。例如,法希奥等人(1995)的评价启动任务的标准变式不要求被试加工最初刺激的类别范畴(例如,明确将黑色的脸归为黑人类),这样任务更适合主要特质的功能,而不是最初的那类(例如利文斯顿 &布鲁尔, 2002; 奥尔森 & 法希奥, 2003)。在内隐联想测验中,这种情况是不一样的,被试明显的要求根据刺激的范畴对呈现的刺激进行分类。因此,由于他们评价不同的联系从两种测验中得出的结论可能会不一致(例如,举例相关与类别相关)。第二,不同的内隐测验采用不同的机制评价心理联系。因此,在某种程度上,这些机制会产生交互作用,不同的机制的内隐测验可能表现不同的结果。尽管对于这个问题的研究还很少,但是有证据表明,基于不同机制的相同的内隐测验同样的实验控制可能得到完全相反的结果。像这样相反地结果,可能由于测验机制的变化而非测验结构的真正的变化,用多种不同的测验来检验内隐测验的效果的真正本质是有帮助的。

我们能从内隐测验中学到什么?

鉴于对问题的假设审查,人们自然会问这样的问题:我们能从内隐测验中学到什么?根据人类普遍的信息处理的双重加工模型,一些理论家们认为,内隐测验为联想记忆的激活提供了一个代理,不管这些联想被看做是正确的还是不正确的。相反的,传统的自我报告测验是假定反映加工过程的建构效度的,目的在于在评估这些联系的主观效度(例如,格沃斯基 &

布德怀森, 2006;斯特拉克&道奇, 2004; 也可参见 毕福斯, 2005; 黎波曼, 吉尔伯特,& Trope, 2002; 斯洛曼, 1996; E. R. 史密斯 & 德士, 2000)。尽管内隐测验并没有完全的反映激活联想(康瑞, 谢尔曼, 格沃斯基,胡根贝格, & 格鲁姆, 2005),但是关于内隐加工和外显加工在这样简单概念上面的区分,已经被成功的应用到自我报告测验和内隐测验的决定因素方面(格沃斯基 & 布德怀森, 2006),并且也把内隐测验和自我报告测验的应用有关的用到了外显的行为方面。在这方面最引人注目的发现是,即使外显行为在自我报告测验中看作是无效的,但由内隐测验测出的内隐加工会影响这些行为。在研究中最突出的特点是,内隐测验能够预测标准自我报告测验很难预测的即时的行为(例如 艾森德普 等人, 2002; 易格福 & 舒木科,2002; 法希奥等人, 1995; 麦克康内& 雷柏的, 2001)。根据这些发现,在减少认知容量的条件下去预测行为方面内隐测验要比自我报告测验更具优势(例如,霍夫曼,舒文德纳, 卡斯特里, & 施密特,2008; 霍夫曼, 劳奇, &格沃斯基, 2007)。其他研究表明,内隐测验在预测行为变化上,是优于自我报告测验的(例如,帕鲁金妮 2005),因为内隐测验能够为行为上激活的联想提供更深一层次的证据。甚至对于低工作记忆容量的个体采用个体差异方法的研究表明,内隐测验在预测人类偏好的直觉行为时要比分析加工风格更好(例如,康纳, 帕鲁金妮,戈尔曼, 埃尔斯,& 普雷斯特维奇 2007)。此外,采用个体差异的方法研究表明对于更喜欢直观的分析处理方式的人和低工作记忆容量的人内隐测验能更好地预测行为(例如, 胡根贝格 & 布德怀森, 2003, 2004),此外,内隐测验评估的激活联想已被证明会引起模糊信息的偏见,并且这种偏见似乎会影响外在意识行为(例如,格沃斯基, 歌赛科, &邦斯, 2003; 也可参见, 甘地阿库瑞, &格沃斯基, 2008)。最后,大量的研究表明,由内隐测验测到的激活联想与自我报告测验测到的外显信念之间有差异,这种差异可能会一种产生独特的心理状态,这种心理状态可能会促进减少这种差异行为。例如,乔丹,斯宾塞,儹那,星河布朗,和克莱尔 (2003)发现,在自我报告测验和内隐测验中所呈现出的独特的自尊的差异模式的个体,会加强他们防御行为的水平。同样,佩蒂, 托玛拉, 布林, 和贾维斯(2006)的研究表明,自我报告测验和内隐测验所测得的态度上有差异的个体在态度相关信息中更有可能采用精细的加工方式(也可参见布林,贝蒂, & 威尔士, 2006)。根据以上论述我们可以得出,虽然内隐测验有时无法提供归因于其措施的信息的类型,但是,它们提供了有价值地在增加探索人类内在精神生活的心理学方面的研究工具,这在理解人类行为的决定因素上是必不可少的。


    相关文章

    什么是信度

    1. 什么是信度? 信度是指测量结果的一致性或稳定性程度, 是反映被测特征真实程度的指标. 信度的特征: ● 指的是测量结果的一致性, 不是量表本身: ● 信度系数不会因为不同时间.不同受试者或不同评分者而出现不同的结果: ● 信度是效度的 ...

    行测判断推理逻辑判断制胜十二招

    行测判断推理逻辑判断制胜十二招 [华图教育阅读提示]公务员考试等公职考试判断推理中逻辑判断题考点内容丰富,形式变化灵活,熟悉普通逻辑常识的同时了解掌握快速阅读.快速解答的方法和技巧,是达到事半功倍效果的途径. 本文通过实例剖析了逻辑判断快速 ...

    初二数学试题卷

    初二数学试题卷 一.单选题(共30分,每小题3分) 1. x 的取值范围是 ( ) A. x >1 B. x ≥1 C.x <1 D. x ≤1 2. 下列语句中,不是命题的是 ( ) .. A. 你完成作业了吗? B. 南浔镇 ...

    2016年国家公务员考试行测技巧:内容相关性原则在论证中的运用

    2016年国家公务员考试行测技巧:内容相关性原则在论证中的运用 在论证类题目中,选项中往往会设置一些与题干无关的选项作为干扰项来混淆考生的选择.所以在做论证类的题目时正确理解和运用内容相关性原则是非常关键的,下面我们就来介绍一下内容相关性原 ...

    [心理与教育测量学]教学大纲

    <心理与教育测量学>教学大纲 一.课程说明 1.课程学时.学分及分配 课程总课时:54 周学时:3 学分:3 开课学期:4 2.课程类别 专业主干课 3.课程教学目标与要求 通过本课程的教学,要求学生了解心理与教育测量发展的历史 ...

    第八章教育实验法1

    第八章 教育实验法 本章要点:教育实验法的含义.特点.类型:有结构观察与无结构观察的类型及其方法:教育观察法的实施步骤与方法,教育观察法的实施要求. 第一节 教育实验法概述 一.教育实验法的含义与特点 (一)教育实验法的含义 教育实验研究法 ...

    2015年四川公务员考试大纲

    2015年四川公务员考试公告.报名注意事项.职位表等最新资讯及免费备考资料请点击:2014年四川公务员考试大纲可以参照2014年国家公务员考试大纲 为便于报考者充分了解中央机关及其直属机构2014年度考试录用公务员公共科目笔试,特制定本大纲 ...

    广东海洋大学试验统计学名词解释

    试验因素:简称因素或因子,被变动并设有待比较的一组处理的因子称为试验因素. 试验水平:试验因素的量的不同级别或质的不同状态称为水平. 简单效应: 在同一因素内两种水平间试验指标的相差属简单效应. 主效:一个因素内各简单效应的平均数称为主要效 ...

    文件筐测1

    文件筐测验 文件筐测评( 文件筐测评(In-Basket Test) ) 目录 [隐藏 隐藏] 隐藏 1 什么是文件筐测验 2 文件筐测验的特点 3 文件筐测验的设计 4 文件筐测验的考察内容 5 文件筐测验对考官的要 求 6 文件筐测验的 ...

    2016年大理州事业单位考试考纲--自然科学专技类(C类)

    大理事业单位考试 考试说明 GSR 2016/5/12 目录 5.3 自然科学专技类(C类) ....................................................... 2 5.3.1 <职业能力倾 ...