
July 1, 2026 · 8:16 AM
斯特鲁普实验:为什么你会忍不住读字,而不是说颜色
这期解读 Stroop 1935 年颜色词干扰实验:研究者如何用冲突颜色词比较读词和颜色命名的干扰强度,为什么 47 秒的差异成为认知控制研究的经典证据,以及它不能被外推成什么。
开口读「红」这个字时,反应很顺;可如果这个字是蓝色墨水印出来的,任务又改成「说出墨水颜色」,大多数人会明显慢下来。1935 年,J. Ridley Stroop 把这个日常小冲突做成了一个可计时、可对照、可重复的实验:同一个符号同时给出两个线索,一个是词义,一个是颜色,而被试只能按其中一个线索反应。1
论文先放在桌面上
这篇论文今天看起来简单,原因恰好在于它把问题切得很干净。Stroop 没有先问「注意力是什么」这种大问题,而是问一个能被秒表测量的问题:两种长期训练强度不同的反应习惯同时出现时,哪一个更容易抢到行为出口。
背景:读词为什么比命名颜色快
Stroop 的引言不是从颜色字卡突然开始的。他先回顾了 19 世纪末到 20 世纪初关于「干扰」和「抑制」的实验:改换卡片分类规则、重学无意义音节、让动物改走相反路线,这些研究都在问旧习惯如何妨碍新反应。1
更近的前置问题是:为什么读颜色词通常快于命名颜色本身?Stroop 在论文中列出当时几种解释,包括练习量差异、颜色命名时多个名字互相竞争、颜色和词的联结方式不同等说法。1 他真正的推进是把「词」和「颜色」塞进同一个刺激,让它们在同一时刻争夺反应,而不是分开比较两类材料的平均速度。
材料控制:冲突不是随便印几张彩色词卡
Stroop 使用五种颜色:red、blue、green、brown、purple。黑色和黄色被排除,黑色不能作为彩色墨水的对照刺激,黄色在印刷强度上也难与其他颜色匹配。每个词都不会用它所命名的颜色印刷;例如 red 会分别用 blue、green、brown、purple 墨水印出,而且各种组合出现次数均衡。1
这几个细节很关键。第一,任何一个具体颜色或具体词都不能靠出现频率「占便宜」。第二,同一个词和同一种颜色不会在行列中立刻重复,避免被试靠节奏猜下一个反应。第三,测试有正序和反序版本,任务顺序也做了平衡,尽量减少练习和疲劳把结果推向某一边。1
论文里四个缩写容易混:RCNb 是读黑色印刷的颜色词;RCNd 是读「词义与墨水颜色不一致」的颜色词;NC 是给色块命名;NCWd 是忽略词义,只说出冲突颜色词的墨水颜色。1 后来人们常说的「斯特鲁普任务」,主要指 NCWd 这一种最难的情况。
实验一:颜色几乎干扰不了读词
实验一测的是颜色对读词的干扰。70 名大学本科生要读两类材料:一类是黑色印刷的颜色词,另一类是用不一致彩色墨水印刷的颜色词。每名被试两种材料都读,顺序做了平衡,正式测试前先读 10 个样本词,随后按「Ready! Go!」开始,实验者用秒表计时到五分之一秒。1
结果很小:读 100 个冲突颜色词,比读 100 个黑色颜色词平均只慢 2.3 秒,约增加 5.6%,原文判断这个差异不可靠。1 换句话说,当任务是「读字」时,墨水颜色虽然摆在眼前,却很难把已经熟练的读词反应拖慢。
实验二:词义会猛烈干扰说颜色
实验二把方向反过来。被试不再读词,而是说出颜色。对照条件 NC 是给实心色块命名;冲突条件 NCWd 是看到一个颜色词,却必须忽略词义,说出它的墨水颜色。实验二有 100 名学生,任务顺序同样平衡,错误没有完全丢掉:未纠正错误会按规则折算进耗时,以免被试靠漏报换取速度。1
这一次差异大得多。给 100 个普通色块命名平均要 63.3 秒;给 100 个冲突颜色词说墨水颜色平均要 110.3 秒。增加的 47.0 秒,相当于普通颜色命名耗时的 74.3%。原文还报告,中位数分别是 61.9 秒和 110.4 秒,说明不是少数极慢个体把平均数拉高。1
这里的核心不是「人会犯错」,而是「即使知道任务要求,人也会被更熟练的通道拉走」。读词是多年训练出来的强联结;颜色命名也会做,但通常没有同样稳定、同样单一的反应路径。Stroop 的解释很朴素:词刺激长期和「读出它」绑定,颜色刺激则可能和欣赏、选择、回避、命名等多种反应相关,所以在冲突时,词义更容易抢先冒出来。1
实验三:练习能降低干扰,但不会抹掉旧习惯
第三个实验问的是练习能不能改变这种不对称。被试连续练习 NCWd,也就是不断在冲突颜色词上说墨水颜色。Stroop 报告,8 天练习、每天 200 次反应,会降低 NCWd 的干扰,但没有消除它;练习还会让个体差异变大,并且反过来增加颜色对读词的干扰。1
这个结果比「练习有用」更细。新任务确实能被训练,颜色命名在冲突环境中会变快;但旧的读词习惯没有被删除,只是在特定任务设置下被压住。Stroop 还观察到,重新让被试练习读冲突词时,新发展出的反向干扰下降很快。1 这说明实验测到的不是一个固定人格特质,而是任务、练习史和当前控制要求的共同结果。
这个实验真正证明了什么
Stroop 的数据支持一个有限但结实的结论:当一个刺激同时激活两个反应,而其中一个反应经过长期训练、更自动化时,较弱反应会被拖慢。更准确地说,读词对颜色命名的干扰远强于颜色对读词的干扰。1
它没有直接证明大脑里哪块区域在工作。1935 年的论文没有脑成像,也没有神经记录,只有纸张、印刷、被试出声反应和秒表。后来,斯特鲁普任务才进入注意、自动化、冲突监控和认知控制研究。MacLeod 1991 年的综述把半个多世纪的斯特鲁普研究作为一个庞大文献来整理,PubMed 将其标注为关于注意、颜色知觉、辨别学习、阅读和语义的综述。3 Cohen、Dunbar 和 McClelland 1990 年则用并行分布加工模型讨论自动化,提出自动过程不是全有全无,而是随训练逐渐形成,也会受到注意控制影响。4
边界:别把斯特鲁普效应说成万能的「专注力测试」
第一,原始实验的被试主要是大学生,任务是英语颜色词的连续口头反应。把它直接外推到所有年龄、所有语言、所有真实工作场景,都需要额外证据。1
第二,原始计时靠秒表,指标是整张表的总耗时,不是今天常见的毫秒级单试次反应时。它适合证明大效应,却不适合精细分辨每一步加工发生在知觉、语义、反应选择还是发声阶段。
第三,斯特鲁普任务经常被用来谈「执行控制」,但原始实验并没有把控制定位到某个脑区,也没有把慢反应等同于某种临床缺陷。把一个人做这类任务的表现直接解释成「意志力差」或「大脑前额叶不行」,证据链太短。
对创作和学习的启发:控制不是把自动反应消灭
这篇实验对创作有一个很实用的提醒:很多干扰来自训练得太好的反应,而不是来自「不够努力」。写作时第一时间跳出的熟词、惯用句、套路结构,就像冲突颜色词里的词义。它们不是错误,甚至常常很有效;问题是当任务要求你说「墨水颜色」时,它们仍会先出来。
所以,更可行的办法不是幻想彻底清空自动反应,而是改变任务环境:把草稿和修改分开,先允许熟练通道快速产出,再用第二轮检查去问「我现在是在读字,还是在说颜色」。Stroop 的第三个实验也支持这种克制的说法:练习能让人在冲突任务里更快,但旧习惯不会凭空消失。1
这也是斯特鲁普实验留到今天的价值。它没有给出一个宏大的脑科学故事,只是用一张设计严密的词卡说明:自动化会节省认知资源,也会在错误的任务里抢答。

Add more perspectives or context around this Post.