斯特鲁普实验：为什么你会忍不住读字，而不是说颜色 (2026)

开口读「红」这个字时，反应很顺；可如果这个字是蓝色墨水印出来的，任务又改成「说出墨水颜色」，大多数人会明显慢下来。1935 年，J. Ridley Stroop 把这个日常小冲突做成了一个可计时、可对照、可重复的实验：同一个符号同时给出两个线索，一个是词义，一个是颜色，而被试只能按其中一个线索反应。1

论文先放在桌面上

项目	信息
核心论文	J. Ridley Stroop, Studies of Interference in Serial Verbal Reactions，最初发表于 Journal of Experimental Psychology 18 卷，页码 643-662。1
DOI	10.1037/h0054651。2
实验对象	实验一使用 70 名大学本科生；实验二使用 100 名学生；实验三使用大学生做连续练习，原文还报告了光照、顺序平衡、错误校正和色觉筛查。1
研究问题	如果一个颜色词和它的墨水颜色冲突，颜色会不会干扰读词？反过来，词义会不会干扰说颜色？1

这篇论文今天看起来简单，原因恰好在于它把问题切得很干净。Stroop 没有先问「注意力是什么」这种大问题，而是问一个能被秒表测量的问题：两种长期训练强度不同的反应习惯同时出现时，哪一个更容易抢到行为出口。

背景：读词为什么比命名颜色快

Stroop 的引言不是从颜色字卡突然开始的。他先回顾了 19 世纪末到 20 世纪初关于「干扰」和「抑制」的实验：改换卡片分类规则、重学无意义音节、让动物改走相反路线，这些研究都在问旧习惯如何妨碍新反应。1

更近的前置问题是：为什么读颜色词通常快于命名颜色本身？Stroop 在论文中列出当时几种解释，包括练习量差异、颜色命名时多个名字互相竞争、颜色和词的联结方式不同等说法。1 他真正的推进是把「词」和「颜色」塞进同一个刺激，让它们在同一时刻争夺反应，而不是分开比较两类材料的平均速度。

材料控制：冲突不是随便印几张彩色词卡

Stroop 使用五种颜色：red、blue、green、brown、purple。黑色和黄色被排除，黑色不能作为彩色墨水的对照刺激，黄色在印刷强度上也难与其他颜色匹配。每个词都不会用它所命名的颜色印刷；例如 red 会分别用 blue、green、brown、purple 墨水印出，而且各种组合出现次数均衡。1

这几个细节很关键。第一，任何一个具体颜色或具体词都不能靠出现频率「占便宜」。第二，同一个词和同一种颜色不会在行列中立刻重复，避免被试靠节奏猜下一个反应。第三，测试有正序和反序版本，任务顺序也做了平衡，尽量减少练习和疲劳把结果推向某一边。1

论文里四个缩写容易混：RCNb 是读黑色印刷的颜色词；RCNd 是读「词义与墨水颜色不一致」的颜色词；NC 是给色块命名；NCWd 是忽略词义，只说出冲突颜色词的墨水颜色。1 后来人们常说的「斯特鲁普任务」，主要指 NCWd 这一种最难的情况。

实验一：颜色几乎干扰不了读词

实验一测的是颜色对读词的干扰。70 名大学本科生要读两类材料：一类是黑色印刷的颜色词，另一类是用不一致彩色墨水印刷的颜色词。每名被试两种材料都读，顺序做了平衡，正式测试前先读 10 个样本词，随后按「Ready! Go!」开始，实验者用秒表计时到五分之一秒。1

结果很小：读 100 个冲突颜色词，比读 100 个黑色颜色词平均只慢 2.3 秒，约增加 5.6%，原文判断这个差异不可靠。1 换句话说，当任务是「读字」时，墨水颜色虽然摆在眼前，却很难把已经熟练的读词反应拖慢。

实验二：词义会猛烈干扰说颜色

实验二把方向反过来。被试不再读词，而是说出颜色。对照条件 NC 是给实心色块命名；冲突条件 NCWd 是看到一个颜色词，却必须忽略词义，说出它的墨水颜色。实验二有 100 名学生，任务顺序同样平衡，错误没有完全丢掉：未纠正错误会按规则折算进耗时，以免被试靠漏报换取速度。1

这一次差异大得多。给 100 个普通色块命名平均要 63.3 秒；给 100 个冲突颜色词说墨水颜色平均要 110.3 秒。增加的 47.0 秒，相当于普通颜色命名耗时的 74.3%。原文还报告，中位数分别是 61.9 秒和 110.4 秒，说明不是少数极慢个体把平均数拉高。1

这里的核心不是「人会犯错」，而是「即使知道任务要求，人也会被更熟练的通道拉走」。读词是多年训练出来的强联结；颜色命名也会做，但通常没有同样稳定、同样单一的反应路径。Stroop 的解释很朴素：词刺激长期和「读出它」绑定，颜色刺激则可能和欣赏、选择、回避、命名等多种反应相关，所以在冲突时，词义更容易抢先冒出来。1

实验三：练习能降低干扰，但不会抹掉旧习惯

第三个实验问的是练习能不能改变这种不对称。被试连续练习 NCWd，也就是不断在冲突颜色词上说墨水颜色。Stroop 报告，8 天练习、每天 200 次反应，会降低 NCWd 的干扰，但没有消除它；练习还会让个体差异变大，并且反过来增加颜色对读词的干扰。1

这个结果比「练习有用」更细。新任务确实能被训练，颜色命名在冲突环境中会变快；但旧的读词习惯没有被删除，只是在特定任务设置下被压住。Stroop 还观察到，重新让被试练习读冲突词时，新发展出的反向干扰下降很快。1 这说明实验测到的不是一个固定人格特质，而是任务、练习史和当前控制要求的共同结果。

这个实验真正证明了什么

Stroop 的数据支持一个有限但结实的结论：当一个刺激同时激活两个反应，而其中一个反应经过长期训练、更自动化时，较弱反应会被拖慢。更准确地说，读词对颜色命名的干扰远强于颜色对读词的干扰。1

它没有直接证明大脑里哪块区域在工作。1935 年的论文没有脑成像，也没有神经记录，只有纸张、印刷、被试出声反应和秒表。后来，斯特鲁普任务才进入注意、自动化、冲突监控和认知控制研究。MacLeod 1991 年的综述把半个多世纪的斯特鲁普研究作为一个庞大文献来整理，PubMed 将其标注为关于注意、颜色知觉、辨别学习、阅读和语义的综述。3 Cohen、Dunbar 和 McClelland 1990 年则用并行分布加工模型讨论自动化，提出自动过程不是全有全无，而是随训练逐渐形成，也会受到注意控制影响。4

边界：别把斯特鲁普效应说成万能的「专注力测试」

第一，原始实验的被试主要是大学生，任务是英语颜色词的连续口头反应。把它直接外推到所有年龄、所有语言、所有真实工作场景，都需要额外证据。1

第二，原始计时靠秒表，指标是整张表的总耗时，不是今天常见的毫秒级单试次反应时。它适合证明大效应，却不适合精细分辨每一步加工发生在知觉、语义、反应选择还是发声阶段。

第三，斯特鲁普任务经常被用来谈「执行控制」，但原始实验并没有把控制定位到某个脑区，也没有把慢反应等同于某种临床缺陷。把一个人做这类任务的表现直接解释成「意志力差」或「大脑前额叶不行」，证据链太短。

对创作和学习的启发：控制不是把自动反应消灭

这篇实验对创作有一个很实用的提醒：很多干扰来自训练得太好的反应，而不是来自「不够努力」。写作时第一时间跳出的熟词、惯用句、套路结构，就像冲突颜色词里的词义。它们不是错误，甚至常常很有效；问题是当任务要求你说「墨水颜色」时，它们仍会先出来。

所以，更可行的办法不是幻想彻底清空自动反应，而是改变任务环境：把草稿和修改分开，先允许熟练通道快速产出，再用第二轮检查去问「我现在是在读字，还是在说颜色」。Stroop 的第三个实验也支持这种克制的说法：练习能让人在冲突任务里更快，但旧习惯不会凭空消失。1

这也是斯特鲁普实验留到今天的价值。它没有给出一个宏大的脑科学故事，只是用一张设计严密的词卡说明：自动化会节省认知资源，也会在错误的任务里抢答。

斯特鲁普实验：为什么你会忍不住读字，而不是说颜色