理解学术界的过度自信现象美国华裔教授专家网 scholarsupdate.hi2net.com

理解学术界的过度自信现象

2024-07-16，阅读:420

胡星铭按：知识论和心理学最近几年比较注重对理智谦逊的研究，对于“独立思考”有很多反思（我的老师Nathan Ballantyne在这方面做了很多研究，他与Dunning等心理学家多有合作）。根据心理学家Sanchez 和 Dunning（2018）的研究，新手在初学时比较谦虚谨慎，但在取得一些进展和成功后，开始高估自己的能力，自信心会迅速膨胀，形成一个“泡沫”。比如，新手飞行员在积累一定飞行小时数后，反而比初学阶段更容易发生致命事故。医学院的研究生在临床挑战性病例中的诊断，比资深住院医生或有两年以上经验的医生更容易出现过度自信。这一研究（以及关于“专家过度自信”的研究）如果成立，有助于我们理解教育、科研和政治领域的各种现象。下面这篇文章详细介绍了Sanchez 和 Dunning的研究。

新手的过度自信

文/王琦石

“在某项技能或科学上，一个人不再是初学者而是大师的时候，正是在意识到自己将永远都是初学者的那一刻。”（按：这句话的原文是：“A man ceases to be a beginner in any given science and becomes a master in that science when he has learned that he is going to be a beginner all his life.” 出自哲学家柯林伍德的The New Leviathan一书。）

中国有句嘲讽人的古话：一瓶子不满，半瓶子咣当。我们都希望恰当地认识自己，同时也希望别人恰当地认识她们自己——当别人发表在我们看来错的离谱的观点却洋洋自得时，我们会很生气。

许多人听说过邓宁-克鲁格现象（Dunning-Kruger effect），也就是一个人在所知甚少的情况下却自视甚高（如下图“愚昧山峰”所示）。这种“过度自信”现象在“新手”中普遍存在，即，一个人对自己水平的认知高于自己实际的水平。

（知乎的这张图片对“大师”的描述并不很准确，因为Dunning and Kruger发现高水平表现者往往会低估自己的能力。）

对于一个人在一个领域的学习发展中的能力和自信的关系，一个传统观点是，能力四阶段模型：1. 意识不到自己没有能力：对某一领域几乎一无所知却意识不到这一点，即邓宁-克鲁格效应；2. 意识到自己没有能力：意识到了自己对某一领域缺乏了解；3. 意识到自己有能力：知道某一领域如何运作并通过自己的努力思考达成目标；4. 意识不到自己有能力：不需要有意识地思考，自然地达成目标。

一篇在2018年的论文认为这个模型是错误的——前两个阶段应该反过来，人们在初学阶段会很谨慎，而在略知一二时才会发生邓宁-克鲁格效应。本文将介绍这篇论文：Overconfidence Among Beginners: Is a Little Learning a Dangerous Thing? Sanchez & Dunning, 2018.

一、“初学者泡沫”假说

Sanchez & Dunning提出了“初学者泡沫”假说（The Beginner’s Bubble Hypothesis）：人们刚接触某项任务时会非常谨慎且很不自信，但她们很快就会变得过度自信——即初学者泡沫。然后她们进入“修正”阶段，在这个阶段自信水平稳定、能力继续提高。

Sanchez & Dunning认为，之所以出现初学者泡沫，是因为人们对少量样本的信念（belief in small numbers）过高，也就是对掌握的少量样本给予了过高权重，认为它们都是真实准确的，而忽略了其中实际上可能有很多“噪声”。人们过早地根据这些少量样本形成了一个理论并进行预测，即“过度理论化”。有很多经验事实符合初学者泡沫假说，例如：

飞行员中存在着一个“杀戮区”，飞行员在新手时通常表现很谨慎，坠毁率并不高。然而随着飞行时长提高，坠毁率却不断提高，直到在飞行时长达到800小时后才开始缓慢下降。在牙医、胃肠内镜检查中，受过中等培训的医生的错误率也要高于专家和新手。一种脊柱手术需要外科医生引导机器人设备进行手术，除了最初五次手术在监督下进行，之后这个外科医生需要独立手术。在最初的独立手术中，事故率并不高，而手术事故率最高点往往出现在第16-20次手术中。

二、实验验证

Sanchez & Dunning共设置了六个实验验证假说。

实验一：僵尸病毒

本实验的设定为末世，僵尸病毒爆发，参与者们必须临时作为医生诊断患者是否感染了某种僵尸病毒。参与者们需要进行超过60次诊断，并且会在每次诊断后收到诊断准确性的反馈。

参与者们知道：僵尸病毒共有两种：TS-19和MZD。患者要么患有TS-19，要么患有MZD，要么是健康的。一共有八种可能的症状，但哪怕患者是健康的，任何症状仍有25%可能在她身上存在。同时，哪怕患者没有表现出症状，她仍可能已经感染。患者档案中记录的症状并不相同，高度诊断性的症状也并不总是出现。参与者们不知道的是：八项症状中，有两项与TS-19是高度诊断性的，有两项与MZD是高度诊断性的，有两项与两种病毒都有诊断性，而有两项则是干扰项。这些症状与感染的概率是确定的，与患者档案的分配概率也是确定的。

结果：

与初学者泡沫假设一致，参与者的预测准确性呈线性进步，并且二次经验项并不显著，也就是说经验对学习没有显著的非线性影响。将对准确性和自信度的图像绘制在同一坐标系中，如下图左图所示。对于每次试验，在将准确性数据从二元格式转换为连续格式后，从上述立方模型中拟合的信心水平中减去线性模型中的拟合准确性值，得出了参与者的过度自信程度的指标，如下图右图所示。

这一实验初步验证了初学者泡沫假说的准确性，参与者最初的信心水平较低，而后迅速飙升，随着经验的增加趋于平稳，最后再次升高。

实验二：测谎仪

设定如下：两种测谎仪刚刚被发明出来，这两种机器对不同的谎言的标准（例如出汗）敏感，参与者们需要发现并证实这两种机器测谎标准分别是什么。实验二的分析方法与实验一相同，结果如下图所示。

这个实验通过改变实验背景和材料，复制了实验一的结果，从而验证了初学者泡沫模型的准确性。

实验三：彩票

第三个实验增加了激励机制，来让参与者对自己信心程度的自我报告更加诚实。参与者可以选择（a）自己的预测（b）彩票（彩票中奖概率与参与者对信心程度报告的概率一致）。如果选择（a），那么如果参与者预测正确，可以获得额外奖金；如果选择（b），那么如果中奖，参与者可以获得额外奖金。其他实验过程和分析方法与实验一、二一致，实验结果如下图所示。

这个实验强化了参与测试者的自我报告的准确性，并再次验证了初学者泡沫模型。

实验四：“过度理论化”（Theoretical Exuberance）假设

这个实验提出了一种机制，即“过度理论化”，希望作为内在的机制解释初学者泡沫。过度理论化指的是人们在接触某项任务早期，根据仅有的少量样本数据很快形成的理论，其目的在于更好或更快地达成目标。人们在形成理论时会十分自信，但却注意不到少量样本中包含的大量偶然内容，这导致理论往往是错误的，而非什么真正的知识或技能。

这一实验在实验一的基础上增加了如下内容：参与者需要在开始时和每诊断12个患者后回答总共16个关于他们对诊断僵尸病毒感染的理论的问题，即对8个症状是否能诊断、诊断何种病毒进行回答。并且参与者需要给对自己回答的自信程度从1-5进行打分。自信分上限是40，这可以反应参与者的理论构筑程度。通过分析发现：

理论构筑的时间段主要集中在开始阶段，如下图。

实验四很大程度上复制了此前实验的结果，通过对信心程度的立方分析进行中介效应分析，得到结论：准确度、信心度、过度自信程度与实验一结果的趋势一致，同时“理论构筑”起到部分中介作用报告值为0.50；并且对“理论构筑”的提问导致的参与者对自身理论的思考减少了信心程度。

实验五、六：金融知识

这个实验通过对两组各25000名美国参与者进行提问，考察她们的金融知识（如怎样理解通货膨胀、投资多元化等基础金融概念）并要求参与者对自己的金融知识进行打分。此前的实验内容为概率学习，金融知识的学习尽管并不完全如此，但涉及多方面，很适合作为探索个人成长的知识的例子。

这个试验考察了年龄、收入、教育、性别和金融素养的关系，通过线性趋势发现年龄与金融素养的关系显著，教育和收入与金融素养呈正相关，次方和立方趋势不显著，表明性别与金融素养的关系不显著。

这两个实验再现了前面实验室里面的结论，验证了初学者泡沫模型适用于现实中长期的学习发展过程。在初期，自信心的增长速度会超过能力的增长速度，在漫长的经验积累后能力才会赶上自信。

三、结论

总体而言，Sanchez & Dunning发现，新手在最开始并没有表现出过度自信，而是在积累了少量经验后出现了邓宁-克鲁格效应，即意识不到自己的表现多么糟。Sanchez & Dunning认为，人们迅速形成的理论导致了自信心远高于准确度，甚至在实验的最后人们仍然保持着过度自信，在僵尸病毒实验中，人们的准确度最后也只提高到46%。

需要注意的是，初学者泡沫的结论与一项研究明显矛盾，即UWP效应（实践中的不自信，the underconfidence with practice effect）。UWP效应发生在一项记忆研究中，该研究让参与者记忆一些成对的单词，并在之后给出一个单词要求参与者回忆与之配对的词。在第一轮，参与者的信心水平与回忆准确率匹配得很好，然而在第二轮，参与者的回忆表现提高，信心水平却没有提高，也就是参与者表现出了明显的不自信。

对于这一矛盾，Sanchez & Dunning认为，有两种可能解释初学者泡沫和UWP兼容：1. UWP中，人们面对的任务是记忆，参与者们对这个任务很熟悉，而在Sanchez & Dunning的研究中，人们面对的是新颖的任务，僵尸病毒和测评测谎仪。参与者对任务的熟悉程度的差别可能导致她们对自己水平的认知存在差异。2. 在UMP和Sanchez & Dunning的研究中，尽管参与者似乎都在修正自己某项技能的理论（记忆和诊断），但显然，在后者Sanchez & Dunning的研究中，参与者在有意识地形成理论并进行预测，而前者是无意识的。换言之，Sanchez & Dunning认为初学者泡沫的成因是“过度理论化”，而在UMP中则没有这个过程。

索伦·克尔凯郭尔（丹麦心理学家）说，虽然人生只能从前向后去过，但只能从后向前去理解。新手往往拥有最多的时间，却往往最缺乏决策的准备。新手在经过初期探索后，仅凭一点经验就膨胀出巨大的自信泡沫，而在之后的不断学习中才可能会逐渐扁平、缩小。

笔者认为，尽管过度自信是不好的（因为它会导致糟糕的结果），而“过度理论化”导致了过度自信（尽管Sanchez & Dunning不能充要地证明这一点），但这并不意味着我们要放弃试图形成自己的理论进行预测。人类的科学进程本就是后验概率式的，不断根据新的证据修正已有理论的过程。在这个学习、发展的过程中，需要保持的是谦虚的心态。牛顿定律的提出、相对论的发现都没有带来毁灭，而是人把自己当作掌控一切的神、膨胀的自信带来了毁灭。

*注意：

1. “初学者泡沫”假说只预测初学者的水平与信心之间的关系，而不预测专家的水平与信心之间的关系。一些研究表明，随着专家水平的提高，可能同样会出现过度自信的现象。

2. 这个假说只适用于学习水平成“线性”提高的过程，而有些任务的学习并不是线性的——有些可能很简单，有些可能只需要“灵光一现”。但是，在这些“非线性”的任务中，人们仍然可能会过度自信，一些研究表明，“仅仅是接触到信息，人们就感觉增加了知识”，即使只接触了错误的或不相关的信息，人们同样可能会更自信。

3. 在这项研究中，参与者在每次预测后都会收到预测结果的反馈，而在现实中，人们往往不会收到反馈或者收到错误的反馈，更糟糕的是，一些研究说明了，人们更倾向于选择自认为更擅长的领域，更乐于接受自己更信任的人的反馈，这些都可能助长过度自信的现象。

关于我们