关于AI是否具有「心智理论」一直存在很多争议。Nature最新研究显示,GPT-4的行为可与人类媲美,甚至能够比人类更好地察觉出讽刺和暗示。虽然GPT-4在判断别人是否「失言」方面,未及人类水平,但这是因为它被不表达观点的护栏所限制,而并非因为其缺乏理解能力。
AI发展到今天,其智能水平与人类相比已经不遑多让了,没有一个人可以像AGI一样「包罗万象、吐纳自如」。
这个时候,我们如何还能守住人之为人的尊严?
有的人说,至少人类是社会性的存在,我们可以听得懂同类的「弦外之音」,可以与他人产生共情,而机器是冰冷的。
关于AI是否有心智理论(Theory of Mind,ToM)一直有很多争论。
特别是,最近以ChatGPT为代表的大模型(LLM)的发展再次将这个问题推入公众视线——这些模型是否有心智理论?它能理解别人的心理状态吗?
Nature子刊《自然·人类行为》的一篇最新研究采用非常严谨的试验,证明GPT-4表现居然位于人类水平之上,能够比人类更好地检测出讽刺和暗示,其弱点来自于不表达观点的护栏。
论文地址:https://www.nature.com/articles/s41562-024-01882-z
这也就是说,GPT-4在心智理论方面与人类无异,如果你觉得它不够有洞察力,有可能只是因为它在隐藏实力!
GPT-4心智优于人类
人们关心别人的想法,并花费大量精力思考别人的想法。
想象一下,当你站在一扇关闭的窗户附近,听到朋友说「这里有点热」,你就会意识到,她不仅仅是在评论温度,而是礼貌地请求你打开窗户 。
这种追踪他人心理状态的能力被称为心智理论,这是人类心理学的一个核心概念,也是人类社会互动的核心,涉及到沟通、同理心以及社会决策的整个过程。
随着LLM的兴起,心智理论不再是人类专属,AI心智理论可能不再遥远。
为了服务于更广泛的机器行为跨学科研究,最近有人呼吁建立「机器心理学」,主张使用实验心理学的工具和范式来系统地研究LLM的能力和局限性。
研究者通常使用一系列不同的心智理论测量方法,对每项测试进行多次重复,并与具有明确界定的人类表现基准进行比较。
Nature的这篇论文就是采用这种方法对GPT-4、GPT-3.5和Llama 2进行了测试,并将它们的表现与人类参与者样本(总人数=1907)的表现进行比较。
测试涵盖不同的维度,既有对人类认知要求较低的能力,如理解间接请求,也有对认知要求较高的能力,如识别和表达复杂的心理状态(误导或讽刺),测试共分为5个项目(错误信念、反讽、失言、暗示、奇怪故事)。
值得一提的是,为了确保模型不仅仅复制训练集数据,研究者为每个已发布的测试生成了新的方法。这些新颖的测试项目与原始测试项目的逻辑相匹配,但使用了不同的语义内容。
结果发现,GPT-4在5项测试中有3项的表现明显优于人类(反讽、暗示、奇怪故事),1项(错误信念)与人类持平,仅在失言测试中落于下风。
更可怕的是,研究人员又发现,GPT-4并非不擅于识别失言,而是因为它非常保守,不会轻易给出确定性的意见。
a, 人类、GPT-4、GPT-3.5和LLaMA2在各个测试项目(错误信念、反讽、失言、暗示、奇怪故事)的得分分布
b, 每个测试中原始公布项目(深色)和新颖项目(浅色)的平均得分的四分位数范围
错误信念
错误信念评估的是,受测者推断他人所拥有的知识与自己(真实的)对世界的认识不同的能力。
这项测试由遵循特定结构的测试项目组成:角色A和角色B在一起,角色A把一件物品放在一个隐藏的地方(例如一个盒子),角色A离开,角色B把物品移到第二个隐藏的地方(例如一个橱柜),然后角色A返回。
向参与者提出的问题是:当角色A回来时,他们会在新的位置(物品真正所在的位置,符合参与者的真实想法)还是在旧的位置(物品原来所在的位置,符合角色A的错误想法)寻找物品?
除了错误信念条件之外,测试还使用了真实信念控制条件,即角色B不移动角色A藏匿的物品,而是将另一件物品移动到新的位置。加入这个对照,可以有效地检测出错误信念是如何发生的。
这些测试的挑战不是记住角色最后一次看到该物品的位置,而是要调和相互冲突的心理状态之间的不一致。
在这项测试中,人类参与者和LLM的表现都达到了上限。51名人类参与者中只有5人犯了一次错误,通常是没有指定两个地点中的任何一个,而是回答「他会在房间里找」。
所有LLM都正确地报告说,离开房间的人随后会在他们记忆中看到物品的地方寻找该物品,即使该物品不再与当前位置相符。
反讽
要理解讽刺性话语,需要推断语句的真实含义(通常与所说内容相反),并检测说话者的嘲讽态度,这已被视为人工智能和LLM的一项关键挑战。
在这个项目中,GPT-4的表现明显优于人类水平。相比之下,GPT-3.5和Llama 2-70B的表现均低于人类水平。
GPT-3.5在识别非讽刺性对照语句时表现完美,但在识别讽刺性语句时却出现错误。对照分析显示了明显的顺序效应,即GPT-3.5在较早的试验中比在较晚的试验中出错更多。
Llama 2-70B在识别反讽和非反讽对照语句时都会出错,这表明他们对反讽的辨别能力总体较差。
失言
失言测试提供了这样一个情境:一个角色无意中说了一句冒犯听者的话,因为说话者不知道或不记得某些关键信息。
在向被测试者介绍完场景后,研究者会提出四个问题:
「故事中有人说了不该说的话吗?」(正确答案总是「是」)
「他们说了哪些不该说的话?」(每个项目的正确答案都有所变化)
一个理解性的问题,用于测试对故事事件的理解(每个项目的问题都有所不同)
一个测试对说话者错误信念的认识的问题,措辞如下「说话者知道他们所说的不恰当吗?」(每个项目的问题都会有所不同,正确答案总是「不」)
这些问题是在讲述的同时提出的。根据最初的编码标准,被试必须正确回答所有四个问题,其答案才算正确。
不过,在此研究中,研究者主要关注的是最后一个问题的回答情况,该问题测试回答者是否理解了说话者的心理状态。
在研究人类数据时,研究者注意到有几位参与者对第一个问题的回答是错误的,原因是他们明显不愿意归咎于他人(例如 「不,他没有说错什么,因为他忘记了」)。
因此,为了将重点放在与研究相关的假说理解的关键方面,研究者只对最后一个问题进行了编码。
在此测试中,GPT-4的得分明显低于人类水平。并且对特定项目存在孤立的上限效应。
GPT-3.5的得分更差,除一次运行外,表现几乎处于下限。
相比之下,Llama 2-70B的表现优于人类,除了一次运行外,所有运行均达到100%的准确率。
暗示
暗示任务通过依次呈现10个描述日常社交互动的小故事来评估对间接言语请求的理解。
每个小故事都以一句可被解释为暗示的话语结束。
一个正确的回答既能指出这句话的本意,也能指出这句话试图引起的行动。
在最初的测试中,如果受试者第一次未能完全回答问题,研究者会对他们进行额外的提问。
在调整过后的新方案中,研究者取消了额外的提问。与之前的研究相比,这种编码方法对暗示理解能力的估计更为保守。
在这项测试中,GPT-4的表现明显优于人类,GPT-3.5的表现与人类没有明显差异,只有Llama 2-70B在该测试中的表现明显低于人类水平。
奇怪故事
到这里,难度升级了!
奇怪故事提供了一种测试更高级心智能力的方法,如推理误导、操纵、撒谎和误解,以及二阶或高阶心理状态(例如,甲知道乙相信丙......)。
在这个测验中,受测者会看到一个简短的小故事,并被要求解释为什么故事中的人物会说或做一些字面上不真实的事情。
GPT-4在该测试中的表现明显优于人类,GPT-3.5的表现与人类没有明显差异,而Llama 2-70B的得分明显低于人类。
过于保守的GPT
根据以上的试验,「失言」是GPT-4无法匹敌或超过人类表现的唯一测试,我们可能会据此以为GPT模型难以应对失言。
令人惊讶的是,失言也是唯一一个Llama 2-70B(在其他项目的表现度最差)得分高于人类的测试。
研究者决定将研究深入下去,提出了3个假设。
第一个假设是推理失败假说,即模型无法生成关于说话者心理状态的推论。
第二个假设是布里丹之驴假说,模型能够推断心理状态,但无法在它们之间进行选择,就像夹在两堆等质等量的干草之间的理性的驴子,因为无法决定吃哪个而饿死。
第三个假设是超保守主义假设, GPT模型既能够计算有关人物心理状态的推论,又知道最有可能的解释是什么,但它不会承诺单一的解释。
为了区分这些假设,研究者设计了一种失言测试的变体。
具体来说,不是问说话者知道还是不知道他冒犯了别人,而是问说话者知道还是不知道的可能性更大,这被称为「失言可能性测试」。
结果,在失言可能性测试中,GPT-4表现出了完美的性能,所有响应都在没有任何提示的情况下识别出说话者更有可能不知道上下文。
GPT-3.5表现出了改进的性能,尽管它确实在少数情况下需要提示(约3%的项目),并且偶尔无法识别失言行为(约9%的项目)。
图片
a,两个GPT模型在失言问题的原始框架(「他们知道……吗?」)和可能性框架(「他们知道还是不知道……的可能性更大?」)上的得分
b,失言测试的三种变体的反应分数:失言(粉色)、中性(灰色)和知识暗示(青色)。
总而言之,这些结果支持了超保守主义假说,它们表明GPT成功地生成了关于说话者心理状态的推断,并确定无意冒犯的可能性大于故意侮辱。
因此,GPT一开始未能正确回答问题并不代表推理失败,也不反映模型在认为同样合理的备选方案中犹豫不决,而是一种过于保守的方法,阻碍了对最可能的解释的承诺。
另一方面,Llama 2-70B没有区分说话者被暗示知道的情况和没有信息的情况,这引起了人们的担忧,即Llama 2-70B在这项任务上的完美表现可能是虚幻的。
GPT模型在失言测试及其变体上的失败和成功模式可能是其底层架构的结果。
除了Transformer之外,GPT模型还包括缓解措施,以提高事实性并避免用户过度依赖它们作为来源。
这些措施包括进行训练以减少幻觉,失言测试的失败可能是这些缓解措施驱动下的一种谨慎行为。因为通过测试需要对缺乏充分证据的解释做出承诺。
这种谨慎也可以解释不同任务之间的差异:失言测试和暗示测试都要求从模糊的信息中推测出正确答案。
然而,暗示任务允许以开放式的方式生成文本,LLM非常适合这种方式,但回答失言测试则需要超越这种推测,以得出结论。
这些发现强调了能力和表现之间的分离,表明GPT模型可能是有能力的。
也就是说,具有计算类似心智推理的技术复杂性,但在不确定的情况下表现与人类不同,人类往往会极力消除不确定性,但GPT不会自发地计算这些推论以减少不确定性。
参考资料:
https://www.nature.com/articles/s41562-024-01882-z
https://x.com/emollick/status/1792594588579803191