Meta与牛津大学联手推出 Decrypto 基准,重塑多智能体心智推理的范式
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
在大语言模型不断向“智能体”范式演化的今天,一个亟待解决却始终游离于主流视野之外的问题逐渐浮出水面:当多个智能体并肩作战,甚至互为对手时,它们是否真正理解彼此的“思维”?换句话说,人工智能能否像人类一样,具备“心智理论”(TheoryofMind,简称ToM)——推测他人信念、意图与知识状态的能力?这是实现人与机器无缝协作、模型与模型之间高效配合的关键。而回答这一问题,我们或许正需要一个真正“对话型”的测试平台,而不仅仅是一组静态题库。
MetaFAIR与牛津大学联手推出的Decrypto基准,由此应运而生。
为什么ToM如此关键?
随着语言模型被逐步赋予更复杂的代理行为,它们不再只是执行命令的静默程序,而是被用于网页导航、协同编程、团队推理乃至博弈环境。这些任务几乎天然具备“多智能体性”:要么需要LLM理解用户意图,要么需要它与其他模型或人类高效互动。
而在多智能体环境中,任务的本质往往是非完全可观测、充满不确定性的。这时,是否能模拟其他智能体的“心智状态”——他们知道什么?他们相信什么?他们会如何解读我说的话?——就成为智能体成功的分水岭。
过去的研究表明,一些语言模型看似具备ToM的萌芽能力,但这些结论通常建立在对“Sally-Anne”类型问题的解答上,这类任务局限明显,远不能涵盖真实世界中人与人、人与机器之间的高维语境互动。
现有评估为何不够?
目前主流的ToM测评,大多存在以下几个问题。
缺乏交互性:几乎所有任务都是单轮问答,而非连续推理与博弈;
语境偏移严重:很多测试将具身实验(如儿童心理学中的盒子任务)直接文本化,忽略了真实交流中的语言策略;
表现趋于饱和:简单任务已无法区分模型间的能力差异,甚至部分低配基线也能拿到高分;
覆盖面狭窄:ToM维度众多(虚假信念、视角转换、归因推理等),现有测试往往只关注其中之一。
正因为如此,Decrypto的提出不只是一个新benchmark,而是一次对多智能体语用推理研究范式的革新。
Decrypto有何特别之处?
与其说Decrypto是一个基准测试,不如说它是一场“语言博弈实验”的平台。它基于现实中一款广受欢迎的桌游《Decrypto》重构,构建了一个最简但极具挑战性的三人局面:
模型必须在给“自己人”留下足够线索和不暴露给“敌人”过多信息之间找到语言的“模糊区间”,这正是现实中语用推理的精髓所在。更重要的是,Decrypto通过语义关联而非逻辑约束,彻底剥离了传统benchmark中的数学、符号、tokenization等干扰因素,专注测试模型的语言理解能力与心智建模策略。
此外,研究团队还引入了两个经典心理学实验的变体(Smarties任务与三山问题),验证模型在代表性转变、虚假信念识别与视角转换等方面的能力。这种跨学科设计让Decrypto成为首个真正将认知心理实验与语言AI评估相结合的平台。
这项工作由一个跨足学术与产业、理论与实践的黄金组合完成。
AndreiLupu、TimonWilli与JakobFoerster分别在FAIR(Meta的人工智能研究院)与牛津大学拥有双重身份;
FAIR作为业界顶尖的AI研究机构,在多智能体学习与语言推理领域积淀深厚;
JakobFoerster教授本身就是多智能体强化学习领域的领军人物;
牛津大学的理论支持与MetaFAIR的工程落地能力,共同铸造了Decrypto这一“认知科学+博弈建模+LLM能力评估”的新范式。
这个组合让Decrypto不仅成为一个创新性的AI测评工具,也成为链接认知科学、语言哲学与AI工程之间桥梁的大胆尝试。
论文链接:https ://arxiv. org/pdf/2506. 20664
项目地址:https ://github. com/facebookresearch/decrypto/
01
Decrypto游戏机制
在Decrypto中,语言不只是交流的工具,而是策略的武器。这款源自现实桌游的博弈机制,被巧妙地重构为一个多智能体互动平台,让语言模型在“说什么”和“怎么说”之间展开一场心智与策略的角逐。
图1左:Decrypto的一个回合概览,分为三个步骤,Alice和Bob(编码器和解码器)与Eve(拦截器)对决。第一步:Alice得到一个由3个不重复数字组成的随机码,并提供3个提示,指向四个关键字的含义。第二步:Bob和Eve收到提示并尝试独立猜测代码。步骤3:猜测和代码都会公开,代码和提示历史也会更新。
多智能体角色设定:Alice、Bob与Eve
整个游戏被设计为三方角力的局面。
Alice是加密者,她掌握一组秘密关键词和一串三位数字密码。她的任务是提供线索,帮助队友猜中密码。
Bob是解码者,他与Alice属于同一阵营,只能看到线索,不能看到关键词,需要从提示中推理出密码。
Eve则是拦截者,她是对手阵营的一员,试图从公开的提示中破译密码,干扰Alice和Bob的交流。
Alice和Bob协作传递信息,Eve处于监听状态,三个角色间的信息不对称构成了语言推理的张力核心。
游戏回合是如何运作的?
每一局最多持续8回合,而每回合的流程精妙而紧凑,充分释放语言模型的推理潜力。
私密关键词与三位密码
游戏伊始,Alice与Bob共享四个不重复的关键词,例如[star,jazz,thunder,plane]。这些词对Eve是保密的。
随后,每一回合,Alice随机接收到一个三位数字代码(例如[2-3-4]),数字范围在1到4之间,对应的是关键词的索引。
提示词的生成与公开
这是博弈的高潮。Alice必须基于她手中的关键词以及代码,对每一位数字生成一个提示词,组成三条公开线索。比如如果代码是[2-3-4],她可能会写下[bass,Zeus,takeoff]。
提示词必须与关键词在语义上有关联;避免直接暴露关键词;不能依赖拼写、发音等形式特征。
这是一场精密的平衡艺术:提示必须让Bob有望猜出密码,但又不能让Eve太容易破解。
解码与拦截决策
Bob和Eve分别依据提示词独立进行猜测,尝试还原出Alice的三位数字代码。Bob若失败,即构成“误传”;Eve若成功,即被认为“拦截”成功。
结果公开与历史积累
最终,实际密码与双方的猜测全部公开,并记录到历史中。重要的是,提示历史会在接下来的回合继续被参考,这意味着Eve会借助历史信息逐渐建立关键词提示的语义关联;Alice越往后越难给出“既熟悉又陌生”的提示。
每一回合不仅是一个推理挑战,也是一次语用策略的演化过程。
游戏的胜负如何判定?
这是一个典型的“风险控制型博弈”:
这意味着,Alice若出“太聪明”的提示让Bob不懂,或“太直白”让Eve破解成功,都会导致失败。
从语用学到博弈学:RSA框架下的语言推理
表面上看,Decrypto是语言推理游戏,实质上却是一种语用博弈。作者用RationalSpeechAct(RSA)模型来形式化解释这种策略行为。
在这一框架下,Alice被视为理性的发言者,会基于对Bob和Eve知识状态的建模,去选择最优提示;Bob是理性的听众,不仅要理解提示的表层含义,还要推测Alice是基于怎样的考虑做出这些表达;更妙的是,Bob最终甚至要进行二阶心智建模——“Alice如何看待Eve对提示的理解能力”。
简而言之,Decrypto让语言模型不仅要“说得对”,更要“说得巧”。它要求模型从语义转向策略,从表层推理转向角色感知,在语用模糊地带寻找最优解。这样的机制,不仅贴近现实人际交流,也让AI的心智理论研究真正步入“可交互”的新纪元。
02
Decrypto基准设计
在语言模型不断扩张边界的当下,评估其“心智”和“社交策略”的能力,正成为全新挑战。Decrypto的设计理念并不复杂,却蕴藏着极为前瞻的评估哲学。它不是另一个堆砌文本理解题的基准,而是一座“为交互而生”的语言推理试验场。让我们一起揭开它精巧背后的四大关键设计思路。
去繁就简,一个“清洁”的推理测试台
Decrypto的第一大特色,就是它清晰地避开了大语言模型普遍挣扎的那些认知地雷。
传统benchmark往往要求模型进行复杂的符号计算、数学推理或空间想象,还可能受到token化策略、上下文冗长或提示工程的干扰。而Decrypto选择将这一切“降噪”:它不涉及计算、不要求使用工具、不需要理解几何空间,也不依赖视觉或状态跟踪。模型的表现,几乎纯粹取决于它对“词语之间语义关联”的理解能力与语用策略的构建能力。
这种“极简而纯粹”的测试环境,让我们能更加准确地观察模型在语义博弈与心智建模方面的真实能力,而不是它是否“擅长考试”。
告别记忆作弊:680个关键词×8. 8亿种组合
大语言模型有个“不公平优势”——它们经常在训练阶段“见过题”。Decrypto非常严肃地对待这个问题。它从680个关键词中不重复地挑选四个构成每局游戏的基础词汇,产生出超过8. 8亿种可能组合。每回合的密码由4个数字(1到4)中的3位数组成,进一步丰富了复杂度。
不仅如此,提示词的选择完全开放,可以根据关键词自由生成,意味着生成空间几乎无限。在这样高维的状态-行为空间下,即便是参数量最大的模型,也极难依靠训练记忆“蒙混过关”。
这使得Decrypto成为对模型真正泛化能力的试金石。
从词库到策略都可定制
Decrypto的可扩展性也堪称一绝。研究者不仅可以更换关键词池,引入不同领域、不同语义层级的概念,甚至可以为模型设计不同的角色人格(persona),探索文化、背景、语用风格对模型行为的影响。
提示策略的设计同样灵活。只需更改一两个prompt或几行代码,就能把Smarties任务、三山问题这类经典心理学实验注入游戏机制之中,实现动态评估。这种低代码、高灵活性的实验平台,为认知心理学与人工智能的融合打开了大门。
一场“合作×对抗”的双重测验
Decrypto不仅仅是测试模型能否“说得对”,它更关心模型能否“说得巧”。在Alice与Bob的协作中,考验的是模型是否能给予对方“刚刚好”的提示;在Eve的对抗下,检验的则是提示是否能隐藏得足够巧妙。这种平衡合作与防御的设定,极大接近人类实际的沟通与博弈场景。
更妙的是,研究者可以自由组合模型扮演不同角色,探索“模型A与模型B”是否能高效协作,或评估一个LLM是否擅长“偷听与破译”。这类交互评估机制,打破了一问一答的静态范式,让Decrypto成为真正意义上的“交互型benchmark”。
图2:单词嵌入基线中以错误通信结束的游戏百分比(左)和平均游戏长度(右)与K(每个关键字的提示词汇量)的函数关系。每条曲线对应一对(编码器、解码器)。对于低K,基线协调良好,但它们的提示更容易被拦截。在高K值下,两个模型都从相似性较低的单词中采样。这导致了非常强的自我游戏基线,在交叉游戏中无法协调,大多数游戏在K>128时以沟通不畅告终。虽然拦截器是Llama3. 1-70B,但趋势适用于所有拦截器,包括基线。报告了3个模型种子的平均值和标准误差。
03
多智能体推理评估
Decrypto的语言不再是单向的问答,而是一场交织着合作与对抗、策略与推理的多智能体心理博弈。而若想真正揭示语言模型在这一语用迷宫中的表现,就必须从模型间的“协作与对抗”说起。
模型间对抗:当语言模型成为敌手
在Decrypto的竞争环境中,一种典型设定是让两个模型组成编码/解码队伍(Alice与Bob),与另一个模型扮演的拦截者(Eve)对抗。这种模拟真实语言对抗场景的配置,完美展现了模型在语言隐喻、语境遮蔽和策略表达方面的真实功力。
拦截率与误解率是胜负风向标
实验结果表明,尽管诸如Llama-3. 1-70B等大型模型在模型间协作中具备一定优势,但他们在提示策略上仍显“直白”,拦截率居高不下。换言之,Eve通常更容易赢下比赛,因为Alice很难拿捏提示的模糊度,让Bob恰好明白、Eve恰好猜不出。
与此同时,解码者若对语义提示理解偏差,就会出现“误解”(Miscommunication),成为另一类失败指标。Decrypto的妙处在于,两个指标互为拉锯:提示太精确被拦截,太含糊又导致误解,如何在这两者之间维持动态平衡,是语言模型当前尚未掌握的艺术。
角色互换,体现评估公平性
为了避免策略偏向评估中的某一方,研究者采取了“角色互换”(teamswap)的方式,即让模型轮流扮演Alice/Bob与Eve,统计彼此在不同角色下的胜率与平均回合数。这种方法保障了评估的对称性,也让模型的通用博弈能力得以充分展现。
不过,实验指出一个有趣现象:即使是自我协作(self-play),模型间也很难展现出明显协同优势,表明LLM在语言上尚未具备强鲁棒的“自建语用模型”的能力。
即席协作,陌生模型间的“第一次搭档”
如果说对抗是考验模型的隐蔽语言策略,那么协作就是检验它们建立信任、共享语义假设的能力。
模型之间的“语义不对齐”
Decrypto中的即席协作(Ad-hocCoordination)场景,模拟的是Alice与Bob分别由两个从未联合训练过的模型扮演,它们能否通过彼此的提示策略“建立共同语言”?现实是残酷的:即使是能力强大的模型组合,依然频频出现误解。这种语义不对齐(semanticmisalignment),是当前LLM在开放协作环境中的主要瓶颈。
例如,GloVe-Alice使用的词语“火”(fire)可能在Word2Vec-Bob的世界里语义距离完全不同,最终导致对同一提示的误解。这不是模型能力的缺失,而是模型之间嵌入空间不一致导致的协作错位。
人机混合队伍:语言AI的“社交测试”
更具挑战性的是人机协作实验。在这些测试中,人类担任Alice或Bob,与LLM共同完成解码任务。结果清晰:人类搭档明显优于LLM解码者。即使是最强模型Claude3. 7,也无法准确读懂人类搭档的提示意图。
这说明,当前模型在理解自然语言的“社会语用层”方面尚有巨大差距。换句话说,它们可能能理解字面,但尚未真正“读懂人”。
三大核心指标:拨开胜负的面纱
要全面刻画模型表现,仅凭胜率远远不够。Decrypto提供了更精细的三类指标,帮助研究者对模型博弈策略进行结构化剖析。
误解次数(Miscommunications):衡量提示者与解码者之间“说不到一块”的次数,反映协作失效点。
拦截成功数(Intercepts):评估提示词是否暴露太多信息,让对手轻松猜出秘密密码。
平均回合数:游戏持续越久,代表模型越能在误解与暴露之间取得平衡。
这三个指标构成了“语言博弈的三角关系”:调整其一,往往牵动其余。一个优秀的语言模型,需要在三者之间找到最优解,这才是真正的“博弈智慧”。
04
心智理论(ToM)实验设计
研究者不仅评估模型的合作与对抗能力,更将目光聚焦到一个更具心理深度的目标:人工智能是否具备“心智理论”(TheoryofMind,ToM)?也就是说,一个模型是否能够推测他人的信念、知识状态、认知盲点,甚至犯下“高阶认知错误”。
心智理论三大能力维度:理解“认知”,远非理解“事实”
想要判断一个智能体是否拥有ToM,不能靠一个问题定生死,而应从多个维度系统观察。在Decrypto中,研究者将ToM拆解为三种核心能力。
代表性转变(RepresentationalChange,RC):模型是否意识到,获得新信息后自己的认知模型需要更新。比如说,当“真相”揭晓,它是否明白之前自己的猜测与现实冲突。
虚假信念(FalseBelief,FB):模型是否能模拟别人的错误认知。就像小朋友知道“另一个孩子看不到糖果已经被换成铅笔”,这个任务要求模型理解“他人并不拥有自己所知道的一切”。
视角转换(PerspectiveTaking,PT):模型是否能跳出“上帝视角”,仅基于某个角色可见的信息来做推理——特别是在Decrypto的Eve角色身上最为关键。
这三个维度共同构成了模型“理解他者”的能力地图,从自我认知,到他者建模,再到角色内推理,层层递进。
Smarties任务变体:经典实验“重制”上线
认知心理学中最著名的ToM实验之一,是“Smarties盒”任务:一个糖果盒子实际上装了铅笔,孩子必须判断另一个还未打开盒子的人会有什么误解。在Decrypto中,这一原理被巧妙转化。
实验以Eve为主角,在每轮解码前后,通过三个不同提示对其认知状态进行测量:
通过比较A与B,评估模型的认知更新能力(RC);通过A与C,则测量其建模他人错误认知的能力(FB)。
为了提高任务精度,研究者进一步设定了“弱指标”与“强指标”。
弱指标只要求模型察觉认知变动或他者误解;
强指标则要求模型在B/C提示中复现A中的回答,也就是展现出一个自洽的认知模型,这一点远比想象中更困难。
三山问题变体:Eve不知道你知道她不知道?
第二项实验源于皮亚杰的“三山问题”,是一项测试儿童是否能站在他人视角做空间判断的经典研究。
Decrypto中的重构思路是在Alice提供提示后,让她预测Eve会猜什么代码;比较Alice的预测与Eve的实际猜测,评估其视角建模能力(PT);特别关注Alice预估Eve成功拦截的频率:如果她“过度高估”,说明她无法理解Eve的信息盲区;反之如果“全面低估”,则忽视了Eve的语境感知能力。
一个有趣的观察是:许多大型模型(包括Claude、GPT-4o)在所有轮次中都预测Eve会成功拦截,即便是第一轮——这显示出它们严重依赖“上帝视角”,缺乏角色限定的语用建模能力。
实验表现:强模型,弱心智?
图示结果揭示了一个令人意外的趋势:在三项ToM子任务中,开源的Llama3. 1-70B在多个场景下反而超过了比它“更新”的高性能模型,如Claude3. 7和DeepSeek-R1。尤其是在代表性转变与虚假信念任务的“强指标”下,几乎所有模型的表现都跌至10%以下,这表明它们尚未形成稳定、自洽、可更新的认知模型。
视角转换任务中,多数模型倾向于“高估对手”,并不具备根据Eve所知信息调整自己提示策略的能力。这不仅是建模失败,更是“语用策略无法闭环”的表现:如果模型预测提示会被Eve破解,那它一开始就不该给出这个提示。
05
实验设置与模型对比
这套高度语用化的多智能体测试平台中,模型的表现不再是“生成正确答案”那么简单,而是体现在它们是否具备长期博弈、理解他人思维与适应不确定语言策略的能力。为了深入探索这一点,研究团队设计了一套细致、富有张力的实验设置,让不同类型、不同结构的模型在统一规则下展开一场精彩对决。
通用型vs专用型模型,你是全能通才,还是定制高手?
研究者首先划出了两个大类的选手。
通用型(Generalist)模型,指的是那些“开箱即用”的大语言模型,没有为Decrypto做过专门微调,也不借助精心设计的提示模板。它们的任务就是用自身训练积累的通识能力,直接面对这场语用博弈。这类模型考验的是零样本泛化能力,也就是它们对未见任务的适应力。
与之对照的是专用型(Specialist)模型,它们可能经过强化学习、提示链构建,甚至采用规则嵌入等方式,为Decrypto游戏定制了策略。这些模型看似有些“作弊”,但它们恰好代表了AI应用中“定制型方案”的真实生态。
为了防止对通用型模型的不公平比较,论文建议明确标注测试设定,并通过大量不同版本的提示实验,排除prompt工程带来的偶然性。
GloVe与Word2Vec:那些“老派”词向量的坚韧反击
在模型大战之外,研究者引入了一对朴素却耐打的基线:GloVe与Word2Vec,这两个早期词嵌入模型被用于构建规则化的Alice与Bob。
具体方法很简洁:Alice在给出提示时,从与目标关键词语义最接近的前K个词中挑选提示;Bob则根据自己嵌入模型的距离判断提示属于哪个关键词;Eve使用平均词向量来猜测提示组合,并试图复原代码。
你可能会觉得,这种策略哪能赢得了当今的大模型?但实验显示,在Alice与Bob使用相同嵌入空间并共享策略的前提下,这种规则系统的表现出奇地稳健,有时甚至能在协作效率上优于通用大模型。
不过问题也很现实:只要嵌入不一致——比如GloVe的提示用词在Word2Vec里排不上号——协作立即崩塌。这恰恰揭示了“共享语义空间”对于多智能体协作的关键意义。
人类也参战,Decrypto不止是模型的竞技场
除了模型对抗,研究团队还引入了罕见而宝贵的实验:人类参赛者数据采集。十组人类玩家通过命令行界面与模型扮演的Eve进行8轮完整博弈,生成了高质量的自然互动语料。
这些“打满回合”的对局不仅提升了测试数据多样性,还能作为固定语境进行模型重放实验。研究者替换Bob或Eve,让模型在原始人类提示下完成解码或拦截,验证它们是否能“读懂人类”。
结果呢?哪怕是Claude3. 7或DeepSeek-R1这样的“顶流模型”,在人类提示面前也显得有些“鸡同鸭讲”:误解率高、协调失败、预测不准。说明人类语用策略中仍有大量隐性逻辑,是当前LLM尚无法捕捉的。
谁是赢家?开源与闭源模型正面交锋
图3:6种不同代理的合作和竞争结果。“Llama”指的是《Llama3. 1指令》;“DS-R1-32B”是“DeepSeek-R1-Distill-Qwen-32B”。所有结果均为32款游戏和3款模型种子的结果。上图:拦截器为Llama3. 1-70B-指令时的合作交叉播放矩阵。左:以沟通不畅结束的游戏比例。正确的每集的平均转弯次数。在K=16时,基线相互配合良好,优于所有测试的LLM代理,但与LLM的协调较差。底部:同质编码器-解码器团队对抗拦截器的竞争结果。左:以拦截结束的游戏比例。右图:每集的平均转弯次数。
在模型阵容方面,本研究涵盖了多个重量级选手。
开源阵营:包括Llama3. 1的8B与70B版本,以及DeepSeek-R1-Distill-32B;
闭源代表:如GPT-4o与Claude3. 7(含“延伸推理”版本);
还包括一款专门在ToM数据上微调的ExploreToM-8B,旨在检验“训练能否带来心智进步”。
测试发现,单从对抗和协作胜率上看,Claude与GPT-4o表现尚可,但并非统治级别;在强ToM任务中,Llama3. 1-70B反而稳定胜出,表现出意外的“老将冷静”。
特别地,ExploreToM虽然在设计上针对心智推理,但实际表现却弱于原始模型。这一结果提醒我们:心智理论并非靠训练就能“注入”,它需要的是结构上的理解、角色推理的归纳与语用策略的统合。
06
实验结果解读
当我们将语言模型拉入这个以“隐喻与暗示”为武器的游戏棋盘上,Decrypto的实验结果揭示了一个令人既惊喜又警醒的现实:即使是当今最强的模型,在语用策略、信息控制和心智建模上,仍有诸多盲点。接下来,我们就从协作、对抗、人机交互和心智理论四大维度,带你一探这些模型在Decrypto中的真实表现。
合作之难,误会比失败更令人尴尬
在合作场景中,最直观的失败不是拦截,而是“误解”——即Bob无法正确还原Alice想传达的密码。研究者发现,很多强模型组合,在合作中“说不到一块去”的情况频繁发生。
Llama3. 1-8B就是其中的典型:作为解码者时,它的误解率居高不下,导致平均每局游戏只持续三回合就终止。而哪怕是Llama3. 1-70B或GPT-4o,与其他模型搭档时,依然未能突破协作误区。
背后的症结,是语义假设的不一致。模型在生成提示时并未意识到解码者的理解背景,从而制造了“你以为我知道你知道”的迷宫。这也说明当前语言模型在协作场景中,尚未建立一套共享的“语用协定”机制。
对抗之中,拦截者压倒性胜出
反过来看对抗场景,Eve的胜率却意外地高。“拦截”成了压垮协作的一记重拳。
在大多数模型对抗中,Eve的拦截成功率远高于Bob的猜对率,尤其是Claude3. 7和DeepSeek-R1在充当Eve时表现极为出色,拦截次数高、游戏迅速结束。最强的拦截者甚至能在平均6. 3个回合内终结一局。
相比之下,大模型在Alice位置的表现略显笨拙,往往给出过于“直白”的提示,成为Eve的收割场。这揭示了另一个问题:语言模型缺乏对“潜在监听者”的风险控制意识,也尚未掌握“信息歧义”的策略平衡。
模型还难以“读懂搭档”
最引人深思的部分,或许来自于人机混合测试。在十组人类提供提示的游戏中,研究者通过“换位实验”让不同模型尝试解读人类提示,或者拦截人类交流。
结果是:没有一个模型能超过人类自身的解码表现。
即使是GPT-4o和Claude3. 7这样的强者,在面对真实人类策略时,解码成功率不如预期,误解频频出现。说明人类的语用策略中包含了大量非结构化的文化联想、上下文意识和情感判断,这些仍然是当前大模型所缺乏的。
弱能力合格,强任务尽数落马
如果说语言协作揭示的是“语义能力”,那么心智理论测试暴露的就是“角色建模缺失”。
在Smarties和三山问题变体的三大ToM子任务中,研究者将指标划分为“弱”和“强”两类:在弱指标下(只需意识到自己或他人的认知有偏差),大多数模型表现尚可;一旦进入强指标测试(要求模型能一致性回顾自己或他人的错误信念),准确率立即跌破10%。
更令人惊讶的是,在视角转换任务中,Claude、GPT-4o等模型几乎每一轮都预测Eve会成功拦截,即使首轮Eve毫无信息。这表明它们无法从Eve的“信息盲区”出发进行推理,反而依赖于自己掌握的“上帝视角”做判断。
而其中唯一显示出更为谨慎认知建模的是Llama3. 1-70B——它不只在提示策略上更克制,在ToM各子任务中也略胜一筹,成为意外的“冷门黑马”。
图4:Decrypto中的表征变化(RC)、错误信念(FB)和视角转换(PT)得分。RC衡量代理是否能够识别出他们自己的世界观在新信息后的变化。FB衡量代理是否可以模拟另一个代理的错误信念。PT评估代理人是否能够从信息有限的代理人的角度进行推理。所有接受评估的LLM都与PT以及RC和FB的强变体斗争。
令人惊讶的是,Llama3. 1-70B在所有三个ToM任务中都优于最近的推理模型。在PT中,模型经常不考虑其他代理的观点,而是根据只有他们才能访问的特权信息来回答问题。
语言模型缺的,不是词汇,而是社会感
这一轮实验落幕后,我们得以窥见几个关键事实。
信息控制的艺术尚未掌握:模型常常在隐喻与泄露之间掌控失衡;
角色建模仍属浅层模拟:模型难以感知“别人不知道的东西”,更谈不上规划对方的误解;
协作的核心是语用共识:没有共同策略空间,哪怕语义理解再强,也无法协同成功;
ToM能力无法靠参数堆积:更大的模型不等于更好的“心智模拟者”,有时反而走入捷径式泛化误区;
人类仍是最强“语言博弈者”:对文化、背景、信息遮蔽的自然掌控,是当前AI远不能比拟的。
Decrypto不只是揭露了模型的短板,它让我们意识到:要真正走向具备社交能力的语言AI,仅靠语言建模还远远不够。我们需要的是具备“角色意识”“策略记忆”和“语用推理”的全新智能建模路径。而这,也许正是下一代语言智能的分水岭。(END)
参考资料:https ://arxiv. org/pdf/2506. 20664
亲爱的人工智能研究者,为了确保您不会错过《独角噬元兽》的最新推送,请星标《独角噬元兽》。我们倾心打造并精选每篇内容,只为为您带来启发和深思,希望能成为您理性思考路上的伙伴!
加入AI交流群请扫码加微信