JHU提出最强ToM方法,AutoToM横扫五大基准


JHU提出最强ToM方法,AutoToM横扫五大基准

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

如何让AI像人一样思考?如何拥有像人一样的认知能力和社会能力?
心智能力(TheoryofMind,ToM)是指通过观察他人的行为来理解他们内心想法的能力,这一能力对开发具备社会智能的智能体至关重要。
近日,来自JHU的研究团队提出了AutoToM,一种全自动、开放式的心智推理方法。作为首个面向开放场景的model-basedToM方法,以类似人类的思维模式,AutoToM在5个基准测试中都取得了最好成绩,并展现出良好的可扩展性、鲁棒性以及可解释性。
论文标题:AutoToM:AutomatedBayesianInversePlanningandModelDiscoveryforOpen-endedTheoryofMind
论文地址:https ://arxiv.org/abs/2502.15676
项目主页:https ://chuanyangjin.com/AutoToM/
代码地址:https ://github.com/SCAI-JHU/AutoToM
基于模型的心智推理
当前在实现心智能力的推理方面主要有两种方法:
使用大型语言模型(LLM)来推理他人的心理状态。然而,即使使用了换位思考、变化追踪和时空推理等提示策略,LLM在复杂情境中仍然会出现系统性的错误。

JHU该团队之前的论文(ACL2024杰出论文奖)将BIP和LLM结合,以实现既具可扩展性又稳健的模型化心智推理。这类方法更加稳健,在特定领域中相较于直接使用LLM有明显优势,但它们依赖的是固定、人工设计的模型,没有办法泛化到不同的领域。
不同基准测试中的示例问题及其所需的BToM模型。
AutoToM
第一个适应开放场景的model-basedToM方法
AutoToM引入了一种全新范式。它是一种完全自动化、开放式的基于模型的ToM推理方法。AutoToM实现了对贝叶斯逆向规划的全流程自动化,包括模型结构的提出与调整、关键时间点的识别、假设的生成以及贝叶斯推理的执行。
它无需任何领域知识,可在任意情境中运行,能够推断任何心理状态,推理涉及任意数量的智能体,并支持任意层级的递归推理。这体现了团队对一种开放、通用且稳健的机器心理理论的愿景。
AutoToM的流程图。X是已知的可观测变量,V是潜在的心理变量,q表示问题中查询的变量。ts:t表示用于推理的信息来自ts到t的时间段。变量s、o、b、a、g分别表示state、observation、belief、action、goal,图中的实线箭头表示模型中它们的依赖关系。
全自动的贝叶斯逆向规划
给定一个贝叶斯心智理论模型(BToM)中,我们引入大语言模型(LLM)作为计算后端,用于实现贝叶斯逆向规划(BIP)的各个关键环节。
假设采样(HypothesisSampling)
传统的BIP方法通常依赖人为设定的假设空间,以及为每个潜在心理变量指定具体的假设表示方式。而我们的假设采样模块则利用LLM,根据上下文中可观测变量及其取值,生成一小集合的高质量假设。随后,我们还会通过假设筛选机制,去除不太可能的假设,从而压缩假设空间。
贝叶斯推理(BayesianInference)
我们使用LLM来估计BToM模型中每个局部条件概率。接着,通过对非目标潜在变量进行边缘化,我们得到目标变量的后验概率。与以往方法相比,我们的方法具有更强的通用性:支持任意结构的BToM模型,能够同时考虑多个潜在变量,并支持任意层级的高阶的心智推理。
在给定的BToM模型下,AutoToM进行全自动的贝叶斯逆向规划。
全自动的模型发现与改进
之前的方法依赖于人工设计的BToM模型,这限制了它们在特定领域外的适用性。相比之下,AutoToM能够自动提出模型,并动态调整模型结构,从而在推理过程中兼顾有效性(即准确地推断出智能体的心理状态)和高效性(即尽可能简化模型和计算复杂度)。
信息提取
信息提取模块会处理给定的信息,识别可观测变量的取值,包括状态、动作和言语等信息,并按时间顺序组织。
提出初始模型
我们使用LLM根据已有的信息和任务提出一个初始的BToM模型。基于该模型,我们执行自动化的BIP。如果该模型的效用超过某个阈值,我们便接受该模型的推理结果,否则将进行后续的模型调整。
模型调整
我们通过两种方式迭代式地优化初始模型:变量调整和时间节点调整。
变量调整:在某个具体时间点上,我们会引入新的、相关的潜变量来扩展模型结构,从而缓解推理过程中的不确定性。每引入一个变量,我们都会重新计算模型效用,并选择提升效用最大的修改方案进行保留。
时间节点调整:以往的研究通常假设所有历史都是相关的,而AutoToM能够在上下文中发现相关的历史信息,这种能力对于AutoToM在长上下文环境中成功进行心理理论推理并降低计算成本至关重要。从最小的时间范围开始,如果在当前的时间范围内,变量调整仍无法显著提升模型效用,我们会考虑加入新的时间节点以引入更多上下文信息。在考虑新的时间节点后,会在此基础上继续执行变量调整。
AutoToM通过在变量调整和时间节点调整之间交替进行,自动优化BToM模型。
自动适应情境,横扫五大基准测试
该团队在ToMi、BigToM、MMToM-QA、MuMA-ToM和Hi-ToM五个测试基准上进行了测试。这些基准覆盖了不同的心理变量、环境、agent数量、有无语言表达、措辞风格以及模态类型。
与AutoToM不同,许多近年来的ToM方法只能应用于特定的基准测试。而在通用的方法中,AutoToM在所有基准测试中都取得了最优的表现。
AutoToM和baselines在所有基准测试上的表现。
本文的消融研究突出了AutoToM在变量调整、时间步调整和假设减少方面的优势。AutoToM能够构建一个合适的模型,该模型不仅支持丰富的ToM推理,还能减少计算量,在准确性和成本之间取得平衡。
AutoToM及其消融方法在所有基准测试中的平均正确率与计算量。
总结和展望
总的来说,AutoToM是一个ToM推理任务的新颖框架。面对任何ToM推理问题,AutoToM都可以自动构建一个合适的BToM模型,并借助LLM执行自动的贝叶斯逆向规划。
AutoToM在所有测试上取得了最好的结果,这是因为BIP在面对复杂环境和较长上下文时可以稳健地推理。此外,AutoToM具有可解释性,能够通过其发现的概率模型来解释模型的判断过程。
该论文为实现更具人类思维特征的推理方式,以及构建具有人类认知基础、具备可扩展性、稳健性和开放性的心理能力模型,指明了一个有前景的方向。该论文也引发了关于inference-timecompute,以及可扩展的model-basedinference的广泛讨论。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录