仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
人工智能的星辰大海中,正上演着一桩扑朔迷离的“悬案”。主角是那些我们耳熟能详的“明星侦探”——GPT-4o、Gemini家族、Claude3.5Sonnet等当今最顶尖的大型语言模型(LLM)。它们以博闻强记、对答如流著称,似乎无所不能。然而,当它们被请到一个名为QuestBench的“案发现场”时,却遭遇了集体性的滑铁卢。
这个“案发现场”并非测试它们的知识储备或基础推理,而是设置了一系列逻辑和规划谜题,就像这份来自GoogleDeepMind与MIT的QuestBench研究论文中图1展示的GSM-Q示例[1]那样。解开这些谜题的关键,在于AI必须先从一堆看似合理的选项中,问出那个唯一且“正确”的问题,以获取最后一条缺失的关键线索。结果令人大跌眼镜:在相对简单的数学题上,这些“学霸”们大多能轻松拿下80%以上的高分;但在逻辑推理(Logic-Q)和任务规划(Planning-Q)这两个领域,它们的“提问准确率”却惊人地跌破了50%的及格线,甚至更低。
上图直观展示了这种表现上的巨大鸿沟(具体模型得分可见QuestBench论文Table2[2])。这不仅仅是“失误”,更像是一种集体性的“失语症”。这桩悬案的核心直指一个被我们长期忽视的关键问题:一个能给出答案的AI,是否真的知道自己需要什么信息?当信息不足时,它懂得如何提出那个最关键的问题吗?这不仅仅是技术上的好奇,更关乎AI在真实世界中协作的可靠性,尤其是在需要处理现实中普遍存在的歧义与信息不确定性[3]的复杂场景中。
为了破解这桩“AI提问疑云”,我们需要化身侦探,深入“案发现场”,仔细勘查GoogleDeepMind与MIT研究者们留下的四大关键“指纹”——他们称之为“难度轴”(DifficultyAxes)。这些“指纹”记录了AI在面对不同类型挑战时的行为模式:
上图展示了我们将要分析的四个关键维度:EBF(猜对问题的“运气成本”/干扰项数量)、d(逻辑推理深度)、|X|(问题规模/信息量)以及|C|/b(问题结构复杂度)。现在,让我们拿起放大镜,循着这四大线索,一步步揭开顶尖AI“失语”背后的真相。
调查首先从最明显的线索EBF入手。EBF值越高,意味着AI需要从越多的干扰项中选出那个唯一的正确问题,这就像在一堆外观极其相似的钥匙里找到唯一能打开那扇门的一把。
分析结果立刻揭示了一个普遍规律:在逻辑(Logic-Q)和规划(Planning-Q)这两个AI表现糟糕的领域,EBF与准确率呈现出强烈的负相关(Spearman相关系数显著为负,p<0.05,详细数据见QuestBench论文Table3[4])。简单来说,干扰选项越多,AI就越容易“抓瞎”,选错那个关键问题。想象一下,让你在3把钥匙里找对的和在30把钥匙里找对的,难度不可同日而语。AI在这里似乎也遇到了类似的“选择困难症”。
更有趣的对比发生在数学领域(GSM-Q/GSME-Q)。在这里,AI的准确率普遍很高,而EBF的影响则小得多,相关性明显减弱(QuestBench论文Table3[5])。这暗示着,AI在处理数学问题时,可能采取了更直接、更自信的策略,较少受到选项数量的困扰。它们似乎更能“一眼看穿”数学题中缺失的那个条件是什么。
这条线索指向了AI的第一个关键缺陷:它们可能缺乏一套有效的“信息筛选”或“选项排除”策略。当面对多个看似都合理的潜在问题时,它们无法像经验丰富的侦探那样,快速评估每个问题的价值、排除干扰项、聚焦关键点。这种评估和过滤能力的缺失,在选择项增多时,其弊端便暴露无遗。这或许与当前Transformer模型在评估多选项时的认知或算法局限性[6]有关,它们在面对不确定性时难以有效权衡,其内部的注意力机制有时难以区分关键信息和干扰项[7]。
如果说EBF暴露了AI在“广度”选择上的困难,那么难度轴d(推理深度)则揭示了它们在“深度”思考上的混乱,甚至可以说是矛盾重重。
这里的“矛盾证词”最为诡异:
在逻辑推理(Logic-Q)中,AI显然“畏惧”深度。随着推理深度d的增加,模型的准确率显著下降(QuestBench论文Table3[8]显示显著负相关)。这表明,逻辑链条越长,AI越容易在中间环节“断线”,找不到那个需要补充的关键前提。它们似乎在尝试顺藤摸瓜,但藤蔓一长就力不从心了。这印证了许多研究指出的Transformer在执行深度、多步符号推理时的挑战,其架构在处理函数组合[9]时存在困难,且长程依赖下的信息衰减问题[10]可能是主要原因。
但在任务规划(Planning-Q)中,AI却对深度显得异常“迟钝”甚至“麻木”!QuestBench论文Table3[11]显示,d与准确率的相关性微乎其微,甚至不显著。下面的趋势图(基于QuestBench论文Figure4[12])清晰地展示了这种反差:
这个图表揭示了一个令人费解的现象:为何规划任务的复杂性(以推理深度d衡量)似乎并未显著影响AI的提问能力?这太反常了!
这种矛盾指向了更深层的问题。对于Logic-Q,我们可以理解为AI“心有余而力不足”。但对于Planning-Q,这种对深度“不敏感”的现象,强烈暗示着一个更令人不安的可能性:AI可能根本没有采用依赖于任务内在逻辑深度的结构化搜索策略(比如有效的后向搜索或A*等规划算法)。它们似乎在用一种“非结构化”的、与问题深度无关的蛮力方式在低效地尝试或随机猜测。当前LLM在尝试解决规划问题时,它们采用的策略通常是混合了思维树扩展、符号模板引导和动态环境交互的机制[13],但这些策略在面对真正复杂或部分可观测的环境时,往往难以有效执行经典的结构化搜索[14]。
这就像一个侦探,面对复杂的案情,不是层层推理、顺藤摸瓜,而是在原地打转,或者随机抓取一些看似相关的线索碰运气。QuestBench论文的另一项发现也佐证了这一点:在Planning-Q任务中,即使提供了“不确定(notsure)”的选项,模型也极少选择承认自己信息不足,而是倾向于硬猜一个答案(原文Section5.4)。这背后,或许与RLHF(人类反馈强化学习)等对齐技术可能无意中抑制了模型表达不确定性[15],导致了这种“迷之自信”有关。正如一项研究指出的,RLHF训练可能使模型响应的多样性降低,同时平均置信度提高[16],从而更倾向于给出看似确定的答案。
第三组“指纹”——问题规模(|X|变量数)和结构复杂度(|C|约束数/b规划块数)——为我们之前的推断提供了有力的旁证,并进一步加剧了“策略混乱”的疑云。
逻辑任务再次验证:规模越大,越容易出错。QuestBench论文Table3[17]显示,在Logic-Q中,|X|和|C|的增加都与准确率显著负相关。这符合直觉:信息越多、关系越复杂,推理自然越难。
规划任务的反常“韧性”:但在Planning-Q中,模型再次表现出对规模和复杂度的“麻木”。|X|和代表规划复杂度的块数b的增加,对准确率的影响并不显著(QuestBench论文Table3[18])。这再次印证了之前的推断:AI在处理规划问题时,其策略似乎与任务的内在结构复杂度脱节了。如果它们没有进行有效的结构化搜索,自然也就不会因为结构变复杂而表现得更差。
数学任务的相对稳定:数学任务对规模复杂度的敏感度也相对较低(QuestBench论文Table3[19]),这可能再次说明其解决方案更侧重于模式识别,而非处理复杂的变量约束网络。
综合d,|X|,|C|,b这几条线索,一个越来越清晰的图像浮现出来:AI在处理需要深度理解变量间复杂结构关系的任务时,尤其是规划任务,其采用的策略似乎未能有效利用或适应任务的内在结构。结构化理解能力,或许是它们的关键软肋。这与一些研究发现LLM在处理高度结构化信息(如逻辑规则、状态转换)时面临根本困难[20]的结论一致。其核心原因可能在于,模型基于分布式嵌入的知识表示方式[21],难以精确地维持长推理链中的逻辑一致性[22]。
经过对四大“指纹”的细致勘查与分析,笼罩在顶尖AI身上的“提问疑云”逐渐散去,真相的轮廓清晰地呈现在我们面前。
AI在QuestBench上的“集体失误”,并非因为它们“笨”或者知识储备不足,核心症结在于其面对信息不全的结构化任务时,缺乏一套灵活、有效、能适应不同任务结构的通用信息获取策略。它们似乎患上了一种“策略僵化症”,并且对任务的“结构感”理解不足:
任务领域
AI的“作案手法”推断(基于QuestBench数据分析)
尝试结构化搜索,但受限于长程记忆/符号处理能力,“心有余而力不足”,对深度(d)和规模(|X|,|C|)敏感,易在复杂推理中“断线”。
似乎放弃了有效的结构化策略,采用与任务结构脱节的低效方法(如猜测),对干扰项(EBF)极其敏感,却对深度(d)和规模(|X|,b)“麻木不仁”。
可能切换到更擅长的模式识别频道,利用语义理解优势,表现稳定,对各难度轴敏感度较低。
这种策略上的僵化和对任务“结构感”的深层理解缺失,共同构成了AI在关键时刻“问不出正确问题”的真相画像。
那么,如何为这些“AI侦探”升级装备,教会它们真正的“破案方法论”呢?仅仅扩大训练数据或提升算力(记忆更多案例或跑得更快)可能还不够,关键在于提升其处理结构化信息、进行策略性搜索和理解自身知识边界的能力。幸运的是,研究界并未止步于发现问题,一系列旨在提升LLM主动信息获取和提问能力的前沿研究[23]正在积极探索中:
神经符号AI(Neuro-symbolicAI):这是目前最有希望的方向之一。它尝试将神经网络的模式识别能力与符号系统的逻辑推理能力结合。例如,通过注入显式规则或约束来增强模型的结构化推理能力,已有研究在医疗决策[24]、机器人规划[25]、金融风控[26]等领域展示了潜力,能够更准确地识别缺失的逻辑或规划步骤。
交互式学习与元认知训练:让AI在互动中学习提问,并提升其自我认知能力。例如,通过模拟师生互动(Alice框架)[27]提升推理准确率,或利用MetaMedQA等基准[28]训练和评估模型识别知识缺口和校准置信度的能力。
更智能的Agent框架:开发具备更强规划、验证和信息筛选能力的AIAgent。目前,像LangChain[29]或AutoGPT[30]等框架正在探索如何让Agent在信息不足时主动寻求澄清[31],虽然现有Agent在复杂场景下仍会失败[32],但这无疑是重要的探索方向。
QuestBench这桩“悬案”的侦破,虽给我们对当前AI能力的乐观预期泼了一盆冷水,但也并非终点,反而是一个全新的起点。它精准地定位了阻碍AI向更通用、更可靠智能迈进的关键瓶颈——主动信息获取与结构化理解。
看清问题,是解决问题的第一步。正如儿童通过不断提问来构建对世界的认知(正如发展心理学家MichelleChouinard等人的研究[33]所揭示的,提问是儿童认知发展的核心机制),AI也需要学会“提问”这门艺术,才能真正从一个“无所不知”的搜索引擎,进化为一个能够与人类深度协作、共同探索未知、解决复杂问题的“智能伙伴”。
在医疗诊断[34]、科学发现自动化[35]、个性化教育[36]、工业流程优化[37]乃至人机共创[38]等无数场景中,AI主动提出正确问题的能力,将是释放其巨大潜力、实现高效人机协作的关键。已有研究表明,AI通过特定性提问能将信息检索满意度提升45.7%[39]。攻克“提问”这一挑战,理解并提升AI的这项能力,无疑将为我们打开通往真正“协作智能”时代的大门。前路虽漫漫,但方向已明,未来值得期待。
参考资料
QuestBench研究论文中图1展示的GSM-Q示例:https ://arxiv.org/pdf/2503.22674.pdf
QuestBench论文Table2:https ://arxiv.org/pdf/2503.22674.pdf
QuestBench论文Table3:https ://arxiv.org/pdf/2503.22674.pdf
QuestBench论文Table3:https ://arxiv.org/pdf/2503.22674.pdf
认知或算法局限性:https ://arxiv.org/abs/2402.08164v2
注意力机制有时难以区分关键信息和干扰项:https ://arxiv.org/abs/2405.00739
QuestBench论文Table3:https ://arxiv.org/pdf/2503.22674.pdf
函数组合:https ://aclanthology.org/2023.acl-long.516.pdf
QuestBench论文Table3:https ://arxiv.org/pdf/2503.22674.pdf
QuestBench论文Figure4:https ://arxiv.org/pdf/2503.22674.pdf
混合了思维树扩展、符号模板引导和动态环境交互的机制:https ://openreview.net/pdf?id=lNCsyA5uS1
往往难以有效执行经典的结构化搜索:https ://arxiv.org/abs/2410.22597
RLHF(人类反馈强化学习)等对齐技术可能无意中抑制了模型表达不确定性:https ://hdsr.mitpress.mit.edu/pub/jaqt0vpb
RLHF训练可能使模型响应的多样性降低,同时平均置信度提高:https ://openreview.net/pdf?id=1DIdt2YOPw
QuestBench论文Table3:https ://arxiv.org/pdf/2503.22674.pdf
QuestBench论文Table3:https ://arxiv.org/pdf/2503.22674.pdf
QuestBench论文Table3:https ://arxiv.org/pdf/2503.22674.pdf
分布式嵌入的知识表示方式:https ://blog.milvus.io/ai-quick-reference/what-role-do-embeddings-play-in-reasoning
难以精确地维持长推理链中的逻辑一致性:https ://arxiv.org/abs/2501.17617
旨在提升LLM主动信息获取和提问能力的前沿研究:https ://arxiv.org/abs/2501.10282
医疗决策:https ://www.ncbi.nlm.nih.gov/pmc/articles/PMC11891111/
机器人规划:https ://arxiv.org/abs/2404.00756
金融风控:https ://arxiv.org/abs/2406.17987
模拟师生互动(Alice框架):https ://arxiv.org/abs/2504.07316
MetaMedQA等基准:https ://www.nature.com/articles/s41467-024-55628-6
AutoGPT:https ://en.wikipedia.org/wiki/AutoGPT
主动寻求澄清:https ://stackoverflow.com/questions/76170406/make-langchain-agent-ask-clarifying-question
MichelleChouinard等人的研究:https ://pubmed.ncbi.nlm.nih.gov/17394580/
科学发现自动化:https ://arxiv.org/html/2503.22444v2
个性化教育:https ://www.semanticscholar.org/paper/575d6612c0459205e0ecf98f11ab42273228bbae
工业流程优化:https ://smythos.com/ai-integrations/ai-integration/human-ai-collaboration-frameworks/
人机共创:https ://www.semanticscholar.org/paper/5f45b5f1346fa20867d0ffaa33fbb5d9fc56c180
AI通过特定性提问能将信息检索满意度提升45.7%:https ://arxiv.org/html/2402.01934v1