北大物院200人合作，金牌得主超50人！PHYBench：大模型究竟能不能真的懂物理？

发布日期: 2025-04-28

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

本项目由北京大学物理学院朱华星老师、曹庆宏副院长统筹指导。基准设计、项目管理以及数据整合的主要工作由学生核心团队完成，核心成员包括仇是、郭绍阳、宋卓洋、孙韫博、蔡则宇、卫家燊、罗天宇等。项目还得到了北京计算科学研究中心罗民兴院士和人工智能研究院张牧涵老师的鼎力支持。
PHYBench项目汇聚了来自物理学院及兄弟院系的200余名学生，共同承担题目编写、审核及人类基准测试等工作。这支高水平的参与者团队中，包含至少50位全国中学生物理竞赛金牌得主，更有亚洲物理奥赛和国际物理奥赛的金牌获得者。这场大规模、高质量的协作，不仅充分展现了北大学子深厚的学术功底和卓越的组织协调能力，也为PHYBench产出高质量成果提供了坚实保障。
在大语言模型（LLMs）飞速发展的当下，模型的推理能力俨然成为模型能力的代名词。OpenAI的o系列、DeepSeekR1等前沿模型相继发布，这些大模型凭借强化学习技术的助力，在许多科学评测基准上频频刷新纪录，甚至声称“超越人类专家”。
但是，随着模型能力和评测基准的军备竞赛白热化，越来越多的基准不得不转向生僻的知识点、或者抽象的数学竞赛题。这些题目虽然能“区分”模型，但是逐渐脱离实际场景，可能难以真正反映模型的实际表现。
近日，北京大学物理学院联合人工智能研究院等多个院系，推出了全新评测基准PHYBench。PHYBench包含500道经过精心设计的高质量物理题（如图1），难度横跨高中物理、大学物理以及物理奥林匹克竞赛。这些题目以真实的物理场景为基础，对人类来说并不抽象，却把一众大模型考得七零八落。大模型在解决物理题时的思维链也暴露了它们在感知（Perception）和推理（Reasoning）能力上的缺陷。
论文链接：https ://arxiv.org/abs/2504.16074
项目网址：https ://phybench-official.github.io/phybench-demo/
数据集：https ://huggingface.co/datasets/Eureka-Lab/PHYBench
也许，物理才是最适合考察AI推理能力的学科？PHYBench的尝试为评估大模型真正有效的推理能力提供了全新的工具和视角。
图1：题目样例与两种评估方法：表达式树编辑距离、正确率。
表1：与现有benchmark对比，PHYBench在高难度数据集中，有着相对大的规模，同时引入了创新的分数度量：表达式树编辑距离。
评测方法创新
表达式树编辑距离（EEDScore）
传统基准通常依赖Accuracy这一单一指标：设置唯一正确答案，模型只有在完全匹配时才能得分。为了方便评分，问答题通常被改写成选择题或要求代入数值。这样会导致答案的信息量被严重压缩，而且给出过多条件可能导致模型“根据选项猜过程”，或者缺乏使用解析表达式表达普适关系的能力。同时在高难度的样本上，0/1打分会使得所有模型在分数层面都被归零，强弱差异无从体现。
EEDScore（Expression‑treeEditDistance）带来了更贴近人类阅卷的方案。它将数学表达式解析成表达式树，再计算模型答案与参考答案之间的编辑距离：树的结构越接近，得分越高。这一机制输出的是连续、细粒度的分数，能在更多题目上显示区分度，显著提高了统计效力。
实验表明，采用EEDScore的500题，其区分能力相当于1500道使用0/1Accuracy的题目。上图（图1）展示了同一道题三种不同答案在Accuracy与EEDScore下的对比：前者只能给出“全错/全对”的粗糙评价，而后者则定量刻画了模型解答与正确答案之间的“距离”。
实验结果
前沿模型与人类专家的差距
PHYBench团队招募了81名北大学子，在3小时时限内做8道题目，与最先进的AI模型展开了一场”人机大战”。
结果显示，即使是最强的Gemini2.5pro，也只能答对36.9%的题目，EED评分49.5%。而“人类专家”们则轻松碾压，平均正确率高达61.9%，EED评分高达70.5%。排名前25%的受试者更是达到了71.4%的正确率——几乎是最强AI的两倍。其他模型与人类的差距则更为显著。这一显著差距揭示了现阶段LLM在在物理推理场景中的瓶颈。
PHYBench对模型的能力也进行了细粒度的对比。可以看到，Gemini2.5pro、o3等强推理模型虽然和人类还有较大差距，但是相比前代推理模型已经有了明显的进步。DeepSeek-V3等基座模型虽未能超越主流推理模型，但也展现出了亮眼的成绩。QwQ-32B和DeepSeek32B蒸馏模型等小型推理模型在PHYBench上的表现很令人失望，这可能归因于其物理感知能力的不足。
基于思维链的错因分析：PP×RR

物理感知（PP）：在此阶段，模型进行密集的文字推理，模型需要识别问题相关的物理对象、变量和动力学关系，定性判断哪些物理效应是重要的，哪些可以忽略不计。若PP出错，后续整个推理都会偏离轨道。（示例1展示典型PP失误）
鲁棒推理（RR）：在此阶段，模型写下大量的“草稿”，一步步化简表达式，解方程。现阶段的推理模型在此阶段的推理效率尚不高，“草稿”长度远长于人类，而且经常犯“低级错误”。（示例2展示典型RR失误）
PP和RR交替进行，组成了典型的物理解题思维链。
未来展望
推动AI的物理理解与推理能力发展
PHYBench的愿景远不止于“评测”，更在于“引领”AI探索物理世界的无限可能。
PHYBench的发布，不仅为评估大语言模型在物理感知与推理方面的能力提供了一个全新且权威的基准，更为未来AI系统的发展指明了攻坚方向。我们精心设计的真实、复杂的物理场景，旨在深度激发并验证AI理解世界并进行可靠推理的能力，推动AI系统真正实现对世界的认知、融入与变革。
面向未来，PHYBench团队将持续致力于数据集的拓展与创新，计划纳入更多前沿物理课题、跨学科交叉内容，甚至挑战人类尚未解开的科学谜题。我们相信，通过提供更具深度和广度的物理挑战，PHYBench将有力催化AI向着突破认知边界、探索未知领域的“智能伙伴”或“超级助手”发展。
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin.com