Grok 4基准测试被爆极其优异，人类终极考试成绩飙升到45%，碾压o3 和Gemini的20%

发布日期: 2025-07-05

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

Grok-4的基准测试数据在网上疯传。
刚刚，API开发者ʟᴇɢɪᴛ(@legit_api)率先曝光了Grok-4和Grok-4Code的测试成绩，数字让人倒吸一口凉气：HLE（人类最后的考试）上达到35%，使用推理后更是飙升到45%！
这是什么概念？
要知道，o3和Gemini在HLE上的得分仅为20%左右。而如果这个数据属实，Grok-4相当于直接翻了一倍多。
除了HLE，其他基准测试的表现同样一马当先：
GPQA达到87-88%
SWEBench上，Grok-4Code拿下72-75%的成绩
leo🐈(@synthwavedd)评论称：
这些如果是真的，都是SOTA（最先进）成绩。希望它在实际使用中也能这么好。
但并非所有人都买账。
KAayushMazumdar(@Tweeting_Aayush)立即提出了质疑：
SWE-Bench是验证过的吗？没有工具/框架的情况下？
SWEBench测试的是模型解决真实软件工程问题的能力，如果使用了额外的工具或框架，成绩的含金量就要打折扣了。
更多人关心的是：这个模型到底什么时候发布？
ZhuoWang(@ZhuoWang1022019)直接发问：
如果它这么好，什么时候发布？
TheMandorlarian(@mandorlarian)则表现得更加悲观：
兄弟我真的不能。不认为这个模型会发布，空洞的数字什么都不意味着。
为了让大家更直观地理解这些成绩，markerdmann(@markerdmann)贴出了与其他前沿模型的对比图：
从对比中可以看出，若数据准确，则Grok-4在多个维度上都超越了现有的所有顶尖模型。
但HLE45%的成绩引发了最大的争议。
AI研究者xlr8harder(@xlr8harder)指出了一个关键问题：
我才意识到HLE的所有题目都已经公开，没有保留测试集。这太不幸了。
这说的是，如果测试题目都是公开的，模型就有可能在训练时“见过”这些题目，导致成绩虚高。
EthanMollick(@emollick)教授对此回应道：
如果Grok4泄露的基准测试是对的，HLE有保留的问题集就非常有用了，因为传闻中的45%分数比o3和Gemini的20%左右有很大提升，这会相当令人印象深刻（假设没有数据污染）。
他还贴出了官方文档，证明HLE确实有保留测试集：
但质疑声并未平息。
AlfredoGonzález-Espinoza(@AGonzalezEsp)坚持认为：
看起来数据被污染了。考虑到Grok3在ARC-AGI测试上的结果，他们很可能使用了被污染的数据。
HasanCan(@HCSolakoglu)表达了担忧：
HLE分数高度可疑，这将是一个基准创建者需要立即在隐藏集上测试的模型。但如果你问我，这都是脚手架和共识技巧。
有趣的是，itsdrizzy(@itsdrizzy4)从另一个角度分析了这些数据：
ArtificialAnalysis的独立基准测试显示o3在GPQA上得分82. 7%，这意味着Grok4比o3高出近10%。如果o1到o3（一代）从~~75%提升到82. 7%（7. 7%的差异），Grok4基本上就是o4级别（~~5%的差异）。
除了各种质疑，也有支持者们在积极回应。
JeffersonWay(@TheJeffersonWay)为xAI辩护：
我是说他们有20万个GPU，以400TPS运行grok3mini，为什么很难相信？
Prashant(@Prashant_1722)则兴奋地转发：
Grok4和Grok4code🔥🔥
PDVUberjeetsCTO(@PDVhw)甚至贴出了更多细节图：
Sughu(@sughanthans1)总结道：
如果这是真的，Grok4真的做到了。
muzz(@muzzkek)则提醒大家需要看相对分数：
加上相对评分也不会要你的命。
而MelGibson2. 0(@AIMelGibson)则提出了一个实际的观点：
我最感兴趣的是幻觉率，如果这能在基准测试上击败o3，但幻觉率也低得多，那我们就找到了什么。对我来说，这是阻止o3成为极其有用的模型的唯一因素。
CuteRobot(@lukeNukemAI)则思考得更远：
想象一下当所有基准测试都被打败时？他们将如何测试LLM？
不得不说，45%的HLE成绩若是属实，那马斯克的xAI将后来居上，并真的将一骑绝尘了可能要。
但截止目前，相关数据仍为传言，未经官方证实。
而网友们，一边是兴奋和期待，一边是质疑和担忧。
这种撕裂也反映了当下大家的心态：我们既渴望突破，又害怕被欺骗。
无论Grok-4的成绩是否真实，有一点是确定的：这场关于AI大赛，还正火热。
👇
👇
👇
另外，我还用AI进行了全网的AI资讯采集，并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的实时AI快讯群中。
这是个只有信息、没有感情的AI资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）
欢迎加入！
也欢迎加群和2000+群友交流。