刚刚，Grok4跑分曝光：「人类最后考试」拿下45%，是Gemini 2.5两倍，但网友不信

发布日期: 2025-07-05

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

机器之心报道
编辑：杨文、泽南
马斯克搭帐篷熬夜开发有效果了？这么高跑分，还不发布。
刚刚，Grok4和Grok4Code的基准测试结果疑似泄露。

这个跑分结果意味着什么？有网友将其与OpenAIo3和ClaudeOpus4等竞争模型进行了对比。
Grok4在HLE上的标准得分约为35%，使用推理技术后提升至45%，最强成绩比OpenAIo3的公开得分高出一倍，是Claude4Opus的四倍多。要知道HLE是一个自由回答测试，随机猜测准确率仅约5%，因此每个百分点的提升都非常困难。
在GPQA（研究生级物理和天文学问题）上，Grok4得分87-88%，与OpenAIo3的顶级表现相当，并明显超过Claude4Opus的79. 6%。
Grok4在AIME’25（2025年美国数学奥赛）上得分95%，远超Claude4Opus的75. 5%，并略优于OpenAIo3的80-90%（取决于思维模式）。

其中，网友讨论最多的就是Grok4在HLE上达到了惊人的45%，几乎是Gemini2. 5Pro成绩的两倍。如果泄露的测试结果属实，那么意味着Grok4通过了AI基准测试中最艰难的一关。
还有网友建议关注「标准」得分，认为这是公开模型的基准，推理得分可能涉及实验性配置。
不过，也有网友表示质疑，认为Grok4的HLE分数不太可能这么高，这里面肯定有问题。
该网友给出的理由是，上次xAI报告了其他模型使用单次尝试的结果，但对自己的模型却使用了不同的报告方法。
@legit_api回复称，这些数字是真实的，但我们不知道配置。
有网友总结道，目前Grok4泄露出来的所有基准成绩，除了HLE以外，其他的看起来似乎还算「合理」。不过HLE能跑到这么高分又应该如何解释呢？毕竟这个基准中包含很多晦涩难懂的信息检索。
或许一切都要等待模型正式发布才能有答案了。
其实早在7月1日，外媒TestingCatalog就发文爆料，Grok4系列模型的相关信息在xAI开发者中控台网站上泄露，包括旗舰模型Grok4和编程模型Grok4Code。
截图显示，Grok4仅支持文本模式，视觉、图像生成及其他功能即将推出。Grok4支持约13万tokens上下文窗口，较许多竞争对手的前沿模型要小，这可能表明xAI在优化推理速度和实时可用性，而非追求最大化的长上下文性能。从功能上来看，Grok4将包括函数调用、结构化输出和推理能力。
还有网友扒出了xAI开发者中控台的源代码，这些代码显示，Grok4是一个在自然语言、数学和推理方面「拥有无可匹敌的能力」的通才模型，并在当地时间6月29日完成了训练，其标语为「ThinkBiggerandSmarter」。
截图还显示，Grok4Code则是一款专为编程设计的模型，用户可以直接向它提问代码问题，也可以直接嵌入代码编辑器中。
上个星期，马斯克在推文中表示，他正「通宵达旦地开发Grok4」，模型开发「进展良好」但仍需进行「最后一次大规模训练」，特别是在专门代码模型方面。为了这一目标，从上月底开始，马斯克带头在办公室内支起帐篷睡觉，以全身心投入工作。
X的工程师还出面回应了一下帐篷的问题。
生成式AI，都卷到这种地步了？
泄露的分数不仅刺激了广大网友的小心脏，也在刺激着众多AI科技公司。马斯克今天虽然没有如之前预测的那样「官宣」Grok4开源，但表示推特上的Grok功能有了明显的提升。
有网友为此专门去问了Grok，它认为7月更新是Grok4，但不完整。
再加上Benchmark成绩已经曝光，或许Grok4过几天就要正式发布了。
如果成绩属实，不管是架构的创新还是规模的扩展，Grok都将推动一波AI大模型的发展，让我们拭目以待。
参考链接：

https ://www. testingcatalog.com/xai-prepares-grok-4-and-grok-4-code-for-upcoming-launch/
https ://x. com/AiBattle_/status/1940139539525419512
©THEEND
转载请联系本公众号获得授权
投稿或寻求报道：liyazhou@jiqizhixin. com

ZejunCao

https://zejuncao.github.io/2025/07/05/1000003767-2650977857-1-1751683606/