刚刚，Grok 4发布，「人类最后的考试」中拿下50.7%，碾压所有对手，游戏结束？

发布日期: 2025-07-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

Grok4来了！
并已经对XPremium+订阅者开放。
这次，不是个简单的升级。
也不再是鸽rok！
ArtificialAnalysis(@ArtificialAnlys)拿到了Grok4的早期访问权限，跑完全套基准测试后得出结论：
Grok4现在是领先的AI模型。
ArtificialAnalysis给出的数据展示：

碾压所有对手！
所有！
这是@elonmusk的@xai第一次在AI前沿领域拔得头筹。
Grok3的表现已经能与OpenAI、Anthropic和Google的最新模型相媲美，但Grok4是第一个让xAI登顶的模型。
详细的基准测试结果更是让人惊叹：
关键成绩包括：
在编码指数（LiveCodeBench&SciCode）和数学指数（AIME24&MATH-500）上全面领先
GPQADiamond创下88%的历史新高，超越了Gemini2. 5Pro之前84%的纪录
「人类最后的考试」得分24%，打破Gemini2. 5Pro之前21%的最高分
MMLU-Pro和AIME2024分别达到87%和94%的最高分
输出速度75tokens/s，虽然慢于o3（188tokens/s）和Gemini2. 5Pro（142tokens/s），但快于Claude4OpusThinking（66tokens/s）
Grok4不仅在智力测试上表现出色，还具备了更多实用功能：
256ktoken的上下文窗口
支持文本和图像输入
支持函数调用和结构化输出
甚至能够唱歌——这个语音功能让AI更加生动有趣
定价方面，Grok4保持了与Grok3相同的价格：每百万输入/输出token收费3美元/15美元（缓存输入为0. 75美元/百万token）。
回到那个终极挑战——「人类最后的考试」。
根据最新数据，Grok4heavy版本在这个测试上达到了50. 7%的成绩：
使用工具时为41%
不使用工具时为26. 9%
「Grok4可能在每个学科上都达到博士水平，没有例外」
「也许今年就能发现新技术，两年内肯定能发现新物理学」
ColonelTasty(@JoshhuaSays)分享的各学科详细得分更是让人震撼：
JohnnyWest(@johnnywestt)直接宣布：
Grok4是王者👑
JackShiels(@shiels_ai)惊讶地发现：
所以这还不是工具调用模型？哇！
但Hamza(@thegenioo)的反应相对冷静：
只提升了2分？
sid__(@sid009_)的评论一针见血：
AI竞赛变得有趣了。
YorkshireLass(@eyup_io)的感慨更接地气：
对于任何考试困难户来说，这听起来就像噩梦。我敢打赌，我们大多数人早餐前就会不及格！
看着这些数据，最让我震撼的不是Grok4的成绩和数字，而是：
「Stillnowall.」
依然没有撞墙。
当所有人都在讨论AI何时会触及智能的极限时，模型将要停滞时，Grok的进化曲线告诉我们：
天花板，还远得很。
每一代10倍的性能提升，从Grok1到Grok4，这条指数增长的曲线没有任何放缓的迹象。
更令人深思的是，Grok4在「人类最后的考试」上拿下50. 7%，这只是在没有触及任何技术瓶颈的情况下达到的。
如果智能真的没有上限，那么「人类最后的考试」这个名字就显得格外讽刺。
它可能不是人类为AI设计的最后一场考试，而是人类能够理解的最后一场考试。
最人类在AI面前的最后一场关于智慧的战斗。
当AI的智能继续以指数级增长，而我们还在用百分制来衡量它时，谁才是真正被困在墙内的那个？
答案或许早就已经不是AI，而是我们人类自身。
ArtificialAnalysis完整测评:https ://artificialanalysis. ai/
@MarioNawfal原推文:https ://twitter. com/MarioNawfal/status/1943165222878953770
@ArtificialAnlys测评报告:https ://twitter. com/ArtificialAnlys/status/1943167262397206760
@apples_jimmy详细数据:https ://twitter. com/apples_jimmy/status/1943165222878953770
👇
👇
👇
另外，我还用AI进行了全网的AI资讯采集，并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的实时AI快讯群中。
这是个只有信息、没有感情的AI资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间）
欢迎加入！
也欢迎加群和2000+群友交流。