马斯克发布“地球最强AI模型”Grok 4：横扫所有榜单，在“人类最终测试”超越人类博士”！

发布日期: 2025-07-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

作者|王启隆
出品|CSDN（ID：CSDNnews）
北京时间7月10日，原定于上午11点的xAIGrok4发布会，在万众瞩目中“鸽”了整整一小时。期间评论数飙升至4200条，转发超2000次，点赞破万，140万观众在线催更。这期间，xAI的官推评论区成了大型许愿池和段子集散地。
毕竟，发布会前，老板马斯克亲自下场，在办公室搭帐篷、通宵达旦进行“最后一次大规模训练”的消息早已传遍网络。人们迫切想知道，是怎样的“核武器”，值得如此阵仗。
事实证明，这场等待是值得的。马斯克和他的团队带来的Grok4，不仅是一次模型的常规升级，更像是一场对现有AI能力边界的悍然宣告。
王座易主？Grok4制霸大模型考场
发布会的核心，首先是一系列令人瞠目结舌的基准测试（Benchmark）成绩。如果说过去的AI评测是诸神之战，那么Grok4的登场，则是诸神黄昏。
最引人注目的，无疑是“人类最终测试”（Humanity’sLastExam,HLE）的成绩。这是一个涵盖了数学、有机化学、语言学、法学等多个博士级别难题的超高难度测试，旨在检验AI最顶尖的推理和知识能力。
根据现场公布的数据和后续网友的挖掘，Grok4的表现堪称疯狂：
基础能力：在不使用任何外部工具的情况下，Grok4的文本模型（Text-Only）取得了26. 9%的成绩。
工具加持：当允许使用工具（如代码解释器）时，成绩飙升至41. 0%。
此外还有“重思考”模式，在这个模式下，Grok4Heavy的得分达到了恐怖的58. 3%！

马斯克在发布会上的那句“Grok4在每一个学科上都优于博士水平，没有任何例外”，不再仅仅是豪言壮语，而是有了数据的支撑。他进一步解释：“Grok4比几乎所有学科的所有研究生都要聪明，而且是同时！它在所有领域都达到了博士后水平，是所有领域，没有例外。这值得我们反复回味。”
除了HLE，Grok4在其他各大顶级基准测试中也实现了全面引领：
ARC-AGI-2（抽象推理挑战赛）：在这个被认为是衡量通用人工智能潜力的关键测试中，Grok4(Thinking)以15. 9%的得分创下新的SOTA，几乎是之前商业模型最高纪录的两倍。
AIME25（美国数学邀请赛）：Grok4Heavy史无前例地取得了100%的满分，完美解出了所有高难度数学题。
GPQA（研究生水平问答）：得分高达88. 9%，超越所有对手。

这一系列的成绩，标志着在AI的“智商”竞赛中，Grok4已经暂时坐上了王座。
Grok何以封神？探秘智能背后的三大支柱
如此恐怖的性能跃升，绝非偶然。发布会深入揭示了Grok4成功的秘密，可以归结为三大支柱：全新的协作模式、最大化追求真相的哲学，以及毫不妥协的算力投入。
1. 多智能体协作：Grok4Heavy的“秘密武器”
Grok4Heavy之所以能在HLE等超高难度测试中取得突破，其核心秘密在于一种全新的内部协作机制。它并非简单的参数堆砌，而是一个“多智能体构成的研讨小组”（Multi-AgentStudyGroup）。
当遇到一个复杂问题时，Grok4Heavy会在内部“分身”出多个独立的智能体。每个智能体都会从不同角度、用不同方法独立思考和解决问题。这个过程完成后，它们会进入一个“比较笔记”的环节。
这个环节远比“少数服从多数”的投票机制高级。很多时候，可能只有一个智能体找到了解题的关键“窍门”或独特的思路。通过分享，所有智能体都能理解这个最佳方案，并在此基础上进行整合、优化，最终形成一个最深刻、最准确的答案。这正是“测试时计算”（Test-time-compute）的精髓，它通过增加思考的深度和广度，换来了精度的巨大提升。
2. 第一性原理：最大化追求真相
马斯克再次重申了xAI的核心哲学：“最大化地寻求真相（MaximallyTruth-Seeking）”。他将AI比作一个超级天才的孩子，你最终无法在智力上超越它，但你可以在它成长的早期，为它“植入”正确的价值观。
“我们想要灌输给它的，是好奇心、是对真理的追求，是成为一个有益于人类的存在。”
马斯克在发布会上说，“物理学是宇宙的法则，其他的一切都只是建议。你无法欺骗物理学。所以，最终的考验是现实。”
这种哲学，让Grok在面对争议性或复杂伦理问题时，不会像其他模型那样选择回避或给出“政治正确”的模板化答案，而是尝试从第一性原理出发，进行深入的、不带偏见的推理。
3. 二十万张H100超算集群：史无前例的算力投入
这一切的背后，是马斯克毫不吝啬的“钞能力”支持。
发布会披露，Grok4的训练是在一个拥有超过20万张H100GPU的超级计算机集群上完成的，是Grok3时期的两倍。更重要的是，xAI改变了训练策略，将更多的算力投入到“推理能力”的专项训练上。相比于Grok2，Grok4的训练量提升了整整100倍。
这种不计成本的投入，为Grok4构建了无与伦比的“智能底座”，让它有能力去探索更深层次的逻辑和知识。
抛开冰冷的跑分，Grok4在现场演示和API初体验中展现出的能力，更直观地定义了下一代AI的应用场景。
发布会后，马斯克在X上最新置顶的这条推文，直接叫板Cursor，宣告了Grok4在代码能力上的自信。在发布会的演示中，Grok4更是展示了其“创世”级别的能力：
黑洞碰撞模拟：面对“生成两个黑洞碰撞的动画”这种融合了物理学、数学和编程的复杂要求，Grok4不仅理解了背后的“后牛顿近似法”等物理学原理，还迅速编写出Python代码，调用相关库，生成了相当逼真的可视化动图。它甚至在代码注释中坦诚地解释，为了视觉效果，在引力波的尺度上做了哪些“艺术夸张”，展现了惊人的元认知和自我解释能力。
4小时开发一款游戏：一位名叫Danny的开发者受邀体验Grok4API。他仅用了4个小时，就借助Grok4从零开始制作出了一款完整的第一人称射击游戏。Grok4不仅编写了游戏的核心逻辑代码，更令人惊叹的是，它还自动完成了寻找、适配纹理贴图、处理3D模型等极其繁琐的“美术资源”工作。这极大地解放了开发者的创造力，让一个人成为一个游戏工作室的梦想，变得触手可及。
商业模拟超越人类：在一个名为“VendingBench”的商业模拟平台中，AI需要扮演自动售货机公司的经营者，管理库存、定价、与供应商签约。Grok4不仅成功运营，其最终创造的“净资产”价值更是达到了排行榜第二名模型的两倍，展现出惊人的长期战略规划和执行能力。
加速科学发现：顶尖的生物医学研究机构ArcInstitute，已经开始使用Grok4API来自动化分析其海量的实验日志。面对数百万份复杂的实验数据，Grok4能帮助科学家快速筛选出最有价值的研究假设，将原本耗时数周的工作缩短到几分钟。
预测未来：现场演示中，团队让Grok4Heavy分析体育博彩市场Polymarket，并预测本年度美国职业棒球大联盟世界大赛的冠军。在长达4分半钟的深度“思考”后，Grok4浏览了大量赔率网站，分析了各队实力，甚至计算了自己的“Alpha优势”，最终给出了洛杉矶道奇队以21. 6%的概率获胜的结论，并详细阐述了整个推理过程。这种能力，让Grok4不再仅仅是一个信息检索工具，而是一个具备主动分析和决策能力的“战略顾问”。
发布会还展示了全新的语音交互模式。新的声音模型，如充满磁性的“Sal”（发布会开场“电影预告片”的配音）和温柔知性的“Eve”，在自然度、韵律和情感表达上都达到了新的高度。
在与Eve的互动中，它能根据指令，用低语来安抚紧张的主持人，也能即兴高歌一曲关于“健怡可乐”的咏叹调，甚至在被要求“直接唱”时，无缝切换到另一种歌唱风格。这种对人类情感和语境的细腻捕捉，预示着未来的人机交互将变得无比自然和温暖。
价格、速度与未来：Grok4的阳谋与坦诚
Grok4的强大并非遥不可及。会后，xAI正式公布了全新的“SuperGrok”订阅计划和API定价，展现了其商业化的雄心和对市场的清晰判断。
定价策略：
免费版（Basic）：体验Grok3。
SuperGrok（$300美元/年）：可使用Grok4标准版，拥有128k上下文窗口和带视觉的语音模式。
SuperGrokHeavy（$3000美元/年）：独家体验Grok4Heavy，并能抢先体验各项新功能。
Grok4的API输出速度为75tokens/s，虽然慢于o3（188tokens/s），但快于同样以深度思考著称的Claude4OpusThinking（66tokens/s）。
此外，在发布会的最后，马斯克和团队也坦诚了Grok4目前的“短板”——多模态能力，尤其是图像理解。他们形容现在的Grok4看世界就像“隔着一块毛玻璃”，有些“局部失明”。
但这正是xAI的可怕之处，他们总是在承认弱点的同时，给出解决问题的时间表：
1. 视觉革命在即：将彻底解决这一问题的FoundationModelV7版本已在训练中，预计几周内完成。届时，Grok将拥有与人类无异的视觉和听觉，能看懂视频，理解世界。
2. 马斯克的预言：
今年：有望看到第一部由AI生成的、可观看的半小时电视节目。
明年：期待第一款真正好玩的AI视频游戏和第一部完整的AI电影。
3. 最终考场：马斯克强调，通过所有人类考试只是第一步。Grok的终极目标是成为一个科学发现和技术发明的引擎。
“Grok可能会在今年年底发现新的可用技术，明年发现新的物理学。”
这不再是科幻。当一个AI开始以现实世界为考场，以推动人类知识边界为己任时，我们知道，一个全新的时代，真的来了。
而这场由Grok4搅动的风暴，才刚刚开始。
2025全球产品经理大会
8月15–16日·北京威斯汀酒店
互联网大厂&AI创业公司产品人齐聚
12大专题，趋势洞察×实战拆解
扫码领取大会PPT，抢占AI产品新红利