马斯克发布“地球最强AI模型”Grok 4:横扫所有榜单,在“人类最终测试”超越人类博士”!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
作者|王启隆
出品|CSDN(ID:CSDNnews)
北京时间7月10日,原定于上午11点的xAIGrok4发布会,在万众瞩目中“鸽”了整整一小时。期间评论数飙升至4200条,转发超2000次,点赞破万,140万观众在线催更。这期间,xAI的官推评论区成了大型许愿池和段子集散地。
毕竟,发布会前,老板马斯克亲自下场,在办公室搭帐篷、通宵达旦进行“最后一次大规模训练”的消息早已传遍网络。人们迫切想知道,是怎样的“核武器”,值得如此阵仗。
事实证明,这场等待是值得的。马斯克和他的团队带来的Grok4,不仅是一次模型的常规升级,更像是一场对现有AI能力边界的悍然宣告。
王座易主?Grok4制霸大模型考场
发布会的核心,首先是一系列令人瞠目结舌的基准测试(Benchmark)成绩。如果说过去的AI评测是诸神之战,那么Grok4的登场,则是诸神黄昏。
最引人注目的,无疑是“人类最终测试”(Humanity’sLastExam,HLE)的成绩。这是一个涵盖了数学、有机化学、语言学、法学等多个博士级别难题的超高难度测试,旨在检验AI最顶尖的推理和知识能力。
根据现场公布的数据和后续网友的挖掘,Grok4的表现堪称疯狂:
基础能力:在不使用任何外部工具的情况下,Grok4的文本模型(Text-Only)取得了26. 9%的成绩。
工具加持:当允许使用工具(如代码解释器)时,成绩飙升至41. 0%。
此外还有“重思考”模式,在这个模式下,Grok4Heavy的得分达到了恐怖的58. 3%!
马斯克在发布会上的那句“Grok4在每一个学科上都优于博士水平,没有任何例外”,不再仅仅是豪言壮语,而是有了数据的支撑。他进一步解释:“Grok4比几乎所有学科的所有研究生都要聪明,而且是同时!它在所有领域都达到了博士后水平,是所有领域,没有例外。这值得我们反复回味。”
除了HLE,Grok4在其他各大顶级基准测试中也实现了全面引领:
ARC-AGI-2(抽象推理挑战赛):在这个被认为是衡量通用人工智能潜力的关键测试中,Grok4(Thinking)以15. 9%的得分创下新的SOTA,几乎是之前商业模型最高纪录的两倍。
AIME25(美国数学邀请赛):Grok4Heavy史无前例地取得了100%的满分,完美解出了所有高难度数学题。
GPQA(研究生水平问答):得分高达88. 9%,超越所有对手。
这一系列的成绩,标志着在AI的“智商”竞赛中,Grok4已经暂时坐上了王座。
Grok何以封神?探秘智能背后的三大支柱
如此恐怖的性能跃升,绝非偶然。发布会深入揭示了Grok4成功的秘密,可以归结为三大支柱:全新的协作模式、最大化追求真相的哲学,以及毫不妥协的算力投入。
1. 多智能体协作:Grok4Heavy的“秘密武器”
Grok4Heavy之所以能在HLE等超高难度测试中取得突破,其核心秘密在于一种全新的内部协作机制。它并非简单的参数堆砌,而是一个“多智能体构成的研讨小组”(Multi-AgentStudyGroup)。
当遇到一个复杂问题时,Grok4Heavy会在内部“分身”出多个独立的智能体。每个智能体都会从不同角度、用不同方法独立思考和解决问题。这个过程完成后,它们会进入一个“比较笔记”的环节。
这个环节远比“少数服从多数”的投票机制高级。很多时候,可能只有一个智能体找到了解题的关键“窍门”或独特的思路。通过分享,所有智能体都能理解这个最佳方案,并在此基础上进行整合、优化,最终形成一个最深刻、最准确的答案。这正是“测试时计算”(Test-time-compute)的精髓,它通过增加思考的深度和广度,换来了精度的巨大提升。
2. 第一性原理:最大化追求真相
马斯克再次重申了xAI的核心哲学:“最大化地寻求真相(MaximallyTruth-Seeking)”。他将AI比作一个超级天才的孩子,你最终无法在智力上超越它,但你可以在它成长的早期,为它“植入”正确的价值观。
“我们想要灌输给它的,是好奇心、是对真理的追求,是成为一个有益于人类的存在。”
马斯克在发布会上说,“物理学是宇宙的法则,其他的一切都只是建议。你无法欺骗物理学。所以,最终的考验是现实。”
这种哲学,让Grok在面对争议性或复杂伦理问题时,不会像其他模型那样选择回避或给出“政治正确”的模板化答案,而是尝试从第一性原理出发,进行深入的、不带偏见的推理。
3. 二十万张H100超算集群:史无前例的算力投入
这一切的背后,是马斯克毫不吝啬的“钞能力”支持。
发布会披露,Grok4的训练是在一个拥有超过20万张H100GPU的超级计算机集群上完成的,是Grok3时期的两倍。更重要的是,xAI改变了训练策略,将更多的算力投入到“推理能力”的专项训练上。相比于Grok2,Grok4的训练量提升了整整100倍。
这种不计成本的投入,为Grok4构建了无与伦比的“智能底座”,让它有能力去探索更深层次的逻辑和知识。
抛开冰冷的跑分,Grok4在现场演示和API初体验中展现出的能力,更直观地定义了下一代AI的应用场景。
发布会后,马斯克在X上最新置顶的这条推文,直接叫板Cursor,宣告了Grok4在代码能力上的自信。在发布会的演示中,Grok4更是展示了其“创世”级别的能力:
黑洞碰撞模拟:面对“生成两个黑洞碰撞的动画”这种融合了物理学、数学和编程的复杂要求,Grok4不仅理解了背后的“后牛顿近似法”等物理学原理,还迅速编写出Python代码,调用相关库,生成了相当逼真的可视化动图。它甚至在代码注释中坦诚地解释,为了视觉效果,在引力波的尺度上做了哪些“艺术夸张”,展现了惊人的元认知和自我解释能力。
4小时开发一款游戏:一位名叫Danny的开发者受邀体验Grok4API。他仅用了4个小时,就借助Grok4从零开始制作出了一款完整的第一人称射击游戏。Grok4不仅编写了游戏的核心逻辑代码,更令人惊叹的是,它还自动完成了寻找、适配纹理贴图、处理3D模型等极其繁琐的“美术资源”工作。这极大地解放了开发者的创造力,让一个人成为一个游戏工作室的梦想,变得触手可及。
商业模拟超越人类:在一个名为“VendingBench”的商业模拟平台中,AI需要扮演自动售货机公司的经营者,管理库存、定价、与供应商签约。Grok4不仅成功运营,其最终创造的“净资产”价值更是达到了排行榜第二名模型的两倍,展现出惊人的长期战略规划和执行能力。
加速科学发现:顶尖的生物医学研究机构ArcInstitute,已经开始使用Grok4API来自动化分析其海量的实验日志。面对数百万份复杂的实验数据,Grok4能帮助科学家快速筛选出最有价值的研究假设,将原本耗时数周的工作缩短到几分钟。
预测未来:现场演示中,团队让Grok4Heavy分析体育博彩市场Polymarket,并预测本年度美国职业棒球大联盟世界大赛的冠军。在长达4分半钟的深度“思考”后,Grok4浏览了大量赔率网站,分析了各队实力,甚至计算了自己的“Alpha优势”,最终给出了洛杉矶道奇队以21. 6%的概率获胜的结论,并详细阐述了整个推理过程。这种能力,让Grok4不再仅仅是一个信息检索工具,而是一个具备主动分析和决策能力的“战略顾问”。
发布会还展示了全新的语音交互模式。新的声音模型,如充满磁性的“Sal”(发布会开场“电影预告片”的配音)和温柔知性的“Eve”,在自然度、韵律和情感表达上都达到了新的高度。
在与Eve的互动中,它能根据指令,用低语来安抚紧张的主持人,也能即兴高歌一曲关于“健怡可乐”的咏叹调,甚至在被要求“直接唱”时,无缝切换到另一种歌唱风格。这种对人类情感和语境的细腻捕捉,预示着未来的人机交互将变得无比自然和温暖。
价格、速度与未来:Grok4的阳谋与坦诚
Grok4的强大并非遥不可及。会后,xAI正式公布了全新的“SuperGrok”订阅计划和API定价,展现了其商业化的雄心和对市场的清晰判断。
定价策略:
免费版(Basic):体验Grok3。
SuperGrok($300美元/年):可使用Grok4标准版,拥有128k上下文窗口和带视觉的语音模式。
SuperGrokHeavy($3000美元/年):独家体验Grok4Heavy,并能抢先体验各项新功能。
Grok4的API输出速度为75tokens/s,虽然慢于o3(188tokens/s),但快于同样以深度思考著称的Claude4OpusThinking(66tokens/s)。
此外,在发布会的最后,马斯克和团队也坦诚了Grok4目前的“短板”——多模态能力,尤其是图像理解。他们形容现在的Grok4看世界就像“隔着一块毛玻璃”,有些“局部失明”。
但这正是xAI的可怕之处,他们总是在承认弱点的同时,给出解决问题的时间表:
1. 视觉革命在即:将彻底解决这一问题的FoundationModelV7版本已在训练中,预计几周内完成。届时,Grok将拥有与人类无异的视觉和听觉,能看懂视频,理解世界。
2. 马斯克的预言:
今年:有望看到第一部由AI生成的、可观看的半小时电视节目。
明年:期待第一款真正好玩的AI视频游戏和第一部完整的AI电影。
3. 最终考场:马斯克强调,通过所有人类考试只是第一步。Grok的终极目标是成为一个科学发现和技术发明的引擎。
“Grok可能会在今年年底发现新的可用技术,明年发现新的物理学。”
这不再是科幻。当一个AI开始以现实世界为考场,以推动人类知识边界为己任时,我们知道,一个全新的时代,真的来了。
而这场由Grok4搅动的风暴,才刚刚开始。
2025全球产品经理大会
8月15–16日·北京威斯汀酒店
互联网大厂&AI创业公司产品人齐聚
12大专题,趋势洞察×实战拆解
扫码领取大会PPT,抢占AI产品新红利