Cursor终结者？Grok 4正式登顶！马斯克扬言编程碾压，20万N卡年赚47亿美金！

发布日期: 2025-07-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

作者｜华卫、冬梅
时隔5个月，Grok终于再次“更新换代”。
这次，xAI不仅直接跳过了Grok3. 5，而且并非只发布一款模型。今天刚发布的是通用模型Grok4，能够处理常规任务并进行对话。接下来的三个月时间里，xAI将陆续发布专为编码任务设计的CodingModel、多模态代理Multi-modalAgent和视频生成模型VideoGenerationModel。
目前，Grok4已上线，提供三个订阅版本，包括免费的基础版、每月30美元的Supergrok和每月300美元的SupergrokHeavy。SuperGrokHeavy订阅用户可提前体验xAI计划在未来几个月推出的一些新产品。
“在所有学科领域，Grok4的智能水平都超过了博士生”。发布会上，马斯克吹嘘道，“我们已经没有测试题可问了，现实是终极的推理测试”，他补充说：“有时，它可能缺乏常识，而且它还没有发明新技术或发现新的物理学，但这只是时间问题。”
直播现场，马斯克身着皮夹克，在xAI团队成员的陪同下，详细演示了这款新模型。值得注意的是，距离产品发布仅数小时前，xAI的首席科学家IgorBabuschkin辞职了。在一张成员合照中可以看到，xAI团队70%以上都是亚洲人。
Grok4“虽迟但到”
其实这场发布早在周一就被马斯克在X上预热了，当时他发文表示将于7月9日8时（北京时间7月10日上午11点）在X平台通过直播发布其人工智能聊天机器人最新版本Grok4。
马斯克虽然没有爽约，但直播开始时间比计划晚了近一小时。
开场，马斯克就表示，Grok4性能非常强大，这系列包含两个版本：Grok4和Grok4Heavy。两款模型都是纯推理模型，没有非推理模式。
Grok4每次在SAT考试中都能取得满分，而且事先从未见过考题。
Grok4在GRE考试的各个学科中都能取得近乎满分的成绩。
Grok4在所有学科上的表现几乎同时超过了绝大多数研究生。
Grok4在“人类终极考试”中得分达50. 7%（使用测试时计算、工具和多个并行智能体）
与早期版本的Grok一样，Grok4搭载了“深度搜索”工具，可从网络（尤其是马斯克旗下的X平台）抓取实时数据。这意味着Grok能在对话中直接提供最新结果，无需额外打开标签页或浏览器。
Grok4最大的差异化优势之一是对互联网文化的理解。Grok4经过调校，能高精度解读meme、俚语和幽默内容，有望成为目前最“懂网络”的AI助手之一。“这款新模型有时可能缺乏常识，也尚未能发明新技术或发现新的物理学知识，但这都只是时间问题，”马斯克表示。
Grok4预计不仅支持文本，还将支持图像，甚至可能支持视频——马斯克曾坦言这是他们目前的一大短板。更强的多模态能力将使其更接近与OpenAI的GPT-5o和谷歌的Gemini2. 5Pro的竞争水平。未来，Grok4或还有望支持视频处理。
另据介绍，Grok4可通过多个平台使用，确保广大受众的可访问性：
xAI控制台：Grok4（型号grok-4-0629）可通过xAI的API访问，主要面向开发者和企业用户。
Grok. com与X平台：用户可在grok. com、x. com以及Grok的iOS和Android应用中使用Grok4，免费访问但有使用额度限制。
SuperGrok订阅服务：grok. com上的付费套餐为Grok4提供比免费版更高的使用额度。定价详情请查阅xAI官方网站。
XPremium订阅：x. com的订阅用户可享受Grok4的增强访问权限。定价信息可在XPremium支持页面查询。
Grok4Heavy是该公司性能更强大的“多智能体版本”。马斯克声称，Grok4Heavy会生成多个智能体同时处理一个问题，然后它们会“像一个学习小组”一样比较各自的工作，以找到最佳答案。
基准测试KO一众领先模型，
编码水平超越Cursor？
“在多项基准测试中，Grok4都展现出前沿水平。”
xAI声称，Grok4在无需“工具”的情况下，在“人类的最后考试”（Humanity’sLastExam）中获得了25. 4%的准确率，超过了谷歌Gemini2. 5Pro（21. 6%）和OpenAIo3（high）（21%）。（“人类的最后考试”是一项极具挑战性的测试，旨在衡量AI回答数千道众包问题的能力，涵盖数学、人文和自然科学等学科。）
xAI还表示，配备“工具”的Grok4Heavy能够获得44. 4%的得分，优于配备工具的Gemini2. 5Pro，后者得分为26. 9%。
在ARC-AGI-1测试中，Grok4（Thinking版本）取得了66. 7%的成绩，与ARC上个月公布的AI推理系统帕累托最优边界高度吻合。（ARC-AGI是评估人工智能通用推理能力的基准测试；Paretofrontier“帕累托最优边界”在AI领域指的是在多个性能维度上达到最优平衡的状态，即无法在提升某一维度表现的同时不损害其他维度。）
在ARC-AGI-2测试中，Grok4（Thinking版本）以15. 9%的得分创下新的最优成绩（SOTA）。这一成绩几乎是此前商业模型最优成绩的两倍，且超过了当前Kaggle竞赛中的最优成绩。（Kaggle是知名的数据科学与机器学习竞赛平台。）

Grok4除在人工智能分析智能指数中位居榜首外，在编码指数（LiveCodeBench和SciCode）与数学指数（AIME24和MATH-500）中同样领先。更详细的关键基准测试结果如下：
在GPQADiamond测试中创下88%的历史最高分，较Gemini2. 5Pro此前84%的纪录实现突破。
在“人类终极考试”（HLE）中取得24%的历史最高分，超过Gemini2. 5Pro此前21%的纪录。注：我们的基准测试套件使用原始HLE数据集（2025年1月版），且仅运行纯文本子集，不借助任何工具。
在MMLU-Pro和2024年AIME测试中分别以87%和94%的成绩并列第一。

此外，马斯克提到，在编码方面，“Grok4比Cursor更好用”。据他介绍，将整个源代码文件复制粘贴到Grok的查询输入框中后，Grok4就会开始修复代码。
性能如此强大，
怎么做到的？
Grok4为什么能做到如此强大的性能表现？
现场，xAI研究科学家TonyWu重点介绍了该模型在训练方面的进展，并指出其从预训练转向了对推理和强化学习的高度重视。
“从Grok3到Grok4，我们将大量的计算投入到推理和强化学习中，”TonyWu说道。他还补充道，借助Grok4Heavy中新增的工具和多智能体系统，该模型在严苛的人文硕士考试基准测试中解决了超过50%的文本问题，相比早期模型的个位数准确率，实现了显著的飞跃。
马斯克将这一飞跃归功于大规模计算扩展，并指出xAI将训练量从Grok2提升到Grok3，然后再提升到Grok4，提升了一个数量级。“它的训练量是Grok2的100倍，而且只会继续增加，”马斯克说道。“从某些方面来说，这有点令人恐惧，但这里的智能增长是惊人的。”
xAI联合创始人JimmyBa也对此次规模扩张表示赞同，并称赞该公司的Colossus超级计算机已扩展到20万个GPU，使其在强化学习中的计算能力比任何竞争对手的模型高出10倍。JimmyBa指出：“这确实是发展最快的领域。”
有趣的是，在直播演示中，Grok4甚至重现了由碰撞黑洞产生的引力波。
其中一个演示展示了Grok4在HandleLabs的VendingBench上表现出色。VendingBench是一款AI商业模拟游戏，该模型通过管理库存和合同，使竞争对手的净资产翻了一番。马斯克以他标志性的幽默感回应道：“很高兴看到我们现在有办法支付所有这些GPU的费用了，”他开玩笑说。“我们只需要一百万台自动售货机，每年就能赚47亿美元（合约人民币337. 28亿元）。出发！”
语音模式也得到了显著升级。据介绍，Grok4的语音功能拥有自然、类人的声线，且中断更少。JimmyBa解释了他们的理念：“我们追求的是更平静、更流畅、更自然的声音，而不是更夸张或更做作的声音。”
该路线图瞄准了关键的研发痛点。预计“几周内”将推出一个专门的编码模型。即将推出的第七版基础模型将增强多模态理解，从而实现强大的视频生成功能。马斯克设定了雄心勃勃的创意时间表：“我预计第一款真正优秀的人工智能电子游戏将在明年问世，”他预测道，“也可能是第一部值得一看的人工智能电影将在明年问世。”
“唯一能够完美评判事物的就是现实，”他总结道。“因为物理学是定律，所以最终其他一切都只是建议……对人工智能的最终考验是现实。”
网友怎么看？
Grok4的发布在HackerNews、Reddit、X等平台上引发热议。
在HackerNews上，有网友称：

对于马斯克团队晒出的Grok4在人类最后的考试基准测试中的得分，网友也认为如果情况属实那这款模型真的太强大了。
“老实说，如果它真的在人类的最后考试中获得了44. 4%的分数，那将是极其令人印象深刻的，因为Gemini2. 5Pro和o3加上工具后得分仅为26.9%和24. 9%。”
在Grok4发布后，压力似乎来到了OpenAI这边，有网友认为，OpenAI新模型可能会在8月份发布，因为他们可能会在Grok4发布后争个后来者居上。
“我认为ChatGPT5要到8月底才会发布。他们会根据Grok的表现，看看如何提升它的水平。”
参考链接：
https ://x. com/xai/status/194315849558881507
声明：本文为AI前线整理，不代表平台观点，未经许可禁止转载。
会议推荐
首届AICon全球人工智能开发与应用大会（深圳站）将于8月22-23日正式举行！本次大会以“探索AI应用边界”为主题，聚焦Agent、多模态、AI产品设计等热门方向，围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例，邀请来自头部企业、大厂以及明星创业公司的专家，带来一线的大模型实践经验和前沿洞察。一起探索AI应用的更多可能，发掘AI驱动业务增长的新路径！
今日荐文
“稚晖君”智元机器人豪掷21亿，抢跑宇树、砸出“人形机器人第一股”？！
离开一手做大的饿了么6年后，他带着7亿估值的AI公司杀回来了
推出4个月就狂赚3亿？！百万用户应用CTO弃Copilot转ClaudeCode：200美元拯救我的137个应用
华为回应盘古大模型抄袭；DeepSeek在海外招聘；马斯克宣布成立“美国党”，明年参加大选｜AI周报
离开百川去创业！8个人用2个多月肝出一款热门Agent产品，创始人：Agent技术有些玄学
你也「在看」吗？👇