Grok 4 正式发布：把AIME刷爆到满分的大模型

发布日期: 2025-07-10

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

7月10日中午，xAI正式发布了新一代旗舰模型——Grok4。被马斯克称为“目前世界上最强大的AI”，并宣布其在多个基准测试中成绩优异，具备博士后级别的综合能力。
全领域推理能力显著增强，部分测试成绩超越现有主流模型
上下文窗口达到256Ktokens
支持多模态交互，具备语音、图像、代码、即将上线的视频能力
强化学习+工具使用能力升级，HLE得分提升至50. 7%
即将推出更多版本：编程模型、多模态Agent、视频生成模型
在直播中，马斯克说：
“Grok4的推理能力已经超过人类，它能在SAT中满分，通过GRE各学科接近满分。”
马斯克还补充，Grok4不仅能“解题”，还有望在今年内实现真正的科学发现。
Grok4在多个权威基准测试中表现优异，尤其在以下项目中成绩还是不错的：
测试名称
测试内容
Grok4成绩
对比
HLE
数学、化学、逻辑
最高50. 7%（使用工具）
超越历史SOTA（41. 0%）
ARC-AGI-2
高阶推理
15. 9%
翻倍超越ClaudeOpus等商业模型
AIME25
美国数学邀请赛
满分100
同类模型难以企及
USAMO25
美国数学奥赛
SOTA
高中顶尖难度题目
LCB编程挑战
在线算法竞赛
表现领先
新版GrokCode将进一步优化
ARC-AGI-2是ARCPrize基金会推出的评测基准，有点像考公的行测图推题目，大模型用矩阵像素输入进行推理，特别特别难，人都不一定能做对。kaggle上开了3个月的榜单，也就是这个水平。
另外，还展示了一个完整的物理可视化Demo——Grok生成了基于两个黑洞合并的动画模拟，包括推导过程、论文引用和代码实现。
xAI在发布会上解释了模型训练的演进：
Grok2：传统token预测
Grok3：首次引入RL微调，引导深度推理能力
Grok4：强化学习计算量再次提升10倍，显著增强复杂推理表现
Grok4对工具的集成能力也更强，可以实时访问网络（尤其是X平台）、调取计算器、调用代码运行环境等。这些能力共同推动其智能程度大幅跃升。
Grok4已支持通过API接入，当前版本为grok-4-0709。价格如下：
版本
月付
年付
说明
Grok4
$30
$300
标准用户方案
Grok4Heavy
$300
$3000
面向高端开发者和专业用户
这里面的Grok4Heavy是一个多智能体协作的系统，在官方扩展了10倍的推理时间，多个智能体独立且并行运行，最终汇聚所有结果后选择最好的解决方案。
效果也很明显，Grok4Heavy在HLE中获得了50分的高分。用token和时间换分数的一个东西。
但这个价格和同行比一比，感觉GPT，还是有点能打。
8月：Grok4Code（编程增强版）
9月：多模态智能体（Agent）
10月：视频生成模型
看起来，xAI也正式迈入顶级大模型竞争行列了。凭借高推理能力、大上下文窗口、多模态融合与工具整合优势，Grok4已具备了和GPT-5、Claude4Opus掰掰手腕的力量。
从目前透露的信息看，xAI是想打造一个全链条的AI产品生态，覆盖文本、图像、代码、语音乃至视频。
至于结果如何，让我们一起拭目以待。