Grok 4 正式发布:把AIME刷爆到满分的大模型


Grok 4 正式发布:把AIME刷爆到满分的大模型

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

7月10日中午,xAI正式发布了新一代旗舰模型——Grok4。被马斯克称为“目前世界上最强大的AI”,并宣布其在多个基准测试中成绩优异,具备博士后级别的综合能力。
全领域推理能力显著增强,部分测试成绩超越现有主流模型
上下文窗口达到256Ktokens
支持多模态交互,具备语音、图像、代码、即将上线的视频能力
强化学习+工具使用能力升级,HLE得分提升至50. 7%
即将推出更多版本:编程模型、多模态Agent、视频生成模型
在直播中,马斯克说:
“Grok4的推理能力已经超过人类,它能在SAT中满分,通过GRE各学科接近满分。”
马斯克还补充,Grok4不仅能“解题”,还有望在今年内实现真正的科学发现。
Grok4在多个权威基准测试中表现优异,尤其在以下项目中成绩还是不错的:
测试名称
测试内容
Grok4成绩
对比
HLE
数学、化学、逻辑
最高50. 7%(使用工具)
超越历史SOTA(41. 0%)
ARC-AGI-2
高阶推理
15. 9%
翻倍超越ClaudeOpus等商业模型
AIME25
美国数学邀请赛
满分100
同类模型难以企及
USAMO25
美国数学奥赛
SOTA
高中顶尖难度题目
LCB编程挑战
在线算法竞赛
表现领先
新版GrokCode将进一步优化
ARC-AGI-2是ARCPrize基金会推出的评测基准,有点像考公的行测图推题目,大模型用矩阵像素输入进行推理,特别特别难,人都不一定能做对。kaggle上开了3个月的榜单,也就是这个水平。
另外,还展示了一个完整的物理可视化Demo——Grok生成了基于两个黑洞合并的动画模拟,包括推导过程、论文引用和代码实现。
xAI在发布会上解释了模型训练的演进:
Grok2:传统token预测
Grok3:首次引入RL微调,引导深度推理能力
Grok4:强化学习计算量再次提升10倍,显著增强复杂推理表现
Grok4对工具的集成能力也更强,可以实时访问网络(尤其是X平台)、调取计算器、调用代码运行环境等。这些能力共同推动其智能程度大幅跃升。
Grok4已支持通过API接入,当前版本为grok-4-0709。价格如下:
版本
月付
年付
说明
Grok4
$30
$300
标准用户方案
Grok4Heavy
$300
$3000
面向高端开发者和专业用户
这里面的Grok4Heavy是一个多智能体协作的系统,在官方扩展了10倍的推理时间,多个智能体独立且并行运行,最终汇聚所有结果后选择最好的解决方案。
效果也很明显,Grok4Heavy在HLE中获得了50分的高分。用token和时间换分数的一个东西。
但这个价格和同行比一比,感觉GPT,还是有点能打。
8月:Grok4Code(编程增强版)
9月:多模态智能体(Agent)
10月:视频生成模型
看起来,xAI也正式迈入顶级大模型竞争行列了。凭借高推理能力、大上下文窗口、多模态融合与工具整合优势,Grok4已具备了和GPT-5、Claude4Opus掰掰手腕的力量。
从目前透露的信息看,xAI是想打造一个全链条的AI产品生态,覆盖文本、图像、代码、语音乃至视频。
至于结果如何,让我们一起拭目以待。


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录