Grok 4发布,「人类最后的考试」中拿下50.7%,碾压所有对手,游戏结束了!


Grok 4发布,「人类最后的考试」中拿下50.7%,碾压所有对手,游戏结束了!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

⭐关注硬核AIGC丨打破AI信息差⭐
公众号后台回复“666”送你一份AI大礼包
Grok4来了!
并已经对XPremium+订阅者开放。
这次,不是个简单的升级。
也不再是鸽rok!
ArtificialAnalysis(@ArtificialAnlys)拿到了Grok4的早期访问权限,跑完全套基准测试后得出结论:
Grok4现在是领先的AI模型。
ArtificialAnalysis给出的数据展示:

碾压所有对手!
所有!
这是@elonmusk的@xai第一次在AI前沿领域拔得头筹。
Grok3的表现已经能与OpenAI、Anthropic和Google的最新模型相媲美,但Grok4是第一个让xAI登顶的模型。
详细的基准测试结果更是让人惊叹:
关键成绩包括:
在编码指数(LiveCodeBench&SciCode)和数学指数(AIME24&MATH-500)上全面领先
GPQADiamond创下88%的历史新高,超越了Gemini2. 5Pro之前84%的纪录
「人类最后的考试」得分24%,打破Gemini2. 5Pro之前21%的最高分
MMLU-Pro和AIME2024分别达到87%和94%的最高分
输出速度75tokens/s,虽然慢于o3(188tokens/s)和Gemini2. 5Pro(142tokens/s),但快于Claude4OpusThinking(66tokens/s)
Grok4不仅在智力测试上表现出色,还具备了更多实用功能:
256ktoken的上下文窗口
支持文本和图像输入
支持函数调用和结构化输出
甚至能够唱歌——这个语音功能让AI更加生动有趣
定价方面,Grok4保持了与Grok3相同的价格:每百万输入/输出token收费3美元/15美元(缓存输入为0. 75美元/百万token)。
回到那个终极挑战——「人类最后的考试」。
根据最新数据,Grok4heavy版本在这个测试上达到了50. 7%的成绩:
使用工具时为41%
不使用工具时为26. 9%
「Grok4可能在每个学科上都达到博士水平,没有例外」
「也许今年就能发现新技术,两年内肯定能发现新物理学」
ColonelTasty(@JoshhuaSays)分享的各学科详细得分更是让人震撼:
JohnnyWest(@johnnywestt)直接宣布:
Grok4是王者👑
JackShiels(@shiels_ai)惊讶地发现:
所以这还不是工具调用模型?哇!
但Hamza(@thegenioo)的反应相对冷静:
只提升了2分?
sid__(@sid009_)的评论一针见血:
AI竞赛变得有趣了。
YorkshireLass(@eyup_io)的感慨更接地气:
对于任何考试困难户来说,这听起来就像噩梦。我敢打赌,我们大多数人早餐前就会不及格!
看着这些数据,最让我震撼的不是Grok4的成绩和数字,而是:
「Stillnowall.」
依然没有撞墙。
当所有人都在讨论AI何时会触及智能的极限时,模型将要停滞时,Grok的进化曲线告诉我们:
天花板,还远得很。
每一代10倍的性能提升,从Grok1到Grok4,这条指数增长的曲线没有任何放缓的迹象。
更令人深思的是,Grok4在「人类最后的考试」上拿下50. 7%,这只是在没有触及任何技术瓶颈的情况下达到的。
如果智能真的没有上限,那么「人类最后的考试」这个名字就显得格外讽刺。
它可能不是人类为AI设计的最后一场考试,而是人类能够理解的最后一场考试。
最人类在AI面前的最后一场关于智慧的战斗。
当AI的智能继续以指数级增长,而我们还在用百分制来衡量它时,谁才是真正被困在墙内的那个?
答案或许早就已经不是AI,而是我们人类自身。
ArtificialAnalysis完整测评:https ://artificialanalysis. ai/
@MarioNawfal原推文:https ://twitter. com/MarioNawfal/status/1943165222878953770
@ArtificialAnlys测评报告:https ://twitter. com/ArtificialAnlys/status/1943167262397206760
@apples_jimmy详细数据:https ://twitter. com/apples_jimmy/status/1943165222878953770
-END-
以上是本期全部内容,欢迎点赞转发!
为了方便大家交流,我建了个粉丝群,欢迎对AI感兴趣的小伙伴,进群一起分享AI知识。
🔎扫码加我微信,邀请你进群👇
-更多精彩内容-
🔥更多热门AI教程&实用工具,点下方蓝字查看。
🚀AI数字人系列教程
免费克隆123数字人(极速版)
免费使用数百个AI数字人公模
如何本地部署HeyGem开源数字人
如何使用DUIX数字人实时交互平台
单张照片克隆数字人手持物品
如何使用数字人做橱窗带货
如何使用数字人制作英语教学视频
如何使用数字人做PPT讲解视频
盘点十大国产AI数字人平台
🌈好用的AI工具推荐
一个插件,免费使用GPT-4o
100个即梦AI生图提示词
30个好用的AI工具合集
10个好用免费的声音克隆工具
9款教师必备的AI工具(效率翻倍)
豆包AI云盘无限容量不限速完全免费
自媒体爆款选题批量采集神器
免费AI抠图工具,5秒去除照片背景
⭐强大的宝藏网站推荐
万能维修网站iFixit
全球实况摄像头监控网站Skyline
DeepSeek官方AI工具箱
10个国家级免费平台(建议收藏)
3个彻底消除AI信息差的门户网站
5个全网视频无水印下载网站
视频去字幕神器(手机小程序)
抖音视频高清无水印下载
-粉丝福利-
✅后台回复关键词,免费获取AI资料包:
回复“数字人”领全网最全的数字人克隆知识库
回复“工具箱”领飞书官方推荐的硬核AI工具箱
回复“提示词”领1000+AI生图提示词模版(即梦/豆包)
回复“运营”领自媒体运营干货教程(新手必备)
回复“DS”领全套DeepSeek资料包(含PPT)
🚩关注我,了解更多AI知识👇
🧡记得点赞推荐分享👍


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录