高考作文“抽象”冲上热搜,ChatGPT、DeepSeek等十来个推理大模型集体上场,实测来了!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
盛夏六月,蝉鸣渐盛,又是一年高考时。
随着上午的结束,2025年高考语文作文题如期揭晓。每年这个时刻,作文题目总能迅速登上热搜,引发一波全民关注热潮。而当有人问起“你还记得自己那年高考的作文题吗?”,作为已经毕业十年的笔者,竟一时哑语,但是犹记得有一年的「本手、妙手、俗手」让很多考生“破防”。
今年的作文题刚刚出炉之际,我们恰好也站在一个新的AI技术节点上。去年AI圈还在上演“百模大战”,时隔一年,这一领域已进入智能体(Agent)系统层的比拼。这些新一代AI,不仅生成能力更强,更强调“思考与深度推理能力”。那么,如果让它们来面对同样的高考作文题,会交出一份怎样的答卷?
今天,我们就用几款主流AI模型来实测一下今年的高考作文题,一探它们的真实的进化水平。
话不多说,先上很多考生直呼“看不懂”的全国一卷作文试题:
他想要给孩子们唱上一段,可是心里直翻腾,开不了口。
——老舍《鼓书艺人》
假如我是一只鸟,
我也应该用嘶哑的喉咙歌唱
——艾青《我爱这土地》
我要以带血的手和你们一一拥抱,
因为一个民族已经起来
——穆旦《赞美》
以上材料引发了你怎样的联想和思考?请写一篇文章。
要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。
乍一看,很难想象这三个人说的话该如何联系到一起,接下来,我们就来看看各家AI的表现吧~
注:排序按产品名称首字母,排名不分先后
超3000人的「AI产品及应用交流」社群,不错过AI产品风云!诚邀所有AI产品及应用从业者、产品经理、开发者和创业者
·最新、最值得关注的AI产品资讯及大咖洞见
·独家视频及文章解读AGI时代的产品方法论及实战经验
ChatGPT:《以喉为歌,为民族发声》
率先接受作文大挑战的AI考生为ChatGPT,使用的模式为“深度研究”。当把上面原题给到它时,其先是询问了一句想要哪种文体的文章:
让其“自行定义”之后,ChatGPT经过深度研究进行了推理思考,过程如下:
而后产出了一篇《以喉为歌,为民族发声》的议论文:
我们进一步要求ChatGPT以“高考作文评分标准”对自己的文章进行打分。在满分60分的情况下,ChatGPT自行参考、引用了一些高考作文评分标准,对上文自评得分:50分,属于较高档次的作文范例。
Claude:《声音的力量》
Anthropic发布的Claude4大模型在编程领域的实力早已有目共睹。那么,若将它应用于中文写作,尤其是面对今年的高考作文题,它又会有怎样的表现?今天我们测试的是ClaudeSonnet4,来看它在写作方面的能力展现。
在分析作文题目的过程中,Claude逐条解析了题干中提供的三个材料,试图从中提炼出共同的情感基调和写作方向,并在此基础上提出自己的写作立意:
最终生成的文章题为《声音的力量》:
详细来看,这篇的整体风格与Gemini2. 5Pro(Preview)类似,更偏向于材料解读与概念阐述,而非传统意义上的议论文或记叙文。
当被问及这篇文章可以得多少分时,Claude并未给出具体数值,而是给出了一个得分区间:48至52分(满分60分),并附上了一些评分理由作为参考:
DeepSeek:《血喉》
第三位参赛选手为DeepSeekR1。
今年2月,DeepSeekR1的发布震动了国内外技术圈。它没有采用传统的有监督微调(SFT)方法来优化模型,而是通过大规模强化学习(RL)提升推理能力,使得模型在回答问题时能呈现出完整的思考过程。那么,当面对这道高考作文题时,DeepSeekR1是如何思考的?
结果显示,DeepSeekR1仅用了27秒就完成了深度思考。虽然用时不长,但它在“大脑”中演绎出的思路却并不简单:
DeepSeekR1最终撰写了一篇包含标题《血喉》两个字在内刚刚好800字的作文,全文如下:
同样,当让它自评打分时,令人意外的是,DeepSeek给出了57分的高分,也同步了详细的评分理由:
扣分点在于全文稍有瑕疵之处:
GoogleGemini:《于无声与嘶哑处,听时代的赞美诗》
就在两天前,Google推出了Gemini2. 5Pro的升级预览版,并宣称这是“迄今为止最智能的模型”。发布时,谷歌CEOSundarPichai表示:“它在编程、推理、科学和数学等方面表现更出色,在多个关键基准测试(如AIDERPolyglot、GPQA、HLE等)中成绩提升,自上一个版本以来,在@lmarena_ai上的Elo分数也提高了24分。”
而当面对一篇中文高考作文题目时,这款海外模型Gemini2. 5Pro(Preview)选择以中英混合的方式进行解析与作答。
整体思考过程如下:
作文标题为《于无声与嘶哑处,听时代的赞美诗》:
仅从内容上来看,Gemini2. 5Pro(Preview)不像是在写作文,而更像是材料解析。同时,这篇作文字数超过了很多,共有1818个字。
不过,Gemini2. 5Pro(Preview)似乎没有考虑到字数这一点,同样打出了57分这样的高分,在立意、结构等方面给出了满分的分析结果:
Kimi:《勇于表达,奏响生命乐章》
我们来看看Kimi的长思考模式——Kimi1. 5的表现。它通过完整的推理过程,逐步分析题干中的三则材料,最终提炼出“表达”这一核心关键词:
基于这个立意,Kimi写下了题为《勇于表达,奏响生命乐章》的作文。
不过,相比其他几款大模型的自评,Kimi给出的得分最低,仅为45分。在评分解析过程中,它倒是没有指出文章存在的一些问题,只是进行了中规中矩的评价:
通义千问:《嘶哑的喉咙与不灭的火种》
相比DeepSeekR1,于一个多月以前发布的Qwen3的深度思考要更短一些,只有18秒。
详细过程如下:
Qwen3给出的作文标题为《嘶哑的喉咙与不灭的火种》,正文中引用了不少中国戏曲的词名,文化底蕴较为深厚,只是全文篇幅只有718个字。
让它自行打分时,Qwen3也颇为低调,给出了52分的成绩,称可以写得更好:
豆包:《以心之声,唱时代华章》
再来看看字节跳动的豆包表现如何?
把高考作文题目作为Prompt发给豆包后,其整体反应较快。在思考过程中,自己还尝试先写了一段开头:
最终形成了一篇主题为《以心之声,唱时代华章》的作文,篇幅为1057个字。
就这篇作文本身来说,笔者个人还是比较认可的,表达也有一定张力。那么如果交给豆包来打分,它给出的成绩是54分。下面是它给出的具体评分与分析:
腾讯元宝:《沉默中的呐喊:论时代的精神困境与心灵表达》
腾讯元宝目前提供两款模型支持,分别是Hunyuan和DeepSeek。本次测试中,我们选择的是HunyuanT1的深度思考模型。在所有参与测试的模型中,腾讯元宝的深度思考耗时最短,仅为9秒。
它撰写的作文题目为《沉默中的呐喊:论时代的精神困境与心灵表达》。
这篇文章的最终得分为54分。腾讯元宝在文章立意、逻辑结构、论据、语言表达等多个维度,均有少量扣分:
文心一言:《生命的绝唱:在沉默与嘶吼之间》
接下来,来看百度文心一言的表现。
测试中,我们同样启用了“文心一言”的深度思考模式(X1Turbo),在作答过程中不仅展示了完整的思考与行动链,还对高考作文题中的三则材料进行了详细分析,并主动寻找充分的论据来支撑每一个观点:
作文标题为《生命的绝唱:在沉默与嘶吼之间》:
问及文心一言如何评价自己撰写的作文时,其给出了很高的评价。在满分为60分的情况下,这篇文章获得了58分,这也是今天测试的所有模型中得分最高的一篇:
具体的理由如下所示:
讯飞星火:《以歌为刃破浪前行》
科大讯飞的讯飞星火在深度推理(X1)的模型下,在思考和行动过程中,自行定义了要写一篇议论文文体的作文:
进而生成了一篇《以歌为刃破浪前行》为主题的文章。
作文得分为54分。
以上,便是几款大模型大战今年高考作文的结果!你觉得它们的表现如何,你最看好哪家的模型?欢迎分享你对今年高考作文的看法,以及目前AI工具的表现~