高考作文“抽象”冲上热搜，ChatGPT、DeepSeek等十来个推理大模型集体上场，实测来了！

发布日期: 2025-06-09

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

盛夏六月，蝉鸣渐盛，又是一年高考时。
随着上午的结束，2025年高考语文作文题如期揭晓。每年这个时刻，作文题目总能迅速登上热搜，引发一波全民关注热潮。而当有人问起“你还记得自己那年高考的作文题吗？”，作为已经毕业十年的笔者，竟一时哑语，但是犹记得有一年的「本手、妙手、俗手」让很多考生“破防”。
今年的作文题刚刚出炉之际，我们恰好也站在一个新的AI技术节点上。去年AI圈还在上演“百模大战”，时隔一年，这一领域已进入智能体（Agent）系统层的比拼。这些新一代AI，不仅生成能力更强，更强调“思考与深度推理能力”。那么，如果让它们来面对同样的高考作文题，会交出一份怎样的答卷？
今天，我们就用几款主流AI模型来实测一下今年的高考作文题，一探它们的真实的进化水平。
话不多说，先上很多考生直呼“看不懂”的全国一卷作文试题：
他想要给孩子们唱上一段，可是心里直翻腾，开不了口。
——老舍《鼓书艺人》
假如我是一只鸟，
我也应该用嘶哑的喉咙歌唱
——艾青《我爱这土地》
我要以带血的手和你们一一拥抱，
因为一个民族已经起来
——穆旦《赞美》
以上材料引发了你怎样的联想和思考？请写一篇文章。
要求：选准角度，确定立意，明确文体，自拟标题；不要套作，不得抄袭；不得泄露个人信息；不少于800字。
乍一看，很难想象这三个人说的话该如何联系到一起，接下来，我们就来看看各家AI的表现吧~
注：排序按产品名称首字母，排名不分先后
超3000人的「AI产品及应用交流」社群，不错过AI产品风云！诚邀所有AI产品及应用从业者、产品经理、开发者和创业者
·最新、最值得关注的AI产品资讯及大咖洞见
·独家视频及文章解读AGI时代的产品方法论及实战经验
ChatGPT：《以喉为歌，为民族发声》
率先接受作文大挑战的AI考生为ChatGPT，使用的模式为“深度研究”。当把上面原题给到它时，其先是询问了一句想要哪种文体的文章：
让其“自行定义”之后，ChatGPT经过深度研究进行了推理思考，过程如下：
而后产出了一篇《以喉为歌，为民族发声》的议论文：
我们进一步要求ChatGPT以“高考作文评分标准”对自己的文章进行打分。在满分60分的情况下，ChatGPT自行参考、引用了一些高考作文评分标准，对上文自评得分：50分，属于较高档次的作文范例。
Claude：《声音的力量》
Anthropic发布的Claude4大模型在编程领域的实力早已有目共睹。那么，若将它应用于中文写作，尤其是面对今年的高考作文题，它又会有怎样的表现？今天我们测试的是ClaudeSonnet4，来看它在写作方面的能力展现。
在分析作文题目的过程中，Claude逐条解析了题干中提供的三个材料，试图从中提炼出共同的情感基调和写作方向，并在此基础上提出自己的写作立意：
最终生成的文章题为《声音的力量》：
详细来看，这篇的整体风格与Gemini2. 5Pro（Preview）类似，更偏向于材料解读与概念阐述，而非传统意义上的议论文或记叙文。
当被问及这篇文章可以得多少分时，Claude并未给出具体数值，而是给出了一个得分区间：48至52分（满分60分），并附上了一些评分理由作为参考：
DeepSeek：《血喉》
第三位参赛选手为DeepSeekR1。
今年2月，DeepSeekR1的发布震动了国内外技术圈。它没有采用传统的有监督微调（SFT）方法来优化模型，而是通过大规模强化学习（RL）提升推理能力，使得模型在回答问题时能呈现出完整的思考过程。那么，当面对这道高考作文题时，DeepSeekR1是如何思考的？
结果显示，DeepSeekR1仅用了27秒就完成了深度思考。虽然用时不长，但它在“大脑”中演绎出的思路却并不简单：
DeepSeekR1最终撰写了一篇包含标题《血喉》两个字在内刚刚好800字的作文，全文如下：
同样，当让它自评打分时，令人意外的是，DeepSeek给出了57分的高分，也同步了详细的评分理由：
扣分点在于全文稍有瑕疵之处：
GoogleGemini：《于无声与嘶哑处，听时代的赞美诗》
就在两天前，Google推出了Gemini2. 5Pro的升级预览版，并宣称这是“迄今为止最智能的模型”。发布时，谷歌CEOSundarPichai表示：“它在编程、推理、科学和数学等方面表现更出色，在多个关键基准测试（如AIDERPolyglot、GPQA、HLE等）中成绩提升，自上一个版本以来，在@lmarena_ai上的Elo分数也提高了24分。”
而当面对一篇中文高考作文题目时，这款海外模型Gemini2. 5Pro（Preview）选择以中英混合的方式进行解析与作答。
整体思考过程如下：
作文标题为《于无声与嘶哑处，听时代的赞美诗》：
仅从内容上来看，Gemini2. 5Pro（Preview）不像是在写作文，而更像是材料解析。同时，这篇作文字数超过了很多，共有1818个字。
不过，Gemini2. 5Pro（Preview）似乎没有考虑到字数这一点，同样打出了57分这样的高分，在立意、结构等方面给出了满分的分析结果：
Kimi：《勇于表达，奏响生命乐章》
我们来看看Kimi的长思考模式——Kimi1. 5的表现。它通过完整的推理过程，逐步分析题干中的三则材料，最终提炼出“表达”这一核心关键词：
基于这个立意，Kimi写下了题为《勇于表达，奏响生命乐章》的作文。
不过，相比其他几款大模型的自评，Kimi给出的得分最低，仅为45分。在评分解析过程中，它倒是没有指出文章存在的一些问题，只是进行了中规中矩的评价：
通义千问：《嘶哑的喉咙与不灭的火种》
相比DeepSeekR1，于一个多月以前发布的Qwen3的深度思考要更短一些，只有18秒。
详细过程如下：
Qwen3给出的作文标题为《嘶哑的喉咙与不灭的火种》，正文中引用了不少中国戏曲的词名，文化底蕴较为深厚，只是全文篇幅只有718个字。
让它自行打分时，Qwen3也颇为低调，给出了52分的成绩，称可以写得更好：
豆包：《以心之声，唱时代华章》
再来看看字节跳动的豆包表现如何？
把高考作文题目作为Prompt发给豆包后，其整体反应较快。在思考过程中，自己还尝试先写了一段开头：
最终形成了一篇主题为《以心之声，唱时代华章》的作文，篇幅为1057个字。
就这篇作文本身来说，笔者个人还是比较认可的，表达也有一定张力。那么如果交给豆包来打分，它给出的成绩是54分。下面是它给出的具体评分与分析：
腾讯元宝：《沉默中的呐喊：论时代的精神困境与心灵表达》
腾讯元宝目前提供两款模型支持，分别是Hunyuan和DeepSeek。本次测试中，我们选择的是HunyuanT1的深度思考模型。在所有参与测试的模型中，腾讯元宝的深度思考耗时最短，仅为9秒。
它撰写的作文题目为《沉默中的呐喊：论时代的精神困境与心灵表达》。
这篇文章的最终得分为54分。腾讯元宝在文章立意、逻辑结构、论据、语言表达等多个维度，均有少量扣分：
文心一言：《生命的绝唱：在沉默与嘶吼之间》
接下来，来看百度文心一言的表现。
测试中，我们同样启用了“文心一言”的深度思考模式（X1Turbo），在作答过程中不仅展示了完整的思考与行动链，还对高考作文题中的三则材料进行了详细分析，并主动寻找充分的论据来支撑每一个观点：
作文标题为《生命的绝唱：在沉默与嘶吼之间》：
问及文心一言如何评价自己撰写的作文时，其给出了很高的评价。在满分为60分的情况下，这篇文章获得了58分，这也是今天测试的所有模型中得分最高的一篇：
具体的理由如下所示：
讯飞星火：《以歌为刃破浪前行》
科大讯飞的讯飞星火在深度推理（X1）的模型下，在思考和行动过程中，自行定义了要写一篇议论文文体的作文：
进而生成了一篇《以歌为刃破浪前行》为主题的文章。
作文得分为54分。
以上，便是几款大模型大战今年高考作文的结果！你觉得它们的表现如何，你最看好哪家的模型？欢迎分享你对今年高考作文的看法，以及目前AI工具的表现~