【实测】ChatGPT 4.1 很好，但没那么好

发布日期: 2025-04-16

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

省流：写代码，写文章，设计卡片，数学能力都不甚令人满意
大家好，我是Ai学习的老章
OpenAi又发新模型了，新推出的GPT-4.1系列模型，包括GPT-4.1、GPT-4.1mini和GPT-4.1nano，官网介绍：它们在编码、指令遵循、长上下文处理等方面有显著提升，且成本更低。在编码能力上，GPT-4.1在SWE-benchVerified测试中得分54.6%，远超GPT-4o和GPT-4.5，在多种编码任务上表现出色。
长上下文处理能力增强：GPT-4.1、GPT-4.1mini和GPT-4.1nano可处理高达100万标记的上下文，远高于之前GPT-4o模型的128,000标记。这使得模型在处理大型代码库或大量长篇文档时游刃有余。
通过对推理系统的优化，GPT-4.1系列价格更低。例如，GPT-4.1在中位数查询上比GPT-4o便宜26%，GPT-4.1nano更是有史以来最便宜和最快的模型。
GPT-4.1仅提供API，openai对国内网络不友好
我找了两个可以使用的地方：
GithubCopilit中可以申请开通GPT-4.1
地址：https ://github.com/copilot
我试了确实免费，是否有别的限制，未知。
WindSurf也更新了，免费试用7天，本文测试均在Windsurf中进行
下载地址：https ://windsurf.com/refer?referral_code=60b0053769
不欺负它，出一道小学一年级下学期的题目
它回答不出来
GPT-4o就可以回答正确
提示词：
结果：代码生成很快，运行顺畅无bug，但是只有一个球。
提醒其错误后，重新生成代码，一切正常了。
提示词：阅读全文，文中共几次父亲的背影？分别有何深意，输出SVG格式，3:4，小红书风格：——省略1328字
结果:没有理解到位，只找到3个背影，设计出来的卡片奇丑无比
看看Claude3.7就知道差距了
他找到了原文，针对原文做了深意理解
然后还完美呈现出来了，🐮🐮🐮🐮🐮🐮
给它英文素材，写一篇有人文气息的科技文章，结果如下：
其实前几天推文这篇文章是Claude-3.7写的，差距蛮大的，我觉得4.1完败：
[[2025-04-16-如果你用过matplotlib，请记住他的名字]]
直接让它设计一款小游戏并写好可运行的代码
一口气写了十几个文件，测试可以跑通，但是可玩性不太好
反观Claude-3.7帮我设计的是真消消乐，翻转卡片找配对的单词和中文，很好玩
把游戏截图画面给GPT-4.1，识别没有问题，但是对相邻字母没有理解到位
我实际没有api，完整测试没法搞，只能看OpenAI官方测试情况了
GPT-4.1检索位于上下文窗口内不同点的一小条隐藏信息（“针”）的能力。GPT-4.1在所有位置和所有上下文长度上始终如一地准确检索指针，一直到100万个令牌。它能够有效地提取手头任务的相关详细信息，而不管它们在输入中的位置如何。
大海捞针评估中，GPT-4.1、GPT-4.1mini和GPT4.1nano都能够在最远1M的环境中检索所有位置的针。
制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！
搭建完美的写作环境：工具篇（12章）图解机器学习-中文版（72张PNG）ChatGPT、大模型系列研究报告（50个PDF）108页PDF小册子：搭建机器学习开发环境及Python基础116页PDF小册子：机器学习中的概率论、统计学、线性代数史上最全！371张速查表，涵盖AI、ChatGPT、Python、R、深度学习、机器学习等