刚刚,OpenAI 发布 GPT-4.1!全系支持百万 token 上下文,全方位碾压 GPT-4o 并且价格更低!
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
昨天凌晨,OpenAI的新系列模型GPT-4.1如约而至。
该系列包含了三个模型,分别是GPT-4.1、GPT-4.1mini和GPT-4.1nano,它们仅通过API调用,并已向所有开发者开放。
随着该系列模型在很多关键功能上提供了类似或更强的性能,并且成本和延迟更低,因此OpenAI将开始在API中弃用GPT-4.5预览版。弃用时间为三个月后(2025年7月14日),从而为开发者提供时间过渡。
OpenAI表示,这三个模型的性能全面超越了GPT-4o和GPT-4omini,并在编程和指令遵循方面均有显著提升。它们还拥有更大的上下文窗口——支持高达100万个上下文token,并且能够通过改进的长上下文理解更好地利用这些上下文。知识截止日期已更新至2024年6月。
总的来说,GPT-4.1在以下行业标准指标上表现出色:
编程:GPT-4.1在SWE-benchVerified测试中得分为54.6%,比GPT-4o提升21.4%,比GPT-4.5提升26.6%,使其成为领先的编程模型。
指令遵循:在Scale的MultiChallenge基准测试(衡量指令遵循能力的指标)中,GPT-4.1得分为38.3%,比GPT-4o提升了10.5%。
长上下文:在多模态长上下文理解基准测试Video-MME中,GPT-4.1创下了新的最高纪录——在长篇无字幕测试中得分为72.0%,比GPT-4o提升了6.7%。
虽然基准测试成绩非常不错,但OpenAI在训练这些模型时重点关注了实际效用。通过与开发者社区的密切合作和伙伴关系,OpenAI针对开发者应用最相关的任务优化来这些模型。
为此,GPT-4.1模型系列以更低的成本提供了卓越的性能。这些模型在延迟曲线的每个点上都实现了性能的提升。
GPT-4.1mini在小型模型性能上实现了显著飞跃,甚至在多项基准测试中超越了GPT-4o。该模型在智能评估方面与GPT-4o旗鼓相当甚至超越,同时将延迟降低了近一半,成本降低了83%。
对于要求低延迟的任务,GPT-4.1nano是OpenAI目前速度最快、成本最低的模型。该模型拥有100万token上下文窗口,在小规模下仍能提供卓越的性能,在MMLU测试中得分达80.1%、在GPQA测试中得分达50.3%、在Aider多语言编码测试中得分达9.8%,甚至高于GPT-4omini。该模型是分类或自动补全等任务的理想选择。
在指令遵循可靠性和长上下文理解方面的改进,也使GPT-4.1模型在驱动智能体(即能够代表用户独立完成任务的系统)方面更加高效。结合ResponsesAPI等原语,开发者现在可以构建在实际软件工程中更有用、更可靠的智能体,从大型文档中提取洞见,以最少的手动操作解决客户请求,以及执行其他复杂任务。
同时,通过提升推理系统的效率,OpenAI得以降低GPT-4.1系列的价格。GPT-4.1的中等规模查询成本比GPT-4o低26%,而GPT-4.1nano是OpenAI迄今为止最便宜、速度最快的模型。
对于重复传递相同上下文的查询,OpenAI将新系列模型的即时缓存折扣从之前的50%提升至75%。此外,除了标准的每token成本外,OpenAI还提供长上下文请求,并且无需额外付费。
OpenAICEO山姆・奥特曼表示,GPT-4.1不仅基准测试成绩优异,并且专注真实世界的实用性,应该会令开发者开心的。
看起来,OpenAI实现了自家模型能力上的「4.10﹥4.5」。
图源:https ://x.com/stevenheidel/status/1911833398588719274
编程
GPT-4.1在各种编码任务上都显著优于GPT-4o,包括智能体解决编码任务、前端编程、减少无关编辑、可靠遵循diff格式、确保工具使用一致性等任务。
在衡量真实世界软件工程技能的SWE-benchVerified测试中,GPT-4.1完成了54.6%的任务,而GPT-4o(2024-11-20)完成了33.2%。这反映了该模型在探索代码库、完成任务以及生成可运行和通过测试的代码方面的能力提升。
对于需要编辑大型文件的API开发者来说,GPT-4.1在处理各种格式的代码diff时更可靠。在Aider的多语言差异基准测试中,GPT-4.1的得分是GPT-4o的两倍多,甚至比GPT-4.5高出8%。这项评估既衡量了跨多种编程语言的编码能力,也衡量了模型在整体和diff格式下生成更改的能力。
OpenAI专门训练了GPT-4.1,使其能够更可靠地遵循diff格式,这使得开发者只需输出更改的行,而无需重写整个文件,节省成本和延迟。同时,对于喜欢重写整个文件的开发者,OpenAI将GPT-4.1的输出token限制增加到32,768个token(高于GPT-4o的16,384个token)。OpenAI还建议使用预测输出来减少完整文件重写的延迟。
GPT-4.1在前端编程方面也较GPT-4o有了显著提升,能够创建功能更强大、更美观的Web应用。在head-to-head对比中,付费人工评分员80%的评分结果显示,GPT-4.1的网站比GPT-4o的网站更受欢迎。
除了上述基准测试之外,GPT-4.1在遵循格式方面表现更佳,可靠性更高,并且减少了无关编辑的频率。在OpenAI内部评估中,代码中的无关编辑从GPT-4o的9%下降到了GPT-4.1的2%。
指令遵循
GPT-4.1能够更可靠地遵循指令,并在各种指令遵循评估中实现了显著的改进。OpenAI开发了一个内部指令遵循评估系统,用于跟踪模型在多个维度和几个关键指令执行类别中的表现,包括:
格式遵循。提供指令,指定模型响应的自定义格式,例如XML、YAML、Markdown等。
负面指令。指定模型应避免的行为,例如:「不要要求用户联系支持人员」。
有序指令。提供一组模型必须按给定顺序遵循的指令,例如:「首先询问用户的姓名,然后询问他们的电子邮件地址」。
内容要求。输出包含特定信息的内容,例如:「编写营养计划时,务必包含蛋白质含量」。
排序。以特定方式对输出进行排序,例如:「按人口数量对响应进行排序」。
过度自信。指示模型在请求的信息不可用或请求不属于给定类别时回答「我不知道」或类似的内容,例如:「如果您不知道答案,请提供支持联系电子邮件地址」。
这些类别是根据开发者的反馈得出的,表明了哪些指令遵循对他们来说最相关且最重要。在每个类别中,OpenAI将其分为简单、中等和困难提示。GPT-4.1在困难提示方面的表现尤其优于GPT-4o。
多轮指令遵循对许多开发者来说至关重要。对于模型来说,在对话中保持连贯性并跟踪用户之前输入的内容至关重要。GPT-4.1能够更好地从对话中的过往消息中识别信息,从而实现了更自然的对话。Scale的MultiChallenge基准测试是衡量这一能力的有效指标,GPT-4.1的表现比GPT-4o提高了10.5%。
GPT-4.1在IFEval上也得到了87.4%,而GPT-4o的得分为81.0%。IFEval使用带有可验证指令的提示,例如指定内容长度或避免使用某些术语或格式。
更佳的指令遵循能力使现有应用程序更加可靠,并支持此前受可靠性低下限制的新应用程序。早期测试人员指出,GPT-4.1可以更加直观,因此OpenAI建议在提示中更加明确和具体。
长上下文
GPT-4.1、GPT-4.1mini和GPT-4.1nano最多可处理100万个上下文token,而之前的GPT-4o模型最多可处理12.8万个。100万个token相当于8个完整的React代码库,因此长上下文非常适合处理大型代码库或大量长文档。
GPT-4.1能够可靠地处理100万token上下文长度的信息,并在注意相关文本和忽略长短上下文干扰项方面比GPT-4o更加可靠。长上下文理解是法律、编程、客户支持以及许多其他领域应用的关键能力。
OpenAI演示了GPT-4.1检索位于上下文窗口内各个点的隐藏小信息(needle)的能力。GPT-4.1能够持续准确地检索所有位置和所有上下文长度的needle,最大检索量可达100万个token。无论这些token在输入中的位置如何,GPT-4.1都能有效地提取与当前任务相关的细节。
然而,现实世界中很少有任务像检索一个显而易见的「needle」答案那样简单。OpenAI发现用户经常需要模型检索和理解多条信息,并理解这些信息之间的相互关联。为了展示这一能力,OpenAI开源了一项新的评估:OpenAI-MRCR(多轮共指)。
OpenAI-MRCR测试模型识别并消除上下文中隐藏的多个「needle」的能力。评估包括用户和助手之间的多轮合成对话,用户要求助手撰写一篇关于某个主题的文章,例如「写一首关于貘的诗」或「写一篇关于岩石的博客文章」,接着会在整个上下文中插入两个、四个或八个相同的请求,最后模型必须检索与特定实例对应的响应(例如「给我第三首关于貘的诗」)。
挑战在于这些请求与上下文其余部分的相似性,模型很容易被细微的差异误导,例如关于貘的短篇故事而不是诗歌,或者关于青蛙的诗歌而不是貘。OpenAI发现,GPT-4.1在上下文长度高达128K个token时的表现优于GPT-4o,并且即使长度高达100万个token时也能保持强劲的性能。
OpenAI还发布了Graphwalks,这是一个用于评估多跳长上下文推理的数据集。许多开发者在长上下文用例中需要在上下文中进行多次逻辑跳跃,例如在编写代码时在多个文件之间跳转,或在回答复杂的法律问题时交叉引用文档。
理论上,模型(甚至人类)可以通过一遍遍阅读提示词来解决OpenAI-MRCR问题,但Graphwalks的设计要求在上下文中的多个位置进行推理,并且无法按顺序求解。
Graphwalks会用由十六进制哈希值组成的有向图填充上下文窗口,然后要求模型从图中的随机节点开始执行广度优先搜索(BFS)。然后要求它返回一定深度的所有节点。结果显示,GPT-4.1在此基准测试中达到了61.7%的准确率,与o1的性能相当,并轻松击败了GPT-4o。
视觉
GPT-4.1系列模型在图像理解方面同样非常强大,尤其是GPT-4.1mini实现了重大的飞跃,在图像基准测试中经常击败GPT-4o。
以下为MMMU(回答包含图表、图解、地图等的问题)、MathVista(解决视觉数学问题)、CharXiv-Reasoning(回答科学论文中关于图表的问题)等基准上的表现对比。
长上下文性能对于多模态用例(例如处理长视频)也至关重要。在Video-MME(长视频无字幕)中,模型基于30-60分钟长的无字幕视频回答多项选择题。GPT-4.1达到了最佳性能,得分为72.0%,高于GPT-4o的65.3%。
更多测试指标请参考OpenAI原博客。
博客地址:https ://openai.com/index/gpt-4-1/
推荐阅读
(点击标题可跳转阅读)
《机器学习100天》视频讲解
公众号历史文章精选
我的深度学习入门路线
重磅!
1700多页的《人工智能学习路线、干货分享全集》PDF文档
扫描下方二维码,添加我的微信,领取1700多页的《人工智能学习路线、干货分享全集》PDF文档(一定要备注:资料)。
长按扫码,申请入群
感谢你的分享,点赞,在看三连