仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
此前,一篇关于AI预测的文章:《AI-2027. pdf出炉:2027年,AI将如何接管世界?》在全网疯传,其称AI将在2027年达到超人智能。
这个由知名博主ScottAlexander领衔的项目,用科幻小说的形式描绘了AI快速接管世界的场景,还配上了看起来很专业的数学模型和图表。
而今天要分享的这篇文章,作者是一位计算物理学家,他花了大量时间研究了《AI2027》的代码和方法论,结果发现:这个看似严谨的预测模型,其实漏洞百出。
•致命的数学错误:模型中的\“超指数曲线\“在2030年会算出负数和虚数,这在数学上完全说不通
•曲线选择毫无依据:作者给这个会\“爆炸\“到无穷大的曲线分配了40%的概率,却几乎没有提供任何理论支撑
•展示图表与实际模型不符:向公众展示的预测曲线,根本不是他们代码里实际使用的曲线
•数据拟合形同虚设:声称基于Re-bench基准测试的预测,实际上完全没有使用测试数据,而是直接\“猜\“的
•历史数据对不上:如果把模型倒推回2022年,得出的AI进步速度与作者自己的估计相差66%
•参数设置随意:关键参数缺乏不确定性分析,很多数值看起来就是拍脑袋定的
•过度复杂却缺乏验证:模型包含9-14个参数,但只有11个数据点,这在统计学上是个笑话
•作者总结:如果这就是顶级AI预测,那预测这门学问可能根本不值得认真对待
下为原文👇
标题:对AI2027糟糕时间线模型的深度批判
发布时间:2025-06-19T13:29:59. 310Z
感谢Arepo和EliLifland审阅本文并指出错误。
抱歉本文如此冗长。每次我以为写完时,总会发现模型存在更多问题。为求全面,我尽可能详尽阐述。读者可自行选择跳读部分内容。
需说明的是,本文主体写作完成于Eli更新模型[ 1]之前(网站更新于6月8日)。新模型虽改进了部分问题,但多数批判依然成立。
AI2027[ 2]是\“AI未来团队\“撰写的文章,核心是由ScottAlexander执笔的短篇故事,按月描绘了AI在2027年达到超级智能后,用一两年时间自动化整个经济体系,最终根据政府政策决定人类存亡的近未来场景。
与其他科幻故事不同,AI2027宣称其预测基于预测专家严格的建模与数据分析,并附有五篇附录[ 3]的\“详细研究支持\“及模拟代码库。团队声称\“数百人\“参与评审,包括AI专家YoshuaBengio,不过部分评审者仅接触片段内容[ 4]。
这个短篇故事并非任何AI未来研究者的中位预测,AI2027作者们也不认为2027年是奇点发生的中位年份。但他们主张2027年是\“合理\“时间点,并以下图这类看似复杂的建模作为佐证:
精彩故事与貌似严谨研究的结合,或许是该文病毒式传播并被视作严肃项目的秘诀。正如作者自述[ 5]:
过去几周对AI未来项目团队堪称疯狂。网页访问量[ 6]近百万;Dwarkesh访谈[ 7]观看量达16. 6万。我们收到无数播客邀请,团队成员在哈佛、美国科学家联合会和OpenAI等地演讲。
最初我打算冷眼旁观等待预测失败,但这个作品持续发酵,包括某播放量数百万的YouTube视频[ 8]。于是我决定深入研究模型与代码,试图理解作者的论证逻辑及其依据。
由于文章体量庞大,我仅聚焦于\“时间线预测\“代码及相关方法论部分。直白地说,我认为这个模型相当糟糕。问题不仅在于参数估计的分歧,更在于模型基础结构存在严重缺陷,部分代码描述甚至与实际情况不符,且缺乏实证验证。
作为计算物理学者,我虽非AI专家,但熟悉计算建模。该预测模型仅约300行代码(这本身并非缺点)。本文将尽力在专业范围内,向您解析其模型假设与结构,并指出存在的问题。
值得肯定的是,AI2027作者们对批评持开放态度。模型作者之一EliLifland友善审阅了本文的事实错误部分。尽管在方法论和哲学层面我们存在分歧,他认同部分批评并告知将据此修改模型说明。
即便您认为我的批评过于严苛,本文对AI2027时间线模型的解析仍比原作者更清晰,您可自行判断其价值。
请记住博客文章天生存在错误,应对所有内容(包括本文)保持适当怀疑。也请给予AI未来团队合理回应时间。我将在EA论坛和LessWrong同步发布本文,欢迎参与讨论。若发现本文或其他作品存在事实错误,欢迎通过Substack联系。本文图表生成代码(稍显杂乱)可见此处[ 9]。
编辑:作者回应见:
注:本文按模型解释结构展开,逐部分分析批判。问题严重程度各节不同,结论部分将汇总主要问题。
AI2027包含多个组成部分。本文仅讨论其\“时间线\“预测——论证链条的第一环:试图证明极高水平AI程序员可能在极短时间内出现。
预测目标是实现\“超人程序员\“(SC)的时间,定义为能比人类AI研究员快30倍、便宜30倍完成同等工作的AI。方法论描述见此处[ 11],代码见此处[ 12]。写作时的方法论存档见此处[ 13],Eli表示将根据本文批评进行多处修改。
AI2027采用两种建模方法:\“时间跨度扩展\“法与\“基准与差距\“法。另有\“综合考量预测\“用于调整地缘政治和宏观经济因素,但未提供详细信息,故不予讨论。
本文第一部分聚焦时间跨度扩展法,第二部分分析其更青睐的基准与差距法。主要预测者为Eli和Nikola,因此重点关注他们的参数设置。
时间跨度法基于METR报告《衡量AI完成长任务的能力》[14]中的80%时间跨度数据。METR团队通过比较AI与人类研究员在各类AI研发任务上的表现,用耗时量化任务难度。80%的\“1小时时间跨度\“意味着AI在人类研究员需1小时完成的任务上总体成功率达80%(推测用时远少于人类,虽然报告中未明确说明)。METR报告声称,AI能处理任务的时间跨度正呈指数增长。下图是其展示进展的图表之一(注意y轴对数尺度):
METR报告较新且尚未经同行评审或复现。虽然我认为该报告质量尚可,但科学研究中常出现尚未发现的微妙缺陷。建议直接阅读报告,其对(可理解的)局限性表述清晰。例如参与测试的人类并非顶尖专家且对任务不熟悉:若对比熟悉任务的顶尖专家,时间跨度会显著降低。但为保持一致,下文仍将以此数据为主要参照。
在简单时间跨度模型中,每位预测者需判断METR基准中何种时间跨度对应前述定义的\“超人程序员\“(SC)。Eli考虑METR的局限性,将SC阈值设得较高(10年);Nikola则设为较低的1. 5个月。
作者观察METR数据及其对AI的认知,将时间跨度曲线外推至未来,计算其达到SC所需时间跨度的时点。随后添加数月用于SC成本下降,得到实现SC的总时间。
此后进行\“中期加速\“计算,考虑AI进步对研发时间的加速作用,从而得出更短的SC实现时间预测(后文详述)。
该模型涉及众多参数。为体现参数不确定性,每个参数值从对数正态分布中抽样,再用这些参数运行模拟:多次重复此过程以获得最终结果的可能值范围,如引言中的不确定性图表所示。本文较少讨论对数正态抽样,但这不表示我认可该方法。
相反,我将主要考察其分布中值的点估计——即其对参数真实值的最佳猜测。用所有最佳猜测参数运行的模拟理应看起来合理。
编辑:此处需更明确说明——对数正态抽样使问题复杂化,此处仅为研究简便作近似处理。例如两个对数正态分布相加时,总和中位数会大于中位数之和。建议AI未来团队进一步探索对数正态抽样对结果的影响。
首先分析时间跨度预测方法1的假设,特别是其投影曲线形态。
作者将概率质量大致均分于\“指数\“和\“超指数\“曲线(每位预测者各赋予约40%概率)。先讨论\“指数\“曲线。此处我的反对意见相对温和,但有助于铺垫后续更大问题。
指数曲线相当简单:假设时间跨度(H)每T_0个月翻倍,其中T_0是\“倍增时间\“(需估计的参数),初始值为H_0。公式为:
其中T以模拟起始时间为基准。只要H与H_0单位一致(图表中用小时),T与T_0单位一致(图表中用年),具体单位不影响结果。
下图红色线为其指数曲线中值,虚线为80%置信区间边界。紫色和蓝色虚线分别对应Nikola和Eli的SC阈值。
这里出现我对该预测的第一个较小质疑。他们用当前时间跨度和当前倍增时间作为H_0和T_0的输入参数,却未考虑H_0估计的不确定性——每次模拟都精确设为15分钟,尽管METR图表中明显存在误差条。
这很重要,因为如METR报告指出,近年时间跨度增长似乎加快。但我们无法确定这是新常态还是噪声或短期波动。观察摩尔定律图表[ 15]可知,增长速率常有暂时性高低波动。若要估计长期趋势曲线,应该估计长期曲线参数而非当前日参数。[1]
需强调的是,此处的\“指数\“曲线并非METR预测的指数曲线(后者拟合历史数据)。但请暂缓评判拟合效果,因为该曲线尚未纳入研发加速因素。后文将详述这点,这也是我在章节标题给\“指数\“加引号的原因。
现在探讨问题更大的\“超指数曲线\“。
首先需明确:\“超指数\“并非特定曲线名称(如双曲线或正弦曲线),仅表示\“比指数增长更快的曲线\“,存在无限多种可能。
那么具体指哪种?作者未提供具体公式(整个时间线预测几乎未列任何公式),但给出描述:
\“若增长呈超指数,我们设定每次翻倍所需时间递减10%。\“
例如按其点估计:2025年初始80%时间跨度为15分钟,初始倍增时间4. 5个月。随后每次倍增时间递减10%:第二次(至30分钟)为4. 1个月,第三次(至1小时)为3. 7个月,依此类推。
试猜:该模型预测2030年的80%时间跨度是多少?
数学推导开始
本段将上述描述转化为时间跨度的实际方程。若高中数学让您不适,可跳过并信任我的推导。
设缩减率为α(此处为10%即0. 1),则倍增时间乘数r=1-α=0. 9。第n次倍增时间为T*r^n,其中T为初始倍增时间。
因此总时间为等比数列求和:
该求和结果众所周知[ 16]:
这正是GitHub代码中使用的方程。但他们未将其转化为时间跨度与时间的函数,我将通过重新排列方程实现:
结合方程:
经过指数与对数运算[ 2],并将r转换回(1-α),最终得到:
其中H0为起始时间跨度,α为缩减比例,T0为初始倍增时间,t为模拟起始后的时间。[3]
在AI2027中,H0设为15分钟,α设为0. 1(即倍增时间缩减10%),初始倍增时间设为4. 5个月(80%置信区间2. 5至9个月)。代入这些参数得:
其中t单位为年。
数学推导结束
现在观察实际曲线:
与之前相同,初始时间跨度H0参数未纳入不确定性分析。更疯狂的是,倍增时间缩减率α也未经不确定性分析!(注:Eli最新版本已更新此点)。后文将展示,α参数是整个模型中影响最大的参数之一,却未建模其不确定性,仅随意选取10%且未解释理由。
现在可以回答之前的问题:上方红色曲线对2030年时间跨度的预测是多少?
用WolframAlpha计算,结果为\“-2542-11372i\“
没错,这是个负数和虚数。
实际发生的情况是:当括号内项为零时,出现除以零导致无穷大。超过该点后,负数的非整数次幂会产生无意义的复数解。
该方程的无穷点出现在t=T0/α时刻,无论初始参数如何都会存在。实际上,这个无穷点完全独立于时间跨度和SC阈值。若保持相同α和倍增时间,即使初始时间跨度为纳秒级,SC阈值为万亿年,该曲线仍会断言超人编程将在2029年底前实现。
Reddit用户mambo-12345[ 17]尝试将初始时间跨度从15分钟改为15纳秒,结果曲线预测的SC到达时间峰值仍在2026. 5年,中位数2035年。感谢他启发我深入探究:
需澄清:该方程必然在特定时间后失效,但这未必使其无效或不正确。可辩称这只是短期的近似,AI2027团队也确实表示当时间跨度达到某阈值时(前图虚线所示),会切换预测方法。
即便如此…这个曲线非常古怪,具有奇特性质,绝非听到\“超指数\“时首先想到的曲线。若要采信该模型,我需要看到强有力的经验或概念证据证明其合理性。下文将展示这类证据并不存在。
那么,作者提供了哪些支持超指数性的论证?按随机顺序罗列:
论证1:公开vs内部模型
\“若考虑公开与内部模型差距随时间缩小,趋势可能更倾向超指数。据传GPT-4在预训练完成后7个月发布,而现在延迟似乎更短——例如据发布视频,Grok3在预训练完成1个月后发布。\“
这个论点本身就不靠谱。METR数据测试的是模型公开发布时的性能,而非内部完成时的性能。该论证假设两者性能相同,但GPT-4在那7个月间可能已有基准提升。
即便接受该论证,此效应指向增速放缓而非加快。若早期模型从开发到部署间隔更长,意味着模型改进的实际间隔比图表显示的更长。
假设从GPT4发布的2024年起,预训练到发布的间隔从7个月线性缩短至当前1个月(仅为示意)。调整数据反映模型内部发布时间,得到下图蓝线:
蓝线不仅当前倍增时间更慢,整体凸性也更低(至少在这个玩具示例中如此)。这表明近期倍增时间加速可能部分源于人们更早发布模型造成的假象。注意内部部署间隔的实际影响很复杂(线性递减完全不影响凸性)。但基本规律是:若内部部署间隔在缩短,图表斜率会比实际更陡,反之亦然。由于讨论的间隔缩短期极近,若论证有效,至少会部分抵消近期表面加速。Eli已同意从文档中删除此论证。
论证2:难度差距
\“概念上:对人类而言,1月任务与2月任务的难度差距似乎小于1天与2天任务。尚不清楚这是否适用于AI,因为相对于人类,AI迄今更多依靠知识而非通用推理解决问题。若扩展至每个后续时间跨度需要大量该跨度任务的训练,或许可能成立。\“
\“难度差距\“定义模糊,但根据上下文推测指所需额外技能量。注意曲线声称每次连续翻倍使差距减少10%。因此其实际主张是:从1月到2月的难度跳跃比1天到2天轻松60%。
\“从1周到1年可能比从1小时到1周容易约2倍。1周任务可比1小时任务复杂得多,但我们预测从1周到1年不需要太多额外技能。\“
这个类似论证隐藏在AI2027另一部分的图表中。数学验证显示:每个差距约含6次翻倍,0. 9^6≈0. 5。
我怀疑这对人类是否成立,更强烈怀疑对LLM的适用性——短任务有更多可用示例和教程。感觉1周工作可由业余者通过教程和复制代码完成,而1年工作需多年经验者才能做好。鉴于当今LLM依赖海量训练数据,这对它们影响更大。
虽无AI研发实验室经验,但这个论证薄弱且不完善。若是我,会寻求实际指标验证\“2倍更容易\“的说法,证明其符合\“每次翻倍容易10%\“的主张。
论证3:近期进展
\“METR报告发现2024-2025年倍增时间为3. 5个月[ 18],相比2019-2025年为7个月[ 19]。这基于少量数据点。机构训练规模扩大可能是趋势原因,如报告第7. 2.2节[ 20]所述。\“
近期加速对这类特定超指数曲线的支持非常薄弱。后文将展示,可以构造无数种超指数方程,必须论证你选择的特定形式。
关于\“机构训练规模扩大\“,METR报告确实提到这可能是近期加速的原因,但未说这是超指数因素。若机构训练近期才开始,反而可能是证据表明近期进展只是让我们进入更快指数区间。或者如METR报告指出,可能只是近期进展带来的暂时波动:\“但2024-2025年的机构训练也可能是摘取低垂果实的一次性提升,增益耗尽后增长将放缓\“
论证4:无限时间跨度
\“支持最终出现超指数性的另一论点是,超人AGI应具无限时间跨度。但根据前述改编自METR报告的时间跨度定义,尚不清楚是否会达到无限。因为AI按绝对任务成功率评估,而非相对人类更高。只要随着时间跨度延长,任务完成能力呈下降趋势,时间跨度就不会无限。这在人类基线中已观察到(见图16[ 21])。即便永不达无限,时间跨度可能变得极大,仍为超指数性提供一定支持。但尚不清楚这对我们预测范围内的超指数性有多少证据价值。\“
这是唯一论证曲线应具无限性的观点,但作者自己也不愿背书。
我不认同此主张。思考\“一千年时间跨度\“的含义:这是不朽的计算机毕业生需千年完成的任务,拥有完整互联网访问且仅要求不得求助他人或LLM。能80%准确完成此类任务的AI将是超级智能。编辑:有观点指出现今某些软件已耗费数千人年开发,故不一定达到超级智能,仅是极其强大。
按字面解释的无限时间跨度,是人类需无限时间才能完成的任务。我认为给定格雷厄姆数级别的年份,人类能完成许多事,因此时间跨度趋向无穷的观点不合理。
以上就是全部论证。这些曲线的形态是决定最终结果的最关键因素之一,但其选择极其怪异,且多数论证与为何偏好此特定曲线无关。
阅读上述论证时,您可能困惑为何未提及超指数性最明显的理由:随着AI进步,人们将用AI进行研发,形成AI发展加速的反馈循环。
原因是他们明确假设此点成立并应用于所有模型,包括\“指数\“和\“亚指数\“曲线。所谓\“指数\“模型实际上也是超指数的。
(注:Eli最新模型中此点复杂得多,后文讨论)
代码中使用以下方程(缺乏论证)表示相较于2024年的算法研发速度增速:
其中V为AI加速速率,m_0为模拟起始时的加速率,m_f为达到SC时的加速率,p为模拟开始后的AI进展量[ 4],以\“2024月数\“计[ 5],p_f为无中期加速时达到SC所需时间[ 6]。
显然AI进展并非始于2025年,2025年也不是特殊时间点。此预测中的所有V都是相对的:通过将p设为负值可计算过去的V。
然后与V_compute取平均,后者恒为1(计算不受算法进展影响):
实际代码通过时间步长dt(1天)向前推进,计算该步长内完成的\“2024月数\“进展,直至总进展达p_f:
可通过重新排列和积分得出解析方程,但过程繁琐且对参数变化不稳健。他们直接运行模拟直至进展p达p_f,此时即为SC实现时间。
可能有些困惑,举例说明:进展时间零点时V=1. 1(中位模拟值),意味着现实时间1天对应AI时间线1. 1天进展。下一天时,进展为1. 1天,因此总研发速度V_total略高,现实1天对应略多于1. 1天的AI进展,总进展略超2. 2天。如此循环累积,直至AI进展达到先前预测的SC时间。
有趣的是,我们可将时间步长设为负值,反向延伸该曲线。毕竟\“2024月数\“单位同样适用于过去。他们未这样做,是我为验证曲线合理性而进行[ 7]。
以下是Nikola曲线在研发加速前后的总速度随时间变化图,反向预测用点表示:
反向预测显示2022年AI研发加速因子约0. 6。当前因子约1. 1,意味着模型认为当前AI进展比2022年快66%。
这与Nikola附录中的陈述矛盾:
\“Nikola当前猜测是:相较于研究人员完全不使用AI聊天机器人和编程助手,2022-2024年间算法进展快3-30%。\“
我明白问题所在:代码确实包含3-30%的估计,通过设置当前速度值m_0(代码中present_prog_multiplier)高于1实现(中值约1. 1)。他们以为设当前研发因子为1. 1就能默认符合估计。
问题在于,1. 1的乘数本身无意义,重要的是相对速度因子。他们未意识到方程暗示几年前的研发因子可能小于1。若要使模型成立,需确保当前研发因子为1. 1且2022年研发因子为1。用当前方程实现需将SC时的最终研发因子设为…1. 17,几乎毫无加速。更简单的解释是他们使用的算法速度方程本身不合理。
最后展示我对各模型最终曲线的重建。首先获取实际月份与\“2024月份\“的转换率:
这是\“2024月份\“进展关于实际时间的方程。前文指数与超指数章节的方程展示时间跨度关于\“2024月份\“的函数。将两者结合可得时间跨度关于实际时间的最终图表:
仅展示Nikola的曲线,Eli的差异不大。可见中位\“超指数曲线\“被双重挤压,与历史数据完全不符。\“指数曲线\“实际是超指数的,虽更接近数据但拟合不强。真实数据应大多位于这些曲线的80%CI内,但实际数据不应成为模型的边缘情况。
综上,\“超指数\“曲线在模型中既不符合经验数据,如前所述也缺乏概念合理性。我看不出有理由将40%概率空间分配给此类曲线。
在AI2027短篇故事[ 22]的边注\“为何预测2027年初出现超人程序员\“中,作者展示下图:
撰写此节让我有些不安,因为几周来我一直在向AI未来团队成员追问此图问题。他们已修复部分问题,如ScottAlexander曾发布错误标记为80%时间跨度的50%时间跨度图(我指出后修正)。
AI2027网站上的初始图表[ 8]仍存在两个问题:
最后数据点Claude3. 7Sonnet应为15分钟而非30分钟(后续版本已修正)
缺失METR数据中最早的两个数据点GPT2和GPT3。他们解释称因时间跨度太小而无意义,但若认为2秒(GPT-3)无意义而8秒(GPT-3. 5)有意义就牵强了。尤其可疑的是,加入这些点会使曲线更难看,如下图最新版本所示(注意这是50%而非80%时间跨度):
即使如此,我仍有疑问。图注称\“每次翻倍容易15%\“,但所有建模中实际只容易10%。如前所述,此参数极其重要,数据混乱令人担忧。
关键问题:此曲线并非AI2027预测中的曲线。Eli向我确认这并非时间线曲线生成,仅用于\“大致示意\“模型,\“不求精确\“。与模型的主要差异:
未说明使用的是时间跨度法还是基准与差距法
不可能是未加速的超指数曲线,因为倍增时间间隔并未随时间恒定递减
可能指含加速的超指数曲线?但具体是哪条?曲线形态依赖多个未提供的参数,且两位预测者的曲线不同
所有时间线预测建模都是80%曲线,此处却是50%曲线投影
添加数据点时调整了曲线,但模拟中不这样做
代码中无此图表痕迹
若此图与任何实际模型曲线无关,其存在意义何在?人们会据此判断拟合优劣、新数据是否符合等,并误以为这为AI2027预测提供了证据。事实并非如此。
Scott和Daniel将新LLM性能绘制在这条无关曲线上,并作为支持他们模型的证据(尽管声明是\“弱\“证据)。将此曲线称为\“AI2027的预测\“(如Scott所为)是错误的。
针对我的批评,Eli编写代码验证图表与实际模拟运行的匹配度。他生成下图,仅选择在2027年3月达到SC的模拟(即匹配AI2027短篇故事),与上图(紫色\“参考时间线\“)对比。他现在也承认该图不能代表模型。建议他进一步探索此类图表:注意本文仅为方便仅绘制中位参数,此类图表有助于阐明实际模型情况。
我想表达对这种预测项目的普遍怀疑。以下是两条拟合METR数据的曲线:
1:
2:
两条曲线拟合差异可忽略,且都比AI2027实际使用的曲线拟合更好。
第一条是前文\“超指数\“曲线的拟合版(无中期加速):
参数:H0=9. 5分钟,T0=0. 3855年,α=8. 38%
第二条是我提出的\“quadrexp\“曲线:
其中A、B为拟合参数,H0为t=0时时间跨度,t为模拟起始后时间。参数:H0=9. 5分钟,A=0. 1,B=2. 17。
观察两条曲线对未来预测:
两条曲线均有3个拟合参数,均\“超指数\“,均与数据高度吻合。但绿线预测2030年前时间跨度达无限,而蓝线预测仅数月。
当然…它们都不是AI2027实际使用的曲线。初稿中我费力求解了含中期加速的简化版超指数曲线方程(假设无额外差距且V_total=V_algorithmic)。经过大量积分和替换,完整方程大致如下[ 9]:
含H0、α、m0、mf、Hsc、T0六个参数。完整方程更复杂,还需纳入成本速度差距、内部延迟量和V_compute,总计9个参数。后文将讨论的方法2再添5个参数,Eli最新方法又增更多。
或许您认为现实世界中这些参数确实影响AI进展速度,全部纳入不是更好?
但还有更多未考虑因素:可用数据量、经济增长、AI监管、总投资、公众AI采用度、AI公司人才分布等。不仅需要预测这些参数值,还需预测它们如何交互影响算力进展速度。厘清这个网络需要AI2027作者未能达到的精确度、经验证据和概念严谨性。
我赞同METR报告作者的观点——不对数据拟合超指数曲线[ 10]。仅11个数据点,用6个(或9个,或14个,甚至更多)参数的模型太过头。如上所示,如此少的数据拟合三个参数已导致天差地别的结果。更复杂不等于更好。
这就引出了下一个模型:
当时间跨度预测的问题被指出时,AI2027作者辩称他们实际做了两个模型,前文讨论的时间跨度模型只是不优先采用的简化版。若采用其更青睐的\“基准+差距\“模型,时间跨度模型的假设就不那么重要。
我不同意此辩护。实际上,我认为方法2在许多方面比方法1更糟。一般而言,更复杂的模型需证明其复杂性的必要,否则极易无意过拟合或暗中植入预期答案。我认为方法2未能证明其复杂性。
方法2首先预测达到Re-bench[ 25]特定分数(称\“饱和\“)的时间,这是METR编制的ML研究工程任务技能基准。之后与方法1类似使用时间跨度扩展模型,但起点更晚(Re-bench饱和时),终点更早(达到某个复杂阈值时)。此后估计5个新差距(仍为对数正态抽样的常数),最后通过中期加速模型。因此对方法1的所有批评同样适用于方法2,只是被常数差距估计和\“re-bench\“部分稀释。
首先看re-bench\“饱和\“。他们预测re-bench分数达1. 5的时间,估计这是\“最佳人类\“在该任务套件中的表现。通过\“拟合\“逻辑曲线\“外推\“数据,如下图:
我给\“拟合\“和\“外推\“打引号,因为用逻辑曲线外推基本无用。提取其数据并用简单逻辑曲线拟合:
拟合预测re-bench已接近最大值。虽不认为属实(尽管很有趣),但事实是从数据本身精确预测逻辑曲线饱和点基本不可能,除非已明显过拐点[ 26]。若认为最右侧点表明RE-bench已开始饱和,仅凭此数据证据不足。
他们实际做法是直接猜测上限,仅拟合其余参数。他们毫无根据地宣称LLM在Re-bench上的分数上限为2. 0,比人类专家最佳表现高33%。
并声称\“改变上限对预测影响不大\“,因为尝试1. 75至2.25的上限对结果无实质影响。但这理所当然,因为这些上限仍远高于人类最佳表现!若将上限改为1. 4,代码将预测re-bench饱和需无限长时间。
本可继续分析,但这已无关紧要。因为方法2的第一步是re-bench饱和计算,第二步是将此计算扔进垃圾桶。
认真查看代码[ 27]。变量t_sat_ci(\“能力饱和日期的CI\“)由预测者设定,非计算得出。代码中无任何与RE-bench数据相关的函数[ 28]。更新代码[ 29]中也没有。
更多证据:对比附录中作为逻辑RE-bench拟合结果呈现的饱和阈值日期分布:
与隐藏在大参数图中的子图\“饱和时间\“:
经确认,这两个本应相同的参数完全不符。再看代码[ 30]:每位预测者给出的80%CI不同,且都与幻影RE-bench计算分布不符。Eli给出2025年9月至2031年1月的80%CI,Nikola给出2025年8月至2026年11月,都与第一张图的2026年初至2027年初80%CI不同。两者峰值比实际Re-bench计算早约半年,尽管Eli的中位值明显更晚。
\“基准与差距\“方法中所谓的\“RE-bench逻辑曲线拟合\“完全未进入最终模拟,尽管这是方法名的半边天。Eli告诉我饱和时间最终估计\“参考\“了逻辑曲线拟合,但如上所示两者差异巨大。Nikola的峰值在2025年中后期,远超出其RE-bench分数的80%置信区间。经验RE-bench数据似乎只是其推理中极小部分,却被误导性地呈现为主要模拟依据。
这是附录中最明确的虚假陈述,因为他们确实未提及此事,甚至在参数汇总表中完全省略\“饱和时间\“参数,尽管你可以在大参数图的子图中看到它。这点必须澄清:Eli表示将在网站更新中修正。
[编辑:此前我称饱和时间参数未在文中说明,实际上RE-bench部分的表格中有提及。我在后文汇总部分漏看了,这是我的错误,为此道歉。但我仍认为原文暗示逻辑曲线输出被输入模型,这种重大差异应明确说明。]
既然已抛弃附录的re-bench部分,接下来是什么?又进行了一次时间跨度计算,基本与方法1相同,只是起点更晚:
他们猜测达到re-bench饱和的年份猜测达到re-bench饱和时的时间跨度猜测达到re-bench饱和时的倍增时间猜测达到re-bench饱和时的研发加速速度然后用这些参数进行方法1的时间跨度计算,采用下文讨论的更低截止阈值
这些猜测同样缺乏良好基础。我能理解饱和RE-bench可提供时间跨度的部分信息,但与长期趋势紧密相关的倍增时间等关键参数则不然。
倍增时间的估计很奇怪。re-bench饱和时倍增时间的中位估计约3个月,比当前估计低33%。为何降低?部分原因是超指数模型中re-bench饱和期间已有加速。但这种超指数加速被应用于所有模型,包括指数和亚指数曲线!指数模型的整个定义就是倍增时间不变,但在此模型中选取指数模型实际上意味着之前某段时期是超指数增长,之后突然转为指数。
re-bench时间估计的意义何在?我们试图预测达到时间跨度阈值的时间,却只是将模拟起点推后并猜测所有参数在任意点的状态。整个过程完全多余。整个时间跨度部分基于当前METR数据,应从今天开始。re-bench部分毫无存在必要。
另一主要区别是此时间跨度模型仅达到更低阈值,对应AI满足以下要求:
\“开发涉及AI研发过程的各种软件项目的能力,这些项目需修改总计最多10,000行代码、涉及最多20万行代码的文件。提供清晰指令、单元测试和其他形式真实反馈。对人类需约1个月的任务(由\“初始时间跨度\“参数控制)达到80%可靠性,成本与速度与人类相同。\“
尽管两位预测者在方法1中对SC所需时间跨度的估计相差2个数量级,但对此基准的中位估计完全一致,均为半个月。这很奇怪,但我不深究。
展示Eli和nikola预测的指数与超指数时间跨度曲线图。取代码中估计的几何平均数(因对数正态抽样)。新停止模拟阈值(约100小时)用棕色虚线表示。Nikola曲线中饱和时间中位数约1年:
超指数曲线较时间跨度案例变化不大,但指数曲线斜率更陡。
Eli的饱和时间中位数约1. 8年,其余参数与nikola几乎相同:
超指数曲线大致合理,但指数曲线与数据完全不符。仿佛模拟预测AI进展冻结两年后突然恢复原速。
这样做的效果是超指数与指数曲线间差异不再显著,因为起始时间跨度与截止阈值的差距不再那么大。当然部分原因是指数情况下也假设倍增时间加速,前文已论证这不合理。
因此,超指数概率参数的变化对此模型影响不大,但对数正态抽样若选高阈值或低时间跨度仍会有一定影响。
记住这是加速调整前的曲线。由于额外复杂性,我决定不绘制此模型的实际曲线。鉴于巨大差异,多数曲线不会匹配历史数据。
对模型最后这部分我批评较少,因其较简单。在此模型中,时间跨度估计重要性降低,因为达到上述较低阈值后,转为建模一系列需逐个跨越的\“额外差距\“,如下图:
注意比例失真。按点估计,时间跨度步骤约18个月,其他步骤共(3+6+1. 4+1. 7+6. 9+5. 5=24. 5)个月[ 11]。因此时间跨度步骤对结果仍非常重要。实际上任何部分都可能因成为模拟瓶颈而关键。
这些差距仅是作者直接估计,经对数正态抽样。评论这些差距可能超出我的专业范围,但需指出\“工程复杂度\“差距的问题。他们声称代码行数(LOC)取决于时间跨度,并假设此时倍增时间为\“3个月\“:
然而他们已在模拟中明确建模倍增时间。re-bench饱和时倍增时间的中位估计已是3个月,此时估计时间跨度仅2. 5小时。按超指数情况,达到模拟此点还需8次倍增,倍增时间将进一步缩至1. 2个月。因此至少对此差距,他们的猜测与模拟其余部分不一致。
我认为差距模型的主要问题在于它们对应猜测尚不存在的未来技术,无法有效验证。但在此保持专业克制,您可自行判断这些猜测是否合理。
最后展示原始版模型2中,中期加速对结果的重大影响。对比Eli模拟有无研发加速的情况:
需警惕不要因峰值位置相同而误以为模拟结果一致。我怀疑这些峰值来自差距而非时间跨度。观察实际SC估计中位数,无加速情况下要长4年。
完成本批判初稿时,网站更新显示作者之一EliLifland发布了新模型[ 31],时间线普遍比原模型长一两年(虽称\“2025年5月更新\“,但6月才公开)。新模型将Eli对SC到达时间的估计延后约两年,并增加多项复杂性。在他青睐的模型2中,SC到达时间中位数现为2030年。我会简要讨论对新模型的初步看法,但保留完整评判直至Eli撰写更多说明。
第一个明显改进是包含了超指数缩减比例α的不确定性。
第二个是展示了许多关于不同假设对模型影响的实验,如研发加速和超指数性,值得一看。
但我的多数前述批评依然适用。\“re-bench\“步骤仍无存在必要,仍未增加任何概念合理性,仍缺乏经验数据验证等。
我认为一个毫无意义的改变是对超指数曲线的处理:
现在代码声称有约90%概率最终出现超指数曲线,只是有时延迟启动。他们定义一系列时间跨度及在该点出现超指数性的概率:
选取随机数后,选择大于该数的最左侧点作为超指数性起点。例如若随机数为0. 5,则最大低于此数的时间跨度为0. 045个月,即超指数性起点。
例如选取0. 045个月阈值(约15%概率),曲线如下:
25%概率超指数性与初始模型相同,10%概率亚指数性,其余概率类似上图,仅起点不同。
我…不理解。为何假设曲线如此?这明确不源于AI研发的加速,也不能用METR数据近期上升趋势辩护,因为模型称此时仍为指数增长。\“内部间隔缩小\“论证若成立也无法应用。唯一剩下的理由是\“从1周到1年比从1小时到1周容易\“,但这无法证明这种延迟超指数的合理性。期待Eli撰写模型时给出解释。
另一主要变化是Eli将\“中期加速\“模型复杂化,加入劳动力池、研究存量等。原算法加速方程仍存在,但需通过劳动力池、加速、计算等系列方程。这些变化的最终效果似乎确实使时间线预测比原模型更长。
多数新方程或参数在附录更新中未列出、解释或论证,也未尝试验证新模型与历史数据的匹配。因此我无时间也无动力深入探究。重申我的观点:面对稀疏嘈杂数据,更复杂的模型往往更糟糕。
相信Eli仍在详细撰写新模型说明,故暂不作进一步评论。何况走红的并非此模型,且其预测时间比AI2027短篇故事长数年。
最后,我想强调此类预测的固有困难。下图展示六种不同未来模型曲线:
强调:我认为各曲线可能性并不均等。事实上,我不认可其中任何一条。仅展示多种构建AI2027风格模型的方式,呈现关于AI时间线的不同论点。
绿色超指数曲线支持者认为原\“超指数\“曲线正确,但加速应为20%而非10%,且2024-2025增速有效。他们以早期数据点过小为由忽略拟合不足。该模型预测2026年中达到Nikola和Eli的SC基准。
金色曲线是AI2027方法1的超指数曲线(含加速),使用Nikola所有中位参数。预测2026年中达NikolaSC基准,2026年底达Eli基准。
红色\“新常态\“曲线认为AI将呈指数进步,但2024-2025时期是新常态,时间跨度将继续以此更快倍增时间增长。他们忽略所有早期数据点,声称在某种进步(如代理或思维链)引发加速前遵循更慢趋势。预测2027年中达Nikola基准,2029年中达Eli基准。
蓝色\“quadrexp\“曲线来自\“两种数据拟合的故事\“章节。该叙事认为进步缓慢加速,采用符合所有历史数据的最简三参数模型外推。预测2029年中达Nikola基准,2031年中达Eli基准。
紫色曲线由METR提出。他们认为历史上时间跨度呈指数增长,直接外推。注意到近期似乎加速,但判断过早无法确定是噪声还是一次性跃升,故预测最简模型。预测2031年达Nikola基准,2035年达Eli基准。
棕色\“最后喘息\“曲线类似\“新常态\“指数曲线,但假设AI进展遵循简单的逻辑曲线[ 32],早期与指数无异。AI公司将挖掘近年成果一两年,随后陷入停滞。概念依据是:多数看似指数的曲线不会持续,技术进展常以逻辑曲线建模。连AI2027作者也承认多数AI基准遵循逻辑曲线。该模型认为METR基准无例外,AI进展将遇性能天花板而饱和。此处设定的10小时饱和点任意,您可自行设定趋势断裂时点——如\“re-bench\“章节所述,现有数据无法通过逻辑拟合预测。预测永不达到Eli或Nikola的基准。
这就是六个\“符合数据\“的模型,若接受忽略某些数据点的合理理由,给出的超人程序员估计从\“不到一年\“到\“十年\“到\“永不\“不等。
多数模型预测十年内出现超人程序员,因为它们共享以下假设:a)当前趋势将持续;b)\“超人编程\“短期内可实现;c)METR时间跨度是衡量AI进展的合理指标。我虽不同意所有假设,但理解为何认同者认为超人程序员即将到来。
您可构建远多于六种的模型。现实通常不遵循整洁曲线。各种因素可能导致AI进展停滞、重启、再停滞等,这些整洁外推无法捕捉。
也可能时间跨度方法遗漏优秀人类AI研究员的某些本质特征,导致LLM在该指标上突飞猛进却仍无法成为超人程序员。或者METR方法论可能存在致命缺陷,破坏其对倍增时间的发现。
AI2027团队选取了可能性空间中非常狭窄的一片,据此构建模型。只要明确说明,这样做本无问题。但若要他人认真对待,需有证据证明这片狭窄空间是正确的。尽管他们尝试论证,我认为他们失败了,未能证明任何东西。
总结部分问题:
方法1:
为必然在几年内飙升至无限(即使当前时间跨度为纳秒级)的特定\“超指数\“曲线分配约40%概率
报告提供的概念论证极少,其中一条他们自己也不认可,另一条实际反驳其假设
其余约40%概率给\“指数\“曲线,实则因\“中期加速\“也是超指数的
\“中期加速\“模型若反向检验,与其自身对当前AI加速的估计矛盾
中位指数曲线参数与METR报告不符,与历史数据勉强匹配。中位超指数曲线加入加速后与历史数据匹配更差
简单三参数曲线与历史数据拟合度相同,但未来预测天差地别
向公众展示的\“超指数\“曲线与实际建模所用曲线不同
方法2:
re-bench逻辑曲线\“拟合\“直接假设LLM很快将远超人类专家水平,仅基于此假设拟合。实际拟合会预测re-bench现已饱和且SC永不出现
\“基准与差距\“预测中的\“re-bench逻辑曲线\“模拟部分与实际模拟代码完全分离,被彻底忽略。模拟中的\“饱和时间\“与逻辑曲线拟合估计时间差异巨大
时间跨度部分仅猜测未来某任意时点的所有关键参数趋势,毫无合理依据
最新模型虽有改进,但未实质性解决多数上述问题,仍以怪异方式实现\“超指数\“曲线。
一位AI2027作者在我近期文章评论中开玩笑[ 33]说\“你可能不喜欢,但这正是AI预测的巅峰表现\“。我确实不喜欢,若这真是\“预测巅峰\“,或许预测本就不该被严肃对待。可能因我是物理学家而非理性主义者。在我的世界,通常要求模型在基于其预测决策前具备强概念合理性或现有数据实证验证:此模型两者皆失。
我不反对人们构建粗糙玩具模型,认为这是有用的思维训练。也不反对勾勒假设性科幻短篇,我自己也写过[ 34]。我反对的是将粗糙玩具模型当作严谨研究,将其与假设性故事捆绑,然后上播客节目病毒式传播。最反对的是人们认真对待粗糙玩具模型并据此人生决策——我目睹AI2027正导致这种现象。这只是AI发展可能性海洋中的一滴水,且在我看来,即便你认同作者的世界观,其实现也很糟糕。
我尊重他们投入大量工作与数据收集,相信部分内容对未来研究者有用。作者们对批评的开放性看似真诚。然而他们的努力似乎未用在真正关键处。随意浏览的读者看到所有数据图表,可能误认预测结果是经验证据的严谨外推,或基于对AI进展动力的深刻理解:我认为两种假设皆不成立。
我不打算提出替代模型。若我尝试解读AI未来的茶叶渣,可能同样摇摇欲坠。仅有少数确信观点,如纯软件奇点行不通,近期不会有钻石细菌[ 35]。但这些信念难以转化为精确年度预测,强行转化只会固化过度自信,当现实比想象更离奇时让人措手不及。
我认为人们终将面对一个事实:预测AI这类技术的走向极其困难。AI2027展示的巨大不确定性气泡仍严重低估了实际不确定性。若你的未来计划依赖预言,而采用此种标准的工作,我认为计划注定失败。建议寻找对AI发展极端不确定性稳健的方案,避免在严重错误时可能反噬自身的行动。
1[ 36]我并不反对他们说认为最近的上升趋势是新的常态,只要他们明确表示这就是他们在做的事情。相反,附录把\“估计当前日期T_0\“当作正确的做法,但这并不对。
2[ 37]记住Alog(B)=log(A^B)
4[ 39]顺便说一下,代码似乎将模拟开始时间作为当前时钟日期,而不是设定的起始日期,所以我担心在后续几天重复相同的计算会给出不同的答案。
5[ 40]我认为这实际上是以月为单位,对应于V_total=1的日期
6[ 41]代码中有一个额外的地方,在2029年之后预测的速度会下降。我不打算深入讨论这个。
7[ 42]在这里进行回溯是合理的,因为2025年在宇宙中并不是一个特殊的时间:如果有人在2022年开始模拟,你希望他们得到关于相对加速的相同答案。作者认为已经有了一些加速:所以如果模型是正确的,它应该在过去捕捉到这个事实。正如你在下面的图表中看到的,回溯清楚地与前向预测的曲率相匹配。你也可以看看早期的速度方程:当p是高度负值时,V_alg降至0,V_total降至0. 5,表示遥远过去的AI进展是现在的一半。
我们可以做类似于之前的推理。回到过去,如果我们的V为1. 1,这意味着昨天,当1个完整的实际时间天数发生时,1. 1天的AI进展发生了,所以在昨天开始时,我们落后了1. 1天的AI进展。如果我们将-1. 1天代入我们的V公式,我们得到一个稍微小一点的新V:所以如果我们尝试计算前天发生了多少AI进展,它比1. 1稍微少一点。所以在过去的两天里,我们计算出的进展略少于2. 2天。随着进展进一步为负,V降到1以下并接近0. 5(这是由于V_compute项)。这声称在遥远的过去,1天的实际时间只产生0. 5天的AI进展,即进展大约是现在的一半慢。
8[ 43]在\“为什么我们预测2027年初出现超人类编码员\“部分
9[ 44]我不确定这个数学,但你明白我关于复杂性的观点。
10[ 45]
11[ 46]我觉得对数正态采样可能会影响这一点。
Eli更新模型:https ://ai-2027. com/research/timelines-forecast#2025-may-7-update
AI2027:https ://ai-2027. com/
五篇附录:https ://ai-2027. com/research
仅接触片段内容:https ://garymarcus. substack.com/p/the-ai-2027-scenario-how-realistic
作者自述:https ://blog. ai-futures. org/p/ai-2027-media-reactions-criticism
网页访问量:https ://ai-2027. com/
Dwarkesh访谈:https ://www. youtube.com/watch?v=htOvH12T7mU
播放量数百万的YouTube视频:https ://www. youtube.com/watch?v=k_onqn68GHY&t=2s
此处:https ://github. com/titotal1993/AI2027critique/tree/main
此处:https ://web. archive.org/web/20250530030058/https ://ai-2027. com/research/timelines-forecast
此处:https ://github. com/uvafan/timelines-takeoff-ai-2027
此处:https ://web. archive.org/web/20250608102915/https ://ai-2027. com/research/timelines-forecast
《衡量AI完成长任务的能力》:https ://metr. org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
众所周知:https ://en. wikipedia.org/wiki/Geometric_series
2024-2025年倍增时间为3. 5个月:https ://arxiv. org/pdf/2503. 14499#page=36. 69
2019-2025年为7个月:https ://arxiv. org/pdf/2503. 14499#page=1. 66
报告第7. 2.2节:https ://arxiv. org/pdf/2503. 14499#page=20. 25
此处:https ://web. archive.org/web/20250530030058/https ://arxiv. org/pdf/2503. 14499#page=29
AI2027短篇故事:https ://ai-2027. com/
AstralCodexTen:https ://www. astralcodexten.com/p/ai-futures-blogging-and-ama
推特:https ://x. com/DKokotajlo/status/1916520276843782582
Re-bench:https ://arxiv. org/abs/2411. 15114
已明显过拐点:https ://pmc. ncbi.nlm. nih.gov/articles/PMC8631260/
代码:https ://github. com/uvafan/timelines-takeoff-ai-2027/blob/main/timelines/params. yaml
代码:https ://github. com/uvafan/timelines-takeoff-ai-2027/blob/main/timelines/params. yaml
逻辑曲线:https ://en. wikipedia.org/wiki/Logistic_function
评论中开玩笑:https ://titotal. substack.com/p/slopworld-2035-the-dangers-of-mediocre
写过:https ://titotal. substack.com/p/slopworld-2035-the-dangers-of-mediocre
钻石细菌:https ://titotal. substack.com/p/diamondoid-bacteria-nanobots-deadly
👇
👇
👇
另外,我还用AI进行了全网的AI资讯采集,并用AI进行挑选、审核、翻译、总结后发布到《AGIHunt》的实时AI快讯群中。
这是个只有信息、没有感情的AI资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)
欢迎加入!
也欢迎加群和2000+群友交流。