世界亟须为“智能体优先”(agent-first)构建基础设施|万字逐页深度解读Andrej Karpathy YC演讲


世界亟须为“智能体优先”(agent-first)构建基础设施|万字逐页深度解读Andrej Karpathy YC演讲

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

本文旨在对安德烈·卡帕西(AndrejKarpathy)于2025年6月在YC人工智能创业学校(YCAIStartupSchool)发表的演讲《人工智能时代的软件》(SoftwareintheeraofAI)进行全面、专业的深度剖析。作为人工智能领域的杰出人物,卡帕西的演讲不仅是一系列观察的集合,更是一套关于软件演进的统一理论,并为该领域的建设者和投资者描绘了一幅战略路线图。
AndrejKarpathy是人工智能领域最具影响力的思想家和实践者之一。他的职业生涯贯穿了本轮AI革命的几个关键节点:作为OpenAI的创始成员,他参与了奠定当前技术浪潮基础的早期研究;在斯坦福大学,他师从著名AI学者李飞飞,并创立了极具影响力的深度学习课程CS231n;作为特斯拉前人工智能高级总监,他领导团队将前沿的计算机视觉技术应用于自动驾驶系统Autopilot1。近期,他创办了AI教育组织EurekaLabs,致力于通过“ZerotoHero”等课程普及AI知识,这进一步巩固了他作为该领域关键教育者和思想领袖的地位1。Karpathy的深厚学术背景和丰富的产业经验,使其观点具有极高的权威性和前瞻性。
演讲背景:
本次演讲于6月16日在YC人工智能创业者学校进行,其核心内容不仅是对技术趋势的解读,更是一份为未来十年软件开发制定的战略宣言7。它系统性地阐述了软件开发范式的演进,并为技术领导者、开发者和投资者指明了方向。本文旨在对这份长达72页的PPT进行详尽的、逐页的深度分析,不仅翻译其内容,更将结合广泛的市场、技术和战略背景,全面解读其深层含义。
同时我们将遵循卡帕西的叙事逻辑,分为五个部分:
1. 探讨软件范式的演进;2. 分析作为新型计算平台的LLM的本质;3. 剖析这些新模型的“心理学”特征;4. 审视当前的市场机遇;5. 论述为“智能体优先”(agent-first)世界构建基础设施的迫切性。
1. 1从代码到权重:软件2. 0时代的黎明
卡帕西的理论始于对软件开发历史的重新划分。传统软件,即“软件1. 0”,是由人类程序员通过明确的、确定性的指令编写的,其产物是源代码,使用的语言包括Python、C++等。随后,他引入了其在2017年首次提出的“软件2. 0”概念,这标志着一个根本性的转变:程序不再是编写出来的,而是通过优化过程学习得来的。在这个新范式中,软件的核心产物不再是源代码,而是神经网络的数值“权重”——一个通过数据训练优化而成的庞大参数集。
这一转变重新定义了开发者的角色。开发者从一个编写算法的“程序员”转变为一个“教师”或“数据策展人”,其主要工作是收集、清洗和标注海量数据集,以引导优化过程找到最佳的程序(即权重)。开发环境也从集成开发环境(IDE)转变为由PyTorch、TensorFlow等框架构成的数据处理流水线和模型训练基础设施。
演讲开篇即宣告了一场变革的到来。“GitHub地图”是Karpathy用来描绘软件1. 0世界的巧妙视觉隐喻7。在这张地图上,技术领域被划分为由不同编程语言和框架定义的“领地”和“王国”(如Pythonium、Javacore、DotnetDominion等)。这代表了数十年来由人类程序员手动编写代码的传统软件开发模式。Karpathy以此为基准,引出了即将颠覆这一格局的新范式。
将传统的计算机代码(软件1. 0)与一个神经网络权重矩阵(软件2. 0)并置,并引用了Karpathy在2017年发表的博客文章7。
此页引入了“软件2. 0”这一核心概念。该术语由Karpathy在2017年的一篇Medium文章中首次提出,迅速成为行业内的重要词汇8。
○软件1. 0:由人类程序员用C++、Python等语言编写的显式指令。其逻辑是确定性的、人类可读的。
○软件2. 0:“代码”不再是人类编写的逻辑,而是经过训练的神经网络的权重。程序不是被“编写”出来的,而是通过数据“优化”出来的。其源代码由“数据集”和定义了网络骨架的“模型架构”组成11。
○早期反响:这一概念最初曾引发一些争议,部分评论者认为它更像是一种“营销炒作”或修辞手法,而非真正的范式转移12。然而,随着神经网络能力的飞速发展,其影响力日益彰显。
将“GitHub地图”(软件1. 0)与“HuggingFace模型图谱”(软件2. 0)进行对比7。
Karpathy将HuggingFace定位为软件2. 0时代产物(即模型权重)的中央存储库。HuggingFace平台托管了超过一百万个模型、数据集和应用,被誉为“AI领域的GitHub”13。其战略重要性体现在其高达45亿美元的估值(截至2023年)以及来自谷歌、亚马逊、英伟达和Salesforce等所有主要科技巨头的投资13。这雄辩地证明,软件2. 0的“资产”已经形成了一个价值数十亿美元的庞大市场。
追溯了从固定功能的神经网络(如AlexNet,约2012年)到可编程的大语言模型(LLM,约2019年)的演进,并首次将软件3. 0定义为“提示”(Prompts)7。
○固定功能(软件2. 0):像AlexNet这样的早期模型,被训练用于执行单一特定任务(如图像识别)。它们功能强大,但在通用性上有所欠缺。

演讲中关于情感分类的例子极好地说明了这三种范式的差异:
●软件1. 0:一个脆弱的Python函数,依赖于一个硬编码的关键词列表。它易于理解,但无法处理任何细微的语言差别或反讽。
●软件2. 0:需要一个包含数万条正负面评论的大型标注数据集,经过特征工程(如词袋模型)处理后,用于训练一个二元分类器。这种方法更强大,但资源消耗巨大,且模型功能单一。
●软件3. 0:一段结构清晰的提示词,向LLM解释任务、定义输出格式,并提供几个示例(即“少样本提示”或few-shotprompting)。这种方法开发速度极快,灵活性高,并且不需要任何自定义的模型训练或代码编写。
对比了实现情感分类任务的三种方法
从软件1. 0到3.0的演进,体现了技术能力与使用门槛之间关系的倒置。软件1. 0要求开发者具备深厚的编程语言知识;软件2. 0要求开发者掌握机器学习和数据工程的专业技能;而软件3. 0,在其基本形式上,仅要求使用者具备清晰的逻辑思维和自然语言表达能力。这极大地降低了软件创造的门槛,这一主题在后续的“氛围感编程”(vibecoding)中将得到进一步阐述。
然而,这也预示着“资深”的定义正在改变。一个资深的软件3. 0工程师,其核心竞争力可能不再是传统的编码技巧,而是成为一个更优秀的AI“教师”和“沟通者”。他们擅长通过精妙的提示词工程(promptengineering)来引导、约束和激发模型的潜能,并深刻理解模型的“心理”特质,以规避其固有的缺陷。
再次展示“GitHub地图”,并在其上增加了一块新大陆:“LLM提示,用英语编写”(软件3. 0)。同时,展示了Karpathy广为流传的推文:“最热门的新编程语言是英语”。
软件“编程”的门槛被极大地降低了——从需要掌握形式化语言(如Python、C++)的专业知识,转变为熟练运用自然语言。这在极大程度上实现了软件创造的民主化,但同时也对技能提出了新的要求:从纯粹的编码转向提示工程、上下文管理和系统设计。
展示了特斯拉Autopilot的技术栈。其中,“2. 0代码”模块(如BEVNet、Temporalmodule)处理来自摄像头和传感器的输入以生成预测,这些预测随后被“1. 0代码”用于控制转向和加速。
这是一个“软件2. 0吞噬软件1.0”的真实世界案例10。作为特斯拉前AI总监,Karpathy提供了内部视角。特斯拉最初在视觉任务上更多地使用传统的算法方法(软件1. 0),但后来转向了一个统一的神经网络方法(软件2. 0),该方法直接从海量的驾驶数据中学习10。“鸟瞰图预测”(Bird’seyeviewpredictions)是神经网络(权重)的输出,这些输出接着成为经典控制系统(代码)的输入。
这种范式转变并非简单的技术升级,而是一种深刻的权衡。软件2. 0在处理像自动驾驶这样复杂、数据丰富的领域时展现出超越人类的潜力,但同时也引入了新的挑战。特斯拉自动驾驶系统既能完成令人惊叹的驾驶操作,也因其在某些边缘场景下的可靠性问题而备受争议。这种在“能力”与“可靠性”之间的张力,是软件2. 0的核心特征。它以牺牲传统软件的确定性和可解释性为代价,换取了在模糊和复杂问题上的强大性能。
“巨量的软件将被(重新)编写”,并用箭头表示从1. 0向2.0和3. 0的迁移7。
向软件2. 0和3.0的转变不仅意味着创造新应用,更意味着对现有软件进行根本性的平台重构。这创造了巨大的经济机遇,堪比从大型机到个人电脑,或从桌面端到Web端的历史性转变。
特征
软件1. 0
软件2. 0
软件3. 0
源产物
显式代码(如Python文件)
神经网络权重(如. pt文件)
自然语言提示(如文本文件)
开发过程
编写显式逻辑
策划数据集、训练模型
提示工程、少样本示例
运行环境
CPU
GPU/TPU/专用硬件
LLM(作为服务或在设备上)
核心技能
算法思维、语言语法
数据科学、机器学习工程
提示设计、领域知识、系统设计
示例
simple_sentiment函数
训练好的二元分类器
Youareasentimentclassifier…提示
这张表格清晰地总结了Karpathy所介绍的基础概念,为理解后续内容奠定了坚实的基础。它将抽象的1. 0、2. 0和3.0概念具体化、可比较化,极具参考价值。
在本部分中,将深入分析卡帕西用以阐释LLM本质及其市场动态的三个关键类比。这三个类比——“效用设施”、“晶圆厂”和“操作系统”——共同构建了一个理解当前AI技术格局的强大心智模型,将其定位为一个全新的、基础性的计算平台。
2. 1LLM作为一种公共事业或效用设施(Utility)
卡帕西引用了吴恩达(AndrewNg)的名言“AI是新的电力”,将LLM类比为一种基础的效用设施或公共服务。
●资本支出(CAPEX)与运营支出(OPEX):训练一个基础模型的巨大前期投入(例如,xAI公司拥有10万块H100GPU的“巨像”计算集群),相当于建设一座“发电厂”的资本支出。而持续提供模型推理服务的成本,则构成了运营支出。
●计量访问与同质化API:用户通过一个日益标准化的API(输入提示词,输出文本)接入这个“智能电网”,并根据使用量付费(例如,按百万令牌计费),这与支付电费的方式如出一辙。
●可靠性与“断电”:用户要求服务具有高正常运行时间和低延迟,就像要求电网提供稳定的电压一样。当像OpenAI这样的主要供应商服务中断时,整个数字经济都会经历一次“智能断电”(intelligencebrownout)。
2. 2LLM作为一座晶圆厂(Fab)
这个类比将LLM训练中心比作半导体制造的晶圆厂。
●深度技术与商业机密:两者都涉及巨额的资本支出、深度的研发投入和专有的技术秘密(“secretsauce”)。
●“无厂”与“整合”模式:像Anthropic或Mistral这样在NVIDIA的GPU上训练模型的公司,类似于“无厂”(fabless)芯片设计公司(如AMD或苹果),它们依赖台积电(TSMC)的晶圆厂进行制造。而像Google这样使用自研芯片(TPU)进行训练的公司,则类似于“整合设备制造商”(IDM)(如英特尔),它们拥有自己的晶圆厂。这种区别对成本、控制能力和供应链安全具有重大的战略影响。潜在的xAI被视为垂直整合的参与者,它们“拥有自己的晶圆厂”。幻灯片中提到的xAI由10万块H100GPU组成的“Colossus”集群,直接指向了埃隆·马斯克正在孟菲斯建造的“计算超级工厂”。
这一类比的意义超越了单纯的成本考量,它揭示了人工智能计算的地缘政治维度。全球半导体供应链已是地缘政治博弈的核心战场。同样,能否获得尖端的AI芯片(如NVIDIA的H100)以及运行它们所需的庞大能源,正迅速成为衡量国家实力的关键指标。卡帕西提及xAI的“巨像”集群,正是在强调构建一个顶尖LLM已成为一项需要国家级产业投入的行动,这与全球在半导体领域的竞赛遥相呼应。“LLM即晶圆厂”的概念预示着,未来AI的发展将受到与芯片产业相同的产业政策、出口管制和资本投资力量的塑造。
将LLM训练集群比作半导体制造工厂(晶圆厂)。
模型家族
具体模型
预估训练成本
OpenAI
GPT-4
7800万美元
Google
Gemini1. 0Ultra
1. 91亿美元
Meta
Llama3(家族)
5亿多美元
Anthropic
Claude3Sonnet
数千万美元
基础模型预估训练成本
论证LLM不仅仅是商品,更是一个复杂的软件生态系统,类似于操作系统(OS)。幻灯片展示了一个带有外围设备的“LLMOS”示意图7。
●这是Karpathy最核心的类比。
○内核/用户空间:系统提示(开发者的指令)就像内核空间,而用户提示则是用户空间。这直接关联到提示注入这一安全挑战,即不受信任的用户输入可能会“攻击”内核的指令23。
○内存(RAM):上下文窗口是LLM的工作记忆。这是一个关键限制,导致了“顺行性遗忘症”(将在第三部分讨论)。
○外围设备:LLM可以与计算器、Python解释器、浏览器甚至其他LLM等外部工具交互,将它们视为输入/输出设备。
将在一系列传统操作系统(Windows、Mac、Linux)上运行应用(VSCode),与在一系列LLM“操作系统”(GPT-4、Claude、Gemini)上运行LLM应用(Cursor)进行类比。
这个类比有力地强化了操作系统的概念。应用(如Cursor这样的面向用户的产品)正与底层的“内核”(基础LLM)解耦。应用开发者可以、也将会为多个LLM进行开发,而用户最终将能够选择或切换它们,就像我们为电脑选择操作系统一样。这创造了一个新的竞争层面,也催生了对OpenRouter(见第14页)这类抽象层的需求。
将当前AI的发展阶段比作20世纪50-70年代大型机的分时共享时代。随后,通过在AppleSilicon上运行大型模型的例子,展示了“个人计算v2”的早期迹象。
●历史类比与未来趋势:
○分时共享:我们通过“终端”(聊天界面)访问强大、集中的LLM(云端的“大型机”),计算任务被分批处理和流式传输。
○个人计算v2:强大的端侧硬件,特别是苹果的统一内存架构(UnifiedMemoryArchitecture),正在开启一个新的范式。苹果的M系列芯片最高可支持512GB的统一内存,能够将拥有数千亿参数的庞大LLM完全加载到本地内存中运行24。幻灯片中展示的在多台Mac上运行稀疏专家混合(Mixture-of-Experts,MoE)模型(如Llama4和DeepSeek)的例子,正突显了这一趋势。MoE模型计算效率高,因为在处理任何给定token时,只有一小部分参数是活跃的,这使其非常适合在设备上进行推理26。
将文本聊天界面比作图形用户界面(GUI)出现之前的终端,说明LLM如何颠覆了传统的技术扩散模型
○聊天即终端:当前LLM的主要交互界面(如ChatGPT)就像命令行——功能强大但体验原始。这暗示着LLM的“GUI”尚未被发明,这在UI/UX设计领域意味着巨大的机遇。
○颠覆性扩散:Karpathy指出,技术通常是从军事领域扩散到企业,再到消费者(例如GPS、互联网)。LLM却颠覆了这一模式。最先进的模型几乎在一夜之间就直接提供给了数十亿消费者(“你好ChatGPT,怎么煮鸡蛋?”),而企业和政府现在才开始追赶。这是一个独特的历史时刻,对创新和监管都具有深远影响。28
第一部分核心观点:LLM实验室如同晶圆厂,LLM类似于20世纪60年代通过分时共享访问的操作系统,而现在数十亿人突然获得了对其进行编程的能力。
这部分内容为LLM作为一种新的、基础性的计算平台进行了全面的定位,为接下来探讨其具体特性和所创造的机会铺平了道路。
如果LLM是一个操作系统,那么一场新的平台竞争将不可避免。正如Windows、macOS和Linux在功能、开发者生态和用户体验上各有千秋,来自OpenAI、Anthropic和Google的模型也展现出不同的“风格”和能力。像Cursor这样的AI原生应用虽然可以在不同的LLM上运行,但其行为可能会有细微差异,从而产生“转换摩擦”。
这为模型供应商创造了强大的动力去构建自己的生态系统——包括“驱动程序”(API、工具集成)和“应用程序”,以锁定开发者和用户,这与上世纪90年代的操作系统战争如出一辙。这个框架解释了为何像VercelAISDK这样的开发者工具具有重要的战略意义,因为它们充当了跨平台的兼容层23。同时也说明了为什么像Stripe这样的公司要构建特定的“驱动程序”(如其模型上下文协议MCP),以确保自己的“硬件”(服务)能与这个新操作系统良好兼容26。
本部分从技术和经济类比转向探讨LLM的行为特征,即Karpathy所称的“心理学”。
将LLM描述为“人类的随机模拟”(stochasticsimulationsofpeople),它们拥有一种涌现出的“心理学”。
“随机鹦鹉”(stochasticparrots)一词常被用作批判,但Karpathy将其重塑为“人类精神的模拟器”,这是一个更宽容的说法,承认了它们在模拟类人推理、知识和缺陷方面的能力。Transformer架构图再次出现,旨在将这种涌现行为追溯到其底层架构。
电影《雨人》的海报,百科全书式的知识/记忆
3. 2核心病症及其安全隐患
●幻觉(Hallucination):这是指LLM以极高的置信度生成事实不正确或无意义内容的行为。
○技术背景:幻觉并非程序错误,而是自回归模型(autoregressivemodel)的固有属性。这类模型的设计目标是预测下一个最可能的token,而非最真实的token27。幻觉的产生可能源于训练数据中的错误、有缺陷的注意力机制,或是模型试图“填补”其知识空白的结果27。
○现实影响:幻觉是LLM在企业级应用中普及的主要障碍,尤其是在法律、金融等高风险领域,错误的输出可能导致严重后果28。这也是驱动像Perplexity这样基于检索增强生成(RAG)技术开发问答引擎的关键原因。
电影《恐惧拉斯维加斯》的海报幻觉
LLM倾向于生成看似合理但实际上不正确或毫无意义的信息。这是可靠性方面的一个主要问题,也是当前研究的重点领域。
参差不齐的智能(Jaggedintelligence)
一个模型可能在简单的算术或逻辑谜题上失败。这种“参差不齐的智能边界”使得在没有验证的情况下难以信任其输出。
顺行性遗忘症(Anterogradeamnesia)
LLM没有超越其上下文窗口的长期记忆。这个窗口的功能类似于一个短暂的工作记忆。它们不会通过与用户的互动来将新知识固化到其权重中。卡帕西用电影《记忆碎片》(Memento)和《初恋50次》(50FirstDates)来比喻这种记忆缺陷。为解决此问题,活跃的研究领域包括检索增强生成(Retrieval-AugmentedGeneration,RAG)以及更复杂的持续学习技术,如自适应SVD,这些技术试图在不覆盖关键知识的情况下更新模型权重29。
这两部电影为LLM的记忆局限性提供了强大而直观的类比,使一个复杂的技术问题变得易于理解。《记忆碎片》的主角无法形成新的长期记忆,《初恋50次》主角的记忆每天都会重置——两者都是对LLM状态限制的完美隐喻。
轻信(Gullibility),以及关于提示注入风险的警告
安全深度解读:这指的是提示词注入(promptinjection)漏洞,OWASP将其列为LLM应用面临的头号威胁23。
○威胁模型:攻击者将恶意指令嵌入到不受信任的数据中(例如,用户评论、检索到的网页)。由于LLM无法区分可信指令和不可信数据,它可能会遵循恶意指令23。
○防御机制:研究重点在于防御机制,如StruQ(结构化指令调优)和SecAlign(特殊偏好优化)。这些方法通过微调模型来忽略数据部分的指令,通常使用特殊的分隔符标记,并从用户输入中过滤掉这些标记23。
04
新软件时代的机会(人工智能时代的战略机遇)
本部分将卡帕西的理论框架转化为具体的商业机会,重点关注应用程序和智能体的构建,这是演讲中最长、最实用的部分,为清晰起见,分为三个小节进行分析。
卡帕西主张,当前的战略重点应该是构建“钢铁侠战衣”(即增强人类能力的工具),而非追求“钢铁侠机器人”(即完全自主的系统)。最直接的机会在于开发“部分自治应用”(partialautonomyapps),或称“CopilotforX”类产品,它们旨在增强而非取代人类。
这类应用的核心用户体验模式是一个紧密的循环:AI负责生成方案,人类负责验证。产品的成功取决于两点:一是让这个循环过程尽可能快速、便捷;二是将AI“拴在一条短绳上”,确保其生成的内容质量高且易于验证。
产品分析:Cursor——程序员的“钢铁侠战衣”
Cursor是一款AI原生的代码编辑器,是VisualStudioCode的一个分支,专为AI辅助编程而设计。
Cursor的工作流程体现了“生成-验证”循环:(1)将当前状态(代码、文件、错误信息)打包到上下文窗口中;(2)编排对LLM的调用以生成代码修改建议;(3)提供一个定制化的图形界面(GUI),让用户可以方便地审查差异(diff)并一键接受或拒绝修改。
Cursor通过其功能设计体现了“自治滑块”(autonomyslider)的概念。其自动化程度从简单的代码补全(按Tab键),到交互式聊天问答(Cmd+K),再到能够执行多步骤任务的智能体模式(Cmd+L),为开发者提供了不同层次的AI辅助。
产品分析:PerplexityAI——研究者的“钢铁侠战-衣”
Perplexity是一款“对话式问答引擎”,它将LLM与实时网络搜索相结合,旨在提供有来源可查的、准确的答案。
其工作流程是:(1)接收用户查询;(2)编排网络搜索和LLM调用,对信息进行综合处理;(3)在一个定制化的GUI中呈现附有引用来源的答案,并提供建议的后续问题。这套流程是解决LLM幻觉问题的直接方案。
Perplexity的自治滑块体现在其搜索模式上,用户可以选择从“快速搜索”到“深度研究”,从而控制AI在信息收集过程中的深度和广度。
将“Copilot”或“CursorforX”作为主要应用模式
详细分解了CursorAI代码编辑器的界面及其核心组件。
分解了PerplexityAI问答引擎的构成。
公司
主要功能
最新估值
主要投资者
HuggingFace
AI社区/模型中心(\“AI界的GitHub\“)
45亿美元(2023年8月)
Google,Amazon,Nvidia,Salesforce
PerplexityAI
AI问答引擎
90亿美元(2024年12月)
IVP,JeffBezos,Nvidia,Databricks
Cursor
AI原生代码编辑器
99亿美元(2025年6月)
Thrive,Accel,a16z,DST
xAI
基础模型与基础设施
私有(马斯克生态系统的一部分)

部分自主的普适性挑战
AdobePhotoshop和UnrealEngine等复杂软件的界面,并提问LLM如何能在其中“观察”和“行动”。
Karpathy将这一模式推广开来。要构建一个“Photoshop的Copilot”,核心挑战是相同的:如何给予AI感官输入(看到画布、图层、工具)和运动控制(在其中执行操作)以及如何让用户保持在监督环路中?这定义了下一代软件的工程任务。
人机协作的UI/UX循环
成功的部分自主应用的关键在于一个紧凑、快速的生成-验证循环。AI生成一个建议,人类快速验证它。为了实现这一点,AI的建议必须是小规模、增量式且易于理解的。nilenso的提示示例展示了一个“深思熟虑”的提示,它将AI限制在一个具体、可验证的任务上,与宽泛、开放式的提示形成对比。这是构建可靠AI辅助工具的关键最佳实践。
完全自主的“从演示到产品的鸿沟”
使用特斯拉Autopilot的“自主性滑块”和自动驾驶汽车的漫长发展历程来说明实现完全自主的难度。
一个演示(demo)是works. any()——它只需成功一次就足以令人印象深刻。而一个产品(product)是works. all()——它必须在所有边缘情况下都可靠地工作。Karpathy借鉴他在特斯拉的经验警告说,弥合这一鸿沟需要付出巨大的努力,尤其是在高可靠性至关重要的领域。这是对围绕完全自主的炒作的一个重要警示。
4. 2智能体的十年:跨越“演示到产品”的鸿沟
卡帕西对“2025年是智能体元年”的说法提出了质疑,并给出了一个更为现实的预测:“2025到2035年是智能体的十年”。
他引入了一个至关重要的概念:“演示到产品的鸿沟”。一个成功的演示(demo)意味着系统在某个时刻成功运行了一次(works. any()),而一个成熟的产品则要求系统在所有情况下都能可靠地运行(works. all())。对于可靠性至关重要的自治系统而言,这条鸿沟尤为巨大。
历史的镜鉴:自动驾驶(特斯拉vs. Waymo)
卡帕西用2015至2025年这“驾驶智能体的十年”作为前车之鉴。
●Waymo:代表了追求works. all()的路径。自2009年(作为谷歌项目)成立以来,Waymo专注于深度研发、定制硬件(激光雷达、雷达、摄像头),并在有限的地理区域内(地理围栏)实现完全无监督的自动驾驶40。其商业模式是成为“Waymo司机”——一个可授权的自动驾驶系统供应商。
●特斯拉:代表了从works. any()到works. all()的迭代路径。其Autopilot和FSD(受监督)系统是驾驶辅助功能,依赖纯视觉方案(软件2. 0),并进行广泛部署以收集数据,通过数据驱动的方式不断改进系统6。这恰好反映了卡帕西所倡导的“部分自治”或“钢铁侠战衣”的哲学。
特斯拉与Waymo的对比,为整个智能体市场提供了两种发展路径的范本。一些公司将效仿Waymo,致力于为狭窄但高价值的场景构建高度可靠的全自动智能体(例如,一个能完全自动化特定财务审计流程的智能体)。另一些公司则将遵循特斯拉的模式,构建“副驾驶”和“助手”,在广泛的任务中增强人类能力,并随着时间的推移逐步提高其自主性。卡帕西对“部分自治”的强调表明,他认为后一种模式对于初创公司而言是更具可行性的近期战略。
能体的十年——增强先行
○AI投资的“钢铁侠”理论:
1. 首先,演讲确立了“部分自主”(增强)是当前最直接、最切实的机遇,并以Cursor和Perplexity数十亿美元的估值作为市场证据。这就是“钢铁侠战衣”模式。
2. 接着,演讲明确警告了完全自主(“代理”)的巨大困难,引用了“从演示到产品的鸿沟”和自动驾驶的漫长发展时间线。这就是“钢铁侠机器人”模式。
3. 外部研究也证实了构建可靠企业级代理面临的巨大挑战:集成复杂性、安全性、上下文管理以及成熟工具的缺乏35。
4. 综合以上几点,可以得出一个战略路线图:在短期到中期内,最稳妥且最有利可图的路径是构建“钢铁侠战衣”——即增强人类能力的工具。而开发完全自主的“钢铁侠机器人”则是一项更长期、风险更高的研发任务。这个框架有助于区分近期的产品战略和长期的研究愿景。
4. 3氛围感编程(VibeCoding):创造的民主化与风险
卡帕西引入了“氛围感编程”这一新概念,它描述了一种全新的创造方式:创造者“忘记代码的存在”,仅通过高层次的、对话式的指令来引导LLM,并且常常不经审查就接受其生成的代码。
●民主化:这种方式极大地降低了创造的技术门槛,使得非技术背景的用户甚至儿童都能构建功能性的应用程序。演讲中展示的MenuGen应用和关于9-13岁儿童编程活动的推文都是力证。
●隐藏的复杂性:然而,卡帕西在关于构建MenuGen的博客文章中揭示了一个关键点:“代码是最简单的部分!”。真正的挑战在于那些传统的“软件1. 0”任务:管理API密钥、部署(Vercel)、域名、支付等。演讲中关于使用Clerk添加谷歌登录的例子完美地诠释了这一点——这是一个漫长的、手动的过程,需要在不同的仪表盘之间点击和复制密钥,而这些任务目前还难以通过“氛围感编程”来自动化。
通过Karpathy的推文、一个模拟的维基百科条目以及儿童使用它的例子来定义“VibeCoding”。
“VibeCoding”是指通过自然语言向LLM描述期望的结果来构建软件,引导和完善AI生成的代码,而无需完全理解每一行代码。Karpathy在2025年2月创造了这个词3。它代表了软件开发的终极民主化,使非专家也能构建真实的应用。
如果“氛围感编程”让编写核心逻辑变得轻而易举,那么新的瓶颈就转移到了其他所有环节:基础设施、部署、认证、支付等。这为那些提供简单、近乎“无代码”解决方案的公司创造了巨大的市场机会。Clerk、Vercel和Stripe等公司正处于这个风口。对许多人来说,未来的开发模式可能是在一个强大且易于使用的托管服务框架之上,通过“氛围感编程”来构建核心业务逻辑。“氛围感编程”并没有消除复杂性,它只是将复杂性从代码本身转移到了基础设施层面。
案例研究——MenuGen
它通过拍摄菜单照片并为每个菜品生成图片来可视化菜单。并指出“代码是最简单的部分!”,并列出了真正的挑战。
结合Karpathy博客的深度解读:Karpathy的博客文章《VibecodingMenuGen》41提供了他构建一个真实世界应用时“痛苦跋涉”的第一手资料。
“简单”的部分:本地原型很快就创建好了。
“困难”的部分(集成噩梦):大部分工作不是编码,而是在“浏览器里点点点”:
API:处理来自OpenAI和Replicate的速率限制、废弃的端点和令人困惑的文档。
部署(Vercel):调试只在Vercel服务器上出现的构建错误,以及管理环境变量。
认证(Clerk):为生产环境进行复杂的设置,包括自定义域名和与GoogleCloud的OAuth配置42。
支付(Stripe):集成另一项服务,管理更多的密钥,并让LLM修复其自身实现中的一个关键设计缺陷。
集成的痛苦——谷歌登录展示了通过Clerk添加谷歌登录的复杂、多步骤的文档截图。
○“胶水层”作为下一个重大机遇:
1. Karpathy的论点是LLM(软件3. 0)是一种新的、强大的编程范式。
2. 他的“VibeCoding”经历表明,虽然核心的生成(“做什么”)变得容易,但集成各种不同的服务——即“胶水”——却极其困难和令人沮丧。
3. 他所使用的服务(Vercel、Clerk、Stripe)本身都是现代化的、对开发者友好的平台。复杂性源于它们之间的交互。
4. 由此可以推断:实现“VibeCoding”和AI驱动开发全部潜力的主要瓶颈,并非LLM本身,而是由API、认证和部署构成的脆弱、复杂的“胶水层”。这意味着,能够抽象掉这种集成复杂性、创建从“想法到部署应用”的无缝管道的平台或工具,存在着巨大的市场机会。解决这个“胶水”问题的公司将释放巨大的价值。
信息的三种消费者引入为代理而构建的想法,并列出了数字信息的三种消费者:人类(GUI)、计算机(API)和新的类别——代理(类人计算机)。
这是设计思维的根本性转变。几十年来,我们为人类的眼睛(GUI)或机器的解析器(API)设计界面。现在,我们需要为第三类消费者设计:AI代理,它们以一种介于两者之间的方式消费信息。
以人为中心vs. 以智能体为中心的网络协议
下表清晰地展示了从一个纯人类使用的网络向一个人机共存、智能体感知的网络范式的转变。
协议
目标“用户”
目的
类比
robots. txt
网络爬虫(计算机)
控制/限制访问
“禁止入内”标志
HTML/GUI
人类
展示/交互
“商店橱窗”
llms. txt
LLM智能体
引导/提供知识
“精心准备的欢迎礼包”
MCP/可操作API
LLM智能体
赋能行动/工具使用
“配备工具的服务台”
llms. txt——AI的robots. txt
由Answer. AI的JeremyHoward于2024年9月提出,llms. txt是一个为网站内容提供干净、Markdown格式、LLM友好版本的标准44。
它类似于robots. txt或站点地图,但不仅仅是控制访问,而是为AI代理提供一个权威的、易于解析的真实来源,剥离了复杂的HTML、CSS和JavaScript。
实践中的llms. txt展示了面向人类的文档(Vercel、Clerk)和它们对应的面向LLM的llms. txt或.md版本(Vercel、Stripe)。
市场采纳:这不仅仅是一个提案,主流科技公司正在采纳它。Vercel和Stripe现在都提供其文档的机器可读版本46。这表明业界已经认识到“为代理而构建”的必要性。
为代理设计的动作——从点击到cURL
将Manim(一个基于代码的动画引擎)作为机器可读格式的例子(第65页),并展示了Vercel在其文档中用cURL命令替代了之前的“点击”说明(第66页)。幻灯片还介绍了Stripe的模型上下文协议(ModelContextProtocol,MCP)。
cURL命令:这是一个简单但意义深远的转变。提供API命令(cURL)而非人类指令(“点击”),使得文档能被代理直接执行。
模型上下文协议(MCP):这是一个更高级的标准。MCP是一个开放协议,用于标准化应用程序向LLM提供上下文和工具的方式48。Stripe的MCP服务器允许AI代理(如Cursor中的代理)被赋予一套工具,以结构化的方式直接调用StripeAPI并搜索其知识库46。它是一个正式的“代理API”。
5. 3自动化上下文构建:“摄取”层
●问题所在:要让一个智能体处理复杂任务(例如,重构一个代码库),必须将整个项目的状态“打包到上下文窗口中”。手动完成这项工作非常繁琐。
●解决方案:上下文构建器:一类新的工具正在涌现以自动化此过程。
○Gitingest:该工具能摄取一个GitHub仓库,并输出一个对提示词友好的文本摘要,包括文件结构和内容,为LLM做好准备。
○Devin的DeepWiki:该工具更进一步,不仅摄取代码,还能生成高层次的文档和系统架构图,帮助智能体(或人类)理解代码库的宏观结构。
上下文构建器——Gitingest和DeepWiki
展示了两款能自动将整个GitHub仓库准备成LLM上下文的工具。
Gitingest:一个能抓取整个Git仓库并将其文件结构和内容打包成一个巨大文本文件的工具,非常适合粘贴到具有大上下文窗口的LLM中(如Gemini2. 0Pro)49。它大规模地解决了代码的“上下文打包”问题。
DeepWiki:一个来自CognitionAI(Devin的创造者)的更高级的工具,它超越了简单的文本连接。它能分析一个公共GitHub仓库,并自动生成文档、架构图和一个交互式问答界面51。它为人类和AI都创建了一个关于代码库的结构化、语义化的理解。
在软件2. 0时代,编译器将人类可读的源代码转换为机器可执行的代码。在软件3. 0的世界里,这些“上下文构建器”扮演了一种新型编译器的角色。它们接收一个复杂的、结构化的产物(如一个Git仓库),并将其“编译”成一种新的“CPU”(即LLM)能够理解和处理的格式(即上下文窗口中的提示词)。这是智能体基础设施中一个至关重要但目前服务尚不完善的环节。
一个名为“Operator”的产品的截图,这是一个可以使用自己的浏览器来为用户执行任务的代理。
这是一个前瞻性的例子,展示了该领域的发展方向:更自主的代理,能够与现有的网络(为人类构建的GUI世界)进行交互。这弥合了“LLM操作系统”与庞大的人类中心界面遗产之间的鸿沟。
完整愿景——统一示意图一张综合性图表,将所有主要概念联系在一起:位于中心的LLMOS、三种软件范式、人机交互循环,以及“为代理而构建”的需求。
AndrejKarpathy的演讲展现了卓越的战略远见。他为当前AI热潮的混乱局面提供了一个连贯的心智模型,并规划出一条清晰、可行的路线图。文章认为,最大的机遇不仅在于构建下一个华而不实的智能体演示,更在于建设那些能够让“智能体的十年”成为现实的、强大的、可靠的、标准化的基础设施。这场转型过程将是复杂的,LLM的“心理”缺陷仍将是关键挑战,但发展轨迹已然明确:软件正在再次改变,而那些深刻理解这个新“操作系统”的建设者,将定义下一个科技时代。
基于对AndrejKarpathy演讲的全面分析,为不同角色的利益相关者提供以下战略建议:
●对于开发者:
○角色转变:应将重心从编写底层逻辑转向成为“系统架构师”和“AI编排者”。熟练掌握提示工程、上下文管理以及“给AI套上缰绳”的艺术至关重要。
○掌握“胶水层”:学习如何使用和集成各种服务(部署、认证、支付等)将成为核心竞争力。
●对于企业领导者:
○平台思维:认识到AI不仅是另一个工具,而是一个全新的计算平台。应优先构建能够增强员工能力的“钢铁侠战衣”式应用,以实现立竿见影的投资回报。
○数据与接口准备:投资于数据质量,并开始通过采纳llms. txt等标准和开发内部API,使内部系统和文档“为代理做好准备”。
●对于投资者:
○关注应用层:最大的机会可能不在于构建下一个基础模型(“晶圆厂”业务),而在于其上的各个层面。
○寻找价值所在:应寻找那些正在构建卓越“钢铁侠战衣”(特定垂直领域的Copilot)、创造“AI的GUI”,或者——最关键地——通过简化AI与现实世界产品集成的复杂性来解决“胶水层”问题的公司。Cursor和Perplexity的估值表明这已经发生。Karpathy的“VibeCoding”经历揭示了当前最大的痛点,也因此指向了最巨大的机遇。

3. AndrejKarpathy-Wikipedia,accessedJune20,2025,https ://en. wikipedia.org/wiki/Andrej_Karpathy

6. ScaleAI:AcceleratetheDevelopmentofAIApplications,accessedJune20,2025,https ://scale. com/
7. SoftwareintheeraofAI.pdf

28. Blog|karpathy,accessedJune20,2025,https ://karpathy. bearblog.dev/blog/

34. PerplexityAI-Wikipedia,accessedJune20,2025,https ://en. wikipedia.org/wiki/Perplexity_AI

42. WelcometoClerkDocs,accessedJune20,2025,https ://clerk. com/docs

51. DeepWiki-DevinDocs,accessedJune20,2025,https ://docs. devin.ai/work-with-devin/deepwiki

【AI技术与应用交流群|仅限受邀加入】
AI算力领域TOP级从业者专属圈层
√与头部算力企业深度对话
√与AI上下游企业深度对话
√获取一手全球AI与算力产业信息
√获取AI热点及前沿产业独家信息
√随时了解全球AI领域高管最新观点及实录全文
√有机会参与AI主题产业交流活动
扫码验证身份(需备注姓名/公司/职务)
不止有DeepSeek,更有AI产业的未来!
|文章来源:数字开物
•END•
【专栏】精品再读
大模型最大的落地场景出现了|2024数字开物大会成功举办
AI与数据中心出海东南亚面临两大挑战|万字圆桌实录
2万字完整演讲实录:最强TPU芯片、全新AIAgent来了|谷歌云Next大会
黄仁勋3万字完整精校实录:\“思考型token\“爆发,AIinfra即将巨变
何宝宏:大语言模型上半场已进入“垃圾时间”
深度|“唤醒”特斯拉,进击的中国Robotaxi


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录