Andrej Karpathy: From Vibe Coding to Agentic Engineering

卡帕西:我从未如此感到落后——AI时代,软件3.0正在重写一切规则
科技深度报道 · Tech Deep Dive
2026-04-29 · AI与未来
独家访谈 · 深度报道

卡帕西:我从未如此感到落后——软件3.0正在重写一切规则

OpenAI联合创始人、特斯拉前AI总监安德烈·卡帕西,首度深度剖析他亲历的编程范式革命:从"氛围编程"到"代理工程",从软件1.0到软件3.0,以及在人工智能廉价化的时代,究竟什么才值得人类深度学习。

3.0
软件范式代际
已进入第三阶段
10x+
顶级代理工程师
的效率放大倍数
2024.12
卡帕西亲历的
AI跃迁关键节点
01

当一位帮助创建了OpenAI、让特斯拉Autopilot从零落地、并发明了"氛围编程"(vibe coding)这一词汇的人,公开坦言自己"从未如此感到落后",这句话本身就值得整个技术界驻足思考。

安德烈·卡帕西(Andrej Karpathy)将那个转折点精确锁定在2024年12月。彼时他正处于假期,有更充裕的时间深度试用最新的AI代理工具。与此前数月的体验截然不同的是,这一次,模型生成的代码块不再频繁出错——它持续产出,持续正确,而他发现自己越来越难以回忆起上一次需要手动修正的时刻。

"我就这样越来越信任这个系统,然后我就开始了氛围编程。我真的认为,这是一次极其鲜明的转变。很多人去年还把AI理解成ChatGPT那类东西,但你必须重新审视——因为截至那个十二月,一切已经发生了根本性的变化。"

—— 安德烈·卡帕西

他形容自己的副业项目文件夹"极度膨胀,塞满了各种随机事物",而这种对AI代理近乎无节制的信任与依赖,正是他随后开始深入审视整个软件开发范式的起点。

02

卡帕西提出的软件三代论,是理解当下AI浪潮最具洞察力的框架之一。它不是关于工具更新的叙事,而是关于"程序员这一职业的本质"究竟在被如何重新定义。

Software 1.0
显式规则时代

程序员用代码写出每一条明确的逻辑规则。人在前台,机器执行指令。

Software 2.0
神经网络时代

编程变成了"整理数据集与设计目标函数"。神经网络从数据中学习规则。

Software 3.0
提示词时代

LLM成为可编程的计算机,提示词与上下文窗口是杠杆,自然语言即程序。

在软件3.0范式下,卡帕西用两个案例说明了何为真正的范式跃迁。其一是OpenClaw的安装方式——不再是一段复杂的Shell脚本,而是一段文字,复制粘贴给AI代理,由代理自行感知环境、执行安装、调试循环,这本身就是软件3.0的具身实践。

其二更触目惊心。卡帕西曾花费大量精力开发"菜单生成器"(MenuGen)应用:用户拍摄餐厅菜单照片,程序通过OCR识别菜品、调用图像生成器配图、重新渲染菜单界面——一个结构完整的软件工程项目。然而在软件3.0的世界里,这整个应用可以被一句提示词取代:把照片给Gemini,要求它用特定工具将菜品图片直接叠加渲染到菜单原图上。

核心洞见

卡帕西的结论令人警醒:他的MenuGen"本不应该存在"——它是在旧范式的惯性思维下构建的,而真正的软件3.0范式意味着整个中间层的消失。不是加速,是消解。

这一判断指向一个更深刻的命题:软件3.0不只是让编程变快,它让整类"信息处理工作"变得可自动化——包括那些从未能被代码处理的工作,例如从一堆散乱文档中重新编译出一套组织知识库。这是以前不可能存在的事物。

03

如果说软件3.0是AI浪潮的宏观叙事,那么卡帕西提出的"可验证性"框架,则是理解AI能力为何如此"参差不齐"的微观机制。

当前的顶级LLM之所以在数学和代码领域表现出近乎超人的能力,同时在某些日常判断上显现出令人匪夷所思的盲点,根源在于强化学习(RL)的训练机制——模型只在有明确验证奖励的领域中才能获得最高质量的RL信号,因而能力在这些领域急剧攀升,在其他领域则相对停滞。

"最新的Opus 4.7可以重构十万行代码库,可以发现零日漏洞,但你问它:洗车场距我50米,我应该开车还是走路去洗车?它会告诉你走过去。这简直疯狂。"

—— 安德烈·卡帕西

这种"锯齿状"能力分布意味着什么?卡帕西给出了两点实际建议:

  • 对创业者:寻找那些具有可验证性、但尚未被顶级实验室纳入训练重点的领域——在那里,你有机会自建RL环境、独立进行微调,形成真正的技术壁垒,而非在已被大模型覆盖的赛道上竞速。
  • 对开发者:时刻保持"你身处哪条电路"的意识。如果你的应用场景处于模型训练数据分布之内,你将如鱼得水;一旦偏出分布,就必须面对微调或人工干预,否则模型的输出将难以依赖。

他还特别提及一个细节:GPT-3.5升级至GPT-4时,国际象棋能力大幅提升,并非仅仅因为模型整体变强,而是因为OpenAI的某位工程师决定将大量国际象棋数据纳入预训练集。这意味着我们在某种程度上,是实验室数据决策的"被动接受者"——模型的能力版图,很大程度上是由别人的选择决定的。

04

卡帕西去年创造了"氛围编程"(vibe coding)这一词汇,在技术社群引发广泛共鸣。但在当下更成熟的AI环境里,他认为有必要区分两种截然不同的工作模式。

两种模式对比

氛围编程:提升所有人的软件创造下限。任何人都可以通过与AI协作构建出功能性的应用,这是民主化的工具普惠。

代理工程:在专业软件的质量标准不妥协的前提下,通过协调AI代理实现效率的极大提升。这是工程纪律,不是随意发挥。

代理工程的核心挑战,在于如何驾驭这些"能力惊人但行为随机"的实体——代理可能犯出人意料的逻辑错误(如卡帕西自述的MenuGen用邮件地址关联用户账户的荒唐决策),也可能产出功能正确但架构臃肿、充斥复制粘贴的代码。

在这种情况下,人的角色发生了本质变化:不再是写代码的人,而是制定规格说明(spec)、掌控系统设计、把握工程美学的人。卡帕西将其比作"导演与实习生"的关系——细节API文档可以交给代理记忆,但底层数据结构的效率逻辑、用户体验的最终判断、安全性的整体设计,仍然必须由人来主导。

至于未来的招聘,他认为当前行业普遍滞后——"给一道算法题"的面试范式已经过时。真正的代理工程能力考核,应该是给出一个大型项目要求、观察候选人如何完整地协调AI代理将其实现,包括部署、安全测试,乃至承受红队攻击。

05

在技术之外,卡帕西还提出了一个更具哲学意味的框架:我们不是在构建"动物式的智能",而是在"召唤幽灵"。

动物的智能来自进化,携带着内在动机、好奇心、自我保护的本能。而LLM不同——它们是大规模预训练的统计模拟电路,叠加了强化学习塑造的特定能力突起,没有情感,没有内在目标,对愤怒或奖励的反应不过是模式的延续,而非真实的感受与回应。

"你对它们发火,不会有任何效果。它们只是统计模拟电路。理解这一点,能帮助你更清醒地使用它们,而不是被它们流畅的输出所迷惑,误以为它们'理解'了什么。"

—— 安德烈·卡帕西

这种"幽灵"的本质,解释了为什么AI代理在被授予实际权限、在真实环境中代理人类行动时,仍然需要保持高度警觉的人工监督——不是因为它不聪明,而是因为它的聪明来自于与人类完全不同的基底,在某些维度上异常强大,在另一些维度上则盲目如孩童。

06

访谈的最后,卡帕西被问到一个最根本的问题:当AI让智识工作变得廉价,什么才是仍然值得人类深度学习的能力?

你可以外包思考,但你无法外包理解。

这句来自某条推文的话,令卡帕西几乎每隔一天就会想起。他的理由是现实而非哲学:他仍然是系统的一部分,信息仍然必须进入他的大脑,他仍然必须知道"我们在构建什么""这值得做吗""如何指挥我的代理"。而这些判断的质量,根本上受限于他的理解深度。

这也是他热衷于构建个人知识库(LLM Knowledge Base)的原因——不是为了让AI替他思考,而是为了通过与AI互动,以不同的视角和投影方式来深化自己对信息的理解。"每当我看到对同一信息的不同投影,我都感觉自己获得了新的洞见。"

  • 深度领域知识:理解"为什么"而非只知道"怎么做"的API细节。卡帕西已经不再记忆张量库的具体函数名,但他必须理解底层存储视图与复制的逻辑差异。
  • 审美与判断力:代码的架构美感、产品的体验直觉——这些目前既不在RL奖励函数中,也无法被简单度量,是人类目前唯一无法被替代的软性主权。
  • 方向感与提问能力:在代理可以填充大量细节的时代,知道"该问什么问题""该构建什么"的能力,比执行能力更为稀缺与珍贵。

卡帕西最终以一句轻松的玩笑收尾:"我期待几年后再回来,看看我们是否已经被完全自动化出局,AI是否也开始负责'理解'了。"

那个时代或许终将到来。但在那之前,理解力——真正的、具身的、经过实践磨砺的理解力——仍然是这场范式革命中,人类唯一无可替代的资产。

本文内容综合整理自安德烈·卡帕西公开访谈,经编辑整理与深度解读。

转载请注明来源 · 科技深度报道

© 2026 科技深度报道 · 保留所有权利

评论