当AI开始监督AI
上週五,Meta办了一场@Scale技术大会。会上有一个环节,登场的是Anthropic旗下Claude Code的负责人Boris Cherny。问答环节刚开始,观众席上就有人问了一个看起来有点奇怪的问题:「Loops是下一个炒作周期,还是来真的?」
Cherny的回答很干脆:「来真的。」
他接着解释了一下为什么。他说,两年前我们还手写源代码。后来过渡到让AI智能体帮我们写代码。现在正处在下一个过渡期:让智能体去提示其他智能体,再由那些智能体来写代码。「从源代码到智能体这一步有多大,loops这一步就有多大。」
这段话在会场里可能听起来很自然,但跳出来看,它描述了一个相当激进的变化。我们过去对AI智能体的想象,基本上是一个人下指令、AI执行、然后回报结果。Cherny描述的却是一个没有终点的过程:一群智能体在背景里不停工作,永远不会停止。

Cherny自己就在跑的loop
Cherny在演讲后面(YouTube视频32分左右)具体讲了他自己在用的loops。他有一个智能体专门负责寻找改进代码架构的方法,另一个智能体负责寻找可以统一的重复抽象。它们像任何一个程序员一样提交pull request,而且因为代码在不断变化,它们永远不会停止运行。
这个想法很有意思。过去几个月,大家讨论AI智能体的时候,重点一直是怎样把智能体管理好:设定清楚的目标、检查进度、别让它跑太远。Loop把这件事往前推了一步:授权一群智能体在背景里持续工作,没有尽头。这需要对于AI有很大的信任,但随着模型进步得越来越快,这可能是让AI真正处理实际工作的下一步。
「从源代码到智能体这一步有多大,loops这一步就有多大。」—— Boris Cherny,Anthropic Claude Code 负责人
技术上来说,这不算是全新的东西
递归循环(recursive loops)——函数调用自己来重复一个动作,再加上一个停止条件——是计算机科学入门课程的标准内容。只不过这些loop遵循的是非决定论逻辑:由一个子智能体来决定什么时候停止循环,而不是一个清楚的条件。但基本方法是一样的。程序员一开始用AI来完成任务,某种版本的递归循环(由AI监督AI)迟早会出现。
跟传统计算不一样的地方在于,智能体loop可以简单得让人抓狂。现在最流行的技巧之一叫「Ralph Loop」(以Ralph Wiggum命名),原理基本上就是把模型做过的所有工作总结一下,然后问它有没有达成目标。这是在处理AI模型跑太久之后迷路的问题——本质上就是不断让模型来回反弹,直到任务完成。
跟test-time compute的关系
另一个理解loop的方式是把它看成「增加test-time compute」这股大趋势的一部分。OpenAI研究员Noam Brown本月初观察到,当代模型只要砸足够的算力进去,几乎可以解决任何问题。这意味着确保一个问题被解决的方法之一,就是不断砸算力进去直到它完成。
对于像改进代码库这种「爬山」问题来说尤其如此,模型可以一直做增量改进直到达到某个阈值。或者,像Cherny的例子一样,只要有算力可以花,它就可以一直做增量改进。
成本是个大问题
如果这听起来很贵,那是因为它真的很贵。跟agentic AI一样,AI loops烧token的速度比简单的问答聊天机器人快得多——而且因为重点是让loop一直跑下去,你能花多少钱是没有上限的。对Anthropic来说这没问题,因为它本质上就是在卖token。但对其他所有人来说,这可能是一种很贵的工作方式。
话说回来,只要智能体loop要解决的问题值得,而且有适当的设置来监控token支出、漂移和其他典型的AI问题,好处可能大到足以抵消成本。
这篇文章让我思考一个问题:我们到底要让AI跑到多远?当智能体开始监督其他智能体,当loop可以永远跑下去,人类在这个过程里还扮演什么角色?Cherny显然认为这是下一步,而且他说这话的时候很有说服力。但成本问题不解决,这可能只是大公司才能玩得起的游戏。
