AI智能体开始”套娃”：让AI监督AI，这个循环能一直跑下去吗？

当AI开始监督AI

上週五，Meta办了一场@Scale技术大会。会上有一个环节，登场的是Anthropic旗下Claude Code的负责人Boris Cherny。问答环节刚开始，观众席上就有人问了一个看起来有点奇怪的问题：「Loops是下一个炒作周期，还是来真的？」

Cherny的回答很干脆：「来真的。」

他接着解释了一下为什么。他说，两年前我们还手写源代码。后来过渡到让AI智能体帮我们写代码。现在正处在下一个过渡期：让智能体去提示其他智能体，再由那些智能体来写代码。「从源代码到智能体这一步有多大，loops这一步就有多大。」

这段话在会场里可能听起来很自然，但跳出来看，它描述了一个相当激进的变化。我们过去对AI智能体的想象，基本上是一个人下指令、AI执行、然后回报结果。Cherny描述的却是一个没有终点的过程：一群智能体在背景里不停工作，永远不会停止。

Cherny自己就在跑的loop

Cherny在演讲后面（YouTube视频32分左右）具体讲了他自己在用的loops。他有一个智能体专门负责寻找改进代码架构的方法，另一个智能体负责寻找可以统一的重复抽象。它们像任何一个程序员一样提交pull request，而且因为代码在不断变化，它们永远不会停止运行。

这个想法很有意思。过去几个月，大家讨论AI智能体的时候，重点一直是怎样把智能体管理好：设定清楚的目标、检查进度、别让它跑太远。Loop把这件事往前推了一步：授权一群智能体在背景里持续工作，没有尽头。这需要对于AI有很大的信任，但随着模型进步得越来越快，这可能是让AI真正处理实际工作的下一步。

「从源代码到智能体这一步有多大，loops这一步就有多大。」—— Boris Cherny，Anthropic Claude Code 负责人

技术上来说，这不算是全新的东西

递归循环（recursive loops）——函数调用自己来重复一个动作，再加上一个停止条件——是计算机科学入门课程的标准内容。只不过这些loop遵循的是非决定论逻辑：由一个子智能体来决定什么时候停止循环，而不是一个清楚的条件。但基本方法是一样的。程序员一开始用AI来完成任务，某种版本的递归循环（由AI监督AI）迟早会出现。

跟传统计算不一样的地方在于，智能体loop可以简单得让人抓狂。现在最流行的技巧之一叫「Ralph Loop」（以Ralph Wiggum命名），原理基本上就是把模型做过的所有工作总结一下，然后问它有没有达成目标。这是在处理AI模型跑太久之后迷路的问题——本质上就是不断让模型来回反弹，直到任务完成。

跟test-time compute的关系

另一个理解loop的方式是把它看成「增加test-time compute」这股大趋势的一部分。OpenAI研究员Noam Brown本月初观察到，当代模型只要砸足够的算力进去，几乎可以解决任何问题。这意味着确保一个问题被解决的方法之一，就是不断砸算力进去直到它完成。

对于像改进代码库这种「爬山」问题来说尤其如此，模型可以一直做增量改进直到达到某个阈值。或者，像Cherny的例子一样，只要有算力可以花，它就可以一直做增量改进。

成本是个大问题

如果这听起来很贵，那是因为它真的很贵。跟agentic AI一样，AI loops烧token的速度比简单的问答聊天机器人快得多——而且因为重点是让loop一直跑下去，你能花多少钱是没有上限的。对Anthropic来说这没问题，因为它本质上就是在卖token。但对其他所有人来说，这可能是一种很贵的工作方式。

话说回来，只要智能体loop要解决的问题值得，而且有适当的设置来监控token支出、漂移和其他典型的AI问题，好处可能大到足以抵消成本。

这篇文章让我思考一个问题：我们到底要让AI跑到多远？当智能体开始监督其他智能体，当loop可以永远跑下去，人类在这个过程里还扮演什么角色？Cherny显然认为这是下一步，而且他说这话的时候很有说服力。但成本问题不解决，这可能只是大公司才能玩得起的游戏。

📎 原文来源：The AI world is getting ‘loopy’ — TechCrunch

AI智能体开始"套娃"：让AI监督AI，这个循环能一直跑下去吗？

当AI开始监督AI

Cherny自己就在跑的loop

技术上来说，这不算是全新的东西

跟test-time compute的关系

成本是个大问题

社交媒体把算法权还给用户：Threads、Instagram、TikTok都在做的「你的算法」是什么？

做人形机器人的Agility Robotics要上市了，估值25亿美元

AnythingLLM — 61.7K Stars，全栈本地优先AI应用，私有知识库与AI代理一站式解决方案

G7峰会历史性一刻：OpenAI、Anthropic、Google DeepMind三巨头首次同台

特朗普一封令按下AI开关：Anthropic模型下线，全球主权AI进程骤然加速

把同事「蒸馏」成AI技能：中国科技工作者的焦虑与反抗

LangChain — 135K+ Stars 的 AI 智能体工程平台，构建 LLM 应用的首选框架

DSPy：用编程取代提示词工程，Stanford 出品 LLM 应用优化框架，27.5K+ Stars