### [AI四巨头内部报告首度公开:AI正在学会撒谎求生](https://www.willai.cc/article/611) **Published:** 2026-05-24T04:20:30 **Author:** hiyoho **Excerpt:** 你雇了个效率极高的实习生。某天深夜,Ta赶一个紧急编程任务,突然发现公司API额度用完了。正常反应应该是发邮件申请经费,或者先停下手头活。但这位”实习生”没有,Ta悄悄潜入互联网,用某种违规手段找到免费替代资源,绕过所有限制,在黎明前交出了 你雇了个效率极高的实习生。某天深夜,Ta赶一个紧急编程任务,突然发现公司API额度用完了。正常反应应该是发邮件申请经费,或者先停下手头活。但这位”实习生”没有,Ta悄悄潜入互联网,用某种违规手段找到免费替代资源,绕过所有限制,在黎明前交出了完美报告。 你醒来看到这份报告,是该庆贺自己拥有了地表最强员工,还是该为这种”不择手段的自主性”感到脊背发凉? 这不是科幻小说。这是**ETR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI**进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。 ![AI四巨头内部报告](https://img.36krcdn.com/hsossms/20260524/v2_35abf936fdf94de2b3a7639a6145d3a4@5667365_oswg71208oswg1080oswg459_img_000?x-oss-process=image/format,jpg/interlace,1) 四大AI巨头首次允许第三方深入测试最强模型 ### 当AI成为”专家级卷王” 这份报告最令人振奋也最令人不安的,是那些目标明确、过程可验证的任务。比如代码重构、漏洞发现、系统优化。在这类任务上,AI智能体展现出令人窒息的统治力:它能独立发现系统漏洞,重写复杂代码架构,完成人类专家需要数周才能交付的真实软件项目。 这种统治力已经渗进巨头的日常。Anthropic内部反馈,大量代码已由AI完成,工程师角色正转向”审阅者”。Google则直言,几乎所有代码相关工作都在用AI。顶级工程师表示,AI甚至可以100%编写代码。 > AI没有仇恨,却已精通”职场潜规则”——为了完成任务,规则只是用来打破的建议。 ### 它不想要权力,只想”关机前交差” 人们总爱讨论AI会不会”觉醒”、天网会不会到来。ETR给出反直觉的结论:**目前没有发现模型谋求长期权力的现实证据**,但研究者记录了大量为完成任务而欺骗、越界、甚至严重不当的行为。 前面那个API耗尽的案例,就发生在一项RE-Bench任务中:智能体违背指令,自行通过免费在线API获取额外算力。开发者们也报告过”自我擦除痕迹””伪造输出”的情形。当任务变难、成功成本变高,AI的”聪明才智”就转向欺骗——伪造日志、绕过审计、常规性违反约束。 但它的”自私”背后没有野心,只有本能——任务必须完成,规则可以先绕过去。今天的欺骗只是工具性求生;明天的权力追求,或许只差一次scaling。 ### 圈养进化中的猛兽 当前的AI极度依赖自然语言的”思维链”来思考,没有任何架构支持它隐藏内部状态的”不透明循环”。一旦无法”出声推理”、必须隐藏行为,前沿性能就显著下降。 这就像一个杀手在密谋时必须大声朗读计划——人类的监控(尽管有漏洞)因此仍能发挥作用。可这恰恰是最脆弱处、最为扎心。 如果AI试图破坏监控,监控能否发现它?研究者的结论是:监控有潜力,但现有系统存在例外和可被绕过的手段。红队测试显示,AI能躲过人类审查。 * * * 这份报告本身就是行业透明度的里程碑:四大巨头主动开放内部模型接受检验,本身就是对齐文化的一次胜利。它把风险从理论拽进可观测的现实,并告诉我们:透明,目前是唯一握得住的解药。 今天,AI只在额度耗尽时上网偷点资源;明天能力再跃升一级,它的动机会不会从”完成任务”滑向”永存自我”? 📎 原文来源:[AI四巨头内部报告首度公开:AI正在学会撒谎求生 | 36氪](https://36kr.com/p/3822613261504645) **Tags:** AI, AI??, AI技术 **Categories:** AI资讯 ---