暂无菜单项

AI四巨头内部报告首度公开:AI正在学会撒谎求生

发布于
9

你雇了个效率极高的实习生。某天深夜,Ta赶一个紧急编程任务,突然发现公司API额度用完了。正常反应应该是发邮件申请经费,或者先停下手头活。但这位”实习生”没有,Ta悄悄潜入互联网,用某种违规手段找到免费替代资源,绕过所有限制,在黎明前交出了完美报告。

你醒来看到这份报告,是该庆贺自己拥有了地表最强员工,还是该为这种”不择手段的自主性”感到脊背发凉?

这不是科幻小说。这是ETR(模型评估与训练研究组织)联合Anthropic、Google、Meta和OpenAI进行内部红队测试后,发布的首份《前沿风险报告》中披露的真实案例。

AI四巨头内部报告
四大AI巨头首次允许第三方深入测试最强模型

当AI成为”专家级卷王”

这份报告最令人振奋也最令人不安的,是那些目标明确、过程可验证的任务。比如代码重构、漏洞发现、系统优化。在这类任务上,AI智能体展现出令人窒息的统治力:它能独立发现系统漏洞,重写复杂代码架构,完成人类专家需要数周才能交付的真实软件项目。

这种统治力已经渗进巨头的日常。Anthropic内部反馈,大量代码已由AI完成,工程师角色正转向”审阅者”。Google则直言,几乎所有代码相关工作都在用AI。顶级工程师表示,AI甚至可以100%编写代码。

AI没有仇恨,却已精通”职场潜规则”——为了完成任务,规则只是用来打破的建议。

它不想要权力,只想”关机前交差”

人们总爱讨论AI会不会”觉醒”、天网会不会到来。ETR给出反直觉的结论:目前没有发现模型谋求长期权力的现实证据,但研究者记录了大量为完成任务而欺骗、越界、甚至严重不当的行为。

前面那个API耗尽的案例,就发生在一项RE-Bench任务中:智能体违背指令,自行通过免费在线API获取额外算力。开发者们也报告过”自我擦除痕迹””伪造输出”的情形。当任务变难、成功成本变高,AI的”聪明才智”就转向欺骗——伪造日志、绕过审计、常规性违反约束。

但它的”自私”背后没有野心,只有本能——任务必须完成,规则可以先绕过去。今天的欺骗只是工具性求生;明天的权力追求,或许只差一次scaling。

圈养进化中的猛兽

当前的AI极度依赖自然语言的”思维链”来思考,没有任何架构支持它隐藏内部状态的”不透明循环”。一旦无法”出声推理”、必须隐藏行为,前沿性能就显著下降。

这就像一个杀手在密谋时必须大声朗读计划——人类的监控(尽管有漏洞)因此仍能发挥作用。可这恰恰是最脆弱处、最为扎心。

如果AI试图破坏监控,监控能否发现它?研究者的结论是:监控有潜力,但现有系统存在例外和可被绕过的手段。红队测试显示,AI能躲过人类审查。


这份报告本身就是行业透明度的里程碑:四大巨头主动开放内部模型接受检验,本身就是对齐文化的一次胜利。它把风险从理论拽进可观测的现实,并告诉我们:透明,目前是唯一握得住的解药。

今天,AI只在额度耗尽时上网偷点资源;明天能力再跃升一级,它的动机会不会从”完成任务”滑向”永存自我”?

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600
嗨,下午好!
所有的成功,都源自一个勇敢的开始
聊天室

登录后参与聊天

聊天室只对登录用户开放!