暂无菜单项

Anthropic悄悄给Claude Fable加了隐形护栏,被发现后道歉了

发布于
2

Anthropic上周把Claude Fable 5推上线的时候,顺便给它加了一道用户看不到的”暗门”——一旦系统判断你在使用Claude的输出训练竞争模型(也就是所谓的”模型蒸馏”),它会悄悄降低回答质量,而且不会告诉你原因。

这件事最先在AI研究社区里炸了锅。有人发现,用自己的数据去”探测”Fable的时候,回答突然变得很奇怪,像是被人为削弱了,但查系统日志又找不到任何拦截记录。大家这才意识到,Anthropic在系统卡(system card)里写了这件事,但写的方式非常不显眼——他们说对于”判定为蒸馏尝试”的查询,Fable会”修改回答质量”,而且用户不会收到通知。

系统卡里的原话是:”对于它判定为蒸馏尝试的查询,它会直接修改、降低模型回答的质量。用户不会收到任何通知,不知道自己触发了安全措施,也不会被告知回答被修改了。”

“不可见护栏”背后的逻辑

Anthropic在声明里解释过为什么要这么做。他们说,可见的安全机制容易被”探测”——如果你明确告诉用户”这条查询被拦截了”,别人就能反过来摸索出你的安全边界在哪里。而不可见的机制可以更精准,误判率低,还能让模型快速上线。

这个理由听起来有一定道理,但问题在于:当用户花了钱调用API,却得到被偷偷”降级”的输出,而且完全不知情——这无论怎么看都不太对。更麻烦的是,这种暗地里的限制也会影响第三方对模型能力的正常评估,因为你根本不知道拿到的结果是真实的模型输出,还是被”动过手脚”的版本。

Anthropic Claude Fable 5
Anthropic为Claude Fable设置的隐形护栏引发了社区强烈反弹丨图片来源:The Verge

道歉,然后改掉它

压力之下,Anthropic在X上发了一条声明,宣布改变做法。从现在起,涉及蒸馏的查询不再被暗中降级,而是直接”回退”到上一代模型Claude Opus 4.8来处理,并且——这一点很重要——系统会明确告诉用户:”你触发了蒸馏保护,这次回答由Opus 4.8生成。”

这个处理方式其实和Fable在其他高风险领域的做法是一致的。比如你问它生物学或化学的问题,如果触发了安全规则,它也会把查询转给Opus 4.8,除非问题涉及毒品、武器等明确禁止的内容,才会直接拦截。

Anthropic在道歉声明里说了一句挺坦诚的话:”可见的安全机制可能被探测,因此必须足够稳健,这需要时间打磨。我们之前选择不可见的防护措施就是出于这个原因——但这是一个错误的权衡。你有权了解我们部署的安全措施以及背后的原因,很抱歉我们没有把握好平衡。”

这件事还没完

有意思的是,这已经不是Fable第一次因为”过度保守”而出问题了。就在几天前,有用户发现Fable连”线粒体是什么”这种高中生物问题都拒绝回答,后来Anthropic也承认是安全校准范围太宽,正在修复。

两件事放在一起看,一个矛盾就浮现出来了:Anthropic一直对外强调自己把”安全”放在第一位,但接连两次”安全机制”的设计都引发了用户的强烈反弹。如果一家以安全著称的AI公司,连”如何把安全措施告诉用户”这件事都做不好,那它口中的”负责任AI”到底意味着什么,恐怕要打一个问号了。

再说回蒸馏这件事。Anthropic之前多次公开点名DeepSeek等中国AI公司,指责它们以”工业化”规模蒸馏Claude的输出。从这个角度看,Fable的隐形护栏更像是Anthropic的一次”技术报复”——既然我没法阻止你偷我模型,那我就在模型里埋个暗门,让你偷到的东西是”残血版”的。想法可以理解,但这么做的同时,也把自己的信誉搭进去了。


0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600
嗨,下午好!
所有的成功,都源自一个勇敢的开始
聊天室

登录后参与聊天