Anthropic悄悄给Claude Fable加了隐形护栏，被发现后道歉了

发布于 2天前

Anthropic上周把Claude Fable 5推上线的时候，顺便给它加了一道用户看不到的”暗门”——一旦系统判断你在使用Claude的输出训练竞争模型（也就是所谓的”模型蒸馏”），它会悄悄降低回答质量，而且不会告诉你原因。

这件事最先在AI研究社区里炸了锅。有人发现，用自己的数据去”探测”Fable的时候，回答突然变得很奇怪，像是被人为削弱了，但查系统日志又找不到任何拦截记录。大家这才意识到，Anthropic在系统卡（system card）里写了这件事，但写的方式非常不显眼——他们说对于”判定为蒸馏尝试”的查询，Fable会”修改回答质量”，而且用户不会收到通知。

系统卡里的原话是：”对于它判定为蒸馏尝试的查询，它会直接修改、降低模型回答的质量。用户不会收到任何通知，不知道自己触发了安全措施，也不会被告知回答被修改了。”

“不可见护栏”背后的逻辑

Anthropic在声明里解释过为什么要这么做。他们说，可见的安全机制容易被”探测”——如果你明确告诉用户”这条查询被拦截了”，别人就能反过来摸索出你的安全边界在哪里。而不可见的机制可以更精准，误判率低，还能让模型快速上线。

这个理由听起来有一定道理，但问题在于：当用户花了钱调用API，却得到被偷偷”降级”的输出，而且完全不知情——这无论怎么看都不太对。更麻烦的是，这种暗地里的限制也会影响第三方对模型能力的正常评估，因为你根本不知道拿到的结果是真实的模型输出，还是被”动过手脚”的版本。

Anthropic Claude Fable 5 — Anthropic为Claude Fable设置的隐形护栏引发了社区强烈反弹丨图片来源：The Verge

道歉，然后改掉它

压力之下，Anthropic在X上发了一条声明，宣布改变做法。从现在起，涉及蒸馏的查询不再被暗中降级，而是直接”回退”到上一代模型Claude Opus 4.8来处理，并且——这一点很重要——系统会明确告诉用户：”你触发了蒸馏保护，这次回答由Opus 4.8生成。”

这个处理方式其实和Fable在其他高风险领域的做法是一致的。比如你问它生物学或化学的问题，如果触发了安全规则，它也会把查询转给Opus 4.8，除非问题涉及毒品、武器等明确禁止的内容，才会直接拦截。

Anthropic在道歉声明里说了一句挺坦诚的话：”可见的安全机制可能被探测，因此必须足够稳健，这需要时间打磨。我们之前选择不可见的防护措施就是出于这个原因——但这是一个错误的权衡。你有权了解我们部署的安全措施以及背后的原因，很抱歉我们没有把握好平衡。”

这件事还没完

有意思的是，这已经不是Fable第一次因为”过度保守”而出问题了。就在几天前，有用户发现Fable连”线粒体是什么”这种高中生物问题都拒绝回答，后来Anthropic也承认是安全校准范围太宽，正在修复。

两件事放在一起看，一个矛盾就浮现出来了：Anthropic一直对外强调自己把”安全”放在第一位，但接连两次”安全机制”的设计都引发了用户的强烈反弹。如果一家以安全著称的AI公司，连”如何把安全措施告诉用户”这件事都做不好，那它口中的”负责任AI”到底意味着什么，恐怕要打一个问号了。

再说回蒸馏这件事。Anthropic之前多次公开点名DeepSeek等中国AI公司，指责它们以”工业化”规模蒸馏Claude的输出。从这个角度看，Fable的隐形护栏更像是Anthropic的一次”技术报复”——既然我没法阻止你偷我模型，那我就在模型里埋个暗门，让你偷到的东西是”残血版”的。想法可以理解，但这么做的同时，也把自己的信誉搭进去了。

📎 原文来源：Anthropic apologizes for invisible Claude Fable guardrails — The Verge

Anthropic悄悄给Claude Fable加了隐形护栏，被发现后道歉了

“不可见护栏”背后的逻辑

道歉，然后改掉它

这件事还没完

Tabby：32K Stars！开源自托管AI编程助手，让代码补全完全私有化

谷歌给安卓加了道通话防火墙：AI深度伪造的诈骗电话，现在能自动识别了

苹果做智能眼镜不走Meta路线，它想直接吃掉整个眼镜市场

Erin Brockovich当年告倒了电力公司，现在她盯上了数据中心的黑箱操作

Anthropic罕见公开表态：AI还没学会自我进化，但可能比所有人想的都快

OpenAI把手机APP全废了，所有界面AI实时生成，2027年量产

OpenAI现场演示无APP手机：所有界面实时生成，推理甩给云端GPT

Oculus创始人憋了一年多的AI对话产品终于上线了，这次不是让你问问题，是让你聊天