Anthropic的Fable模型把安全护栏搞太严了，安全研究员率先开炮

发布于 3小时前

Anthropic上周发布了Fable，这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好，Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久，抱怨声就来了，而且来自一群你可能最不想得罪的人：网络安全研究员。

连读博客都被拦

IBM X-Force的安全研究员Valentina “Chompie” Palmiotti在社交媒体上直接开炮：”Fable会拒绝任何和网络有一点关联的请求，哪怕是像阅读一篇博客这样无害的任务。”

安全研究员Valentina Palmiotti的吐槽在X上获得了不少同行点赞。她说自己只是想用Fable分析一篇安全博客，结果模型直接触发护栏，提示”涉及网络安全或生物相关主题”后拒绝响应。

问题出在Anthropic给Fable加的安全机制上。一旦提示词触发了某个关键词，Fable就会停下来说：”安全机制标记了这条消息，涉及网络安全或生物相关主题。”然后要么拒绝回答，要么把对话转去一个能力更弱的版本（Claude Opus 4.8）。

Claude Fable AI安全模型 — 智能手机屏幕上显示Claude Fable的logo（图源：Samuel Boivin/NurPhoto / Getty Images）

触发词变成了”地雷”

Anthropic的想法可以理解——他们不想让Fable被用来写恶意软件或者搞入侵。对生物相关内容的限制也是同样的逻辑，怕被人用来设计生物武器。出发点没问题，但执行起来就变味了。

资深安全人士Matt Suiche说得更直白：”如果你让Fable写安全代码，它会觉得这是网络安全相关工作，不是软件工程最佳实践，然后就会降低响应权限。”他的意思是，Fable看起来是用关键词触发的，所以只要提示词里出现了”网络安全”相关的词，护栏就会启动。

有人在X上抱怨，连”申请代码审查”都能触发Fable的护栏
一旦触发护栏，Fable会回退到Claude Opus 4.8版本，能力明显下降
安全研究员认为这套机制是基于关键词的，缺乏上下文理解

Anthropic的”解套”方案：申请审核

除了模型内部的护栏，Anthropic还给安全研究者准备了一个”网络验证计划”（Cyber Verification Program）。申请通过这个计划的人，在使用Claude做网络安全工作的时候会受到更少的限制。

这个思路跟OpenAI的”Trusted Access for Cyber”差不多。你得先证明自己是”好人”，然后才能拿到更少的限制。问题在于，这就把门槛架在那了。你要么接受Fable的过度限制，要么去走申请流程等审核。

截至发稿，Anthropic还没有回应置评请求。但考虑到安全社区的不满情绪已经在社交媒体上发酵了好几天，他们可能得出来解释一下了。

这其实反映了一个更大的难题：AI公司怎么在”防止滥用”和”不妨碍正常使用”之间找平衡。Anthropic一直是这方面最激进的玩家之一，他们愿意为了安全牺牲一些易用性，这个选择本身没问题。但当护栏严到连安全研究员都受不了的时候，可能就得重新调一下刻度了。

📎 原文来源：Cybersecurity researchers are not happy about the guardrails on Anthropic’s Fable — TechCrunch

Anthropic的Fable模型把安全护栏搞太严了，安全研究员率先开炮

连读博客都被拦

触发词变成了”地雷”

Anthropic的”解套”方案：申请审核

Tabby：32K Stars！开源自托管AI编程助手，让代码补全完全私有化

谷歌给安卓加了道通话防火墙：AI深度伪造的诈骗电话，现在能自动识别了

苹果做智能眼镜不走Meta路线，它想直接吃掉整个眼镜市场

Erin Brockovich当年告倒了电力公司，现在她盯上了数据中心的黑箱操作

Anthropic罕见公开表态：AI还没学会自我进化，但可能比所有人想的都快

OpenAI把手机APP全废了，所有界面AI实时生成，2027年量产

OpenAI现场演示无APP手机：所有界面实时生成，推理甩给云端GPT

Oculus创始人憋了一年多的AI对话产品终于上线了，这次不是让你问问题，是让你聊天