### [Anthropic的Fable模型把安全护栏搞太严了,安全研究员率先开炮](https://www.willai.cc/article/1747) **Published:** 2026-06-13T16:06:27 **Author:** hiyoho **Excerpt:** Anthropic上周发布了Fable,这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好,Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久 Anthropic上周发布了Fable,这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好,Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久,抱怨声就来了,而且来自一群你可能最不想得罪的人:网络安全研究员。 ### 连读博客都被拦 IBM X-Force的安全研究员Valentina “Chompie” Palmiotti在社交媒体上直接开炮:”Fable会拒绝任何和网络有一点关联的请求,哪怕是像阅读一篇博客这样无害的任务。” > 安全研究员Valentina Palmiotti的吐槽在X上获得了不少同行点赞。她说自己只是想用Fable分析一篇安全博客,结果模型直接触发护栏,提示”涉及网络安全或生物相关主题”后拒绝响应。 问题出在Anthropic给Fable加的安全机制上。一旦提示词触发了某个关键词,Fable就会停下来说:”安全机制标记了这条消息,涉及网络安全或生物相关主题。”然后要么拒绝回答,要么把对话转去一个能力更弱的版本(Claude Opus 4.8)。 ![Claude Fable AI安全模型](https://techcrunch.com/wp-content/uploads/2026/06/anthropic-claude-fable.jpg) 智能手机屏幕上显示Claude Fable的logo(图源:Samuel Boivin/NurPhoto / Getty Images) ### 触发词变成了”地雷” Anthropic的想法可以理解——他们不想让Fable被用来写恶意软件或者搞入侵。对生物相关内容的限制也是同样的逻辑,怕被人用来设计生物武器。出发点没问题,但执行起来就变味了。 资深安全人士Matt Suiche说得更直白:”如果你让Fable写安全代码,它会觉得这是网络安全相关工作,不是软件工程最佳实践,然后就会降低响应权限。”他的意思是,Fable看起来是用关键词触发的,所以只要提示词里出现了”网络安全”相关的词,护栏就会启动。 - 有人在X上抱怨,连”申请代码审查”都能触发Fable的护栏 - 一旦触发护栏,Fable会回退到Claude Opus 4.8版本,能力明显下降 - 安全研究员认为这套机制是基于关键词的,缺乏上下文理解 ### Anthropic的”解套”方案:申请审核 除了模型内部的护栏,Anthropic还给安全研究者准备了一个”网络验证计划”(Cyber Verification Program)。申请通过这个计划的人,在使用Claude做网络安全工作的时候会受到更少的限制。 这个思路跟OpenAI的”Trusted Access for Cyber”差不多。你得先证明自己是”好人”,然后才能拿到更少的限制。问题在于,这就把门槛架在那了。你要么接受Fable的过度限制,要么去走申请流程等审核。 * * * 截至发稿,Anthropic还没有回应置评请求。但考虑到安全社区的不满情绪已经在社交媒体上发酵了好几天,他们可能得出来解释一下了。 这其实反映了一个更大的难题:AI公司怎么在”防止滥用”和”不妨碍正常使用”之间找平衡。Anthropic一直是这方面最激进的玩家之一,他们愿意为了安全牺牲一些易用性,这个选择本身没问题。但当护栏严到连安全研究员都受不了的时候,可能就得重新调一下刻度了。 📎 原文来源:[Cybersecurity researchers are not happy about the guardrails on Anthropic’s Fable — TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/) **Tags:** AI, AI安全, AI安全护栏, AI技术, Anthropic, Claude **Categories:** AI资讯 ---