### [Anthropic的Fable模型把安全护栏搞太严了，安全研究员率先开炮](https://www.willai.cc/article/1747)

**Published:** 2026-06-13T16:06:27

**Author:** hiyoho

**Excerpt:** Anthropic上周发布了Fable，这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好，Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久

Anthropic上周发布了Fable，这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好，Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久，抱怨声就来了，而且来自一群你可能最不想得罪的人：网络安全研究员。

### 连读博客都被拦

IBM X-Force的安全研究员Valentina “Chompie” Palmiotti在社交媒体上直接开炮：”Fable会拒绝任何和网络有一点关联的请求，哪怕是像阅读一篇博客这样无害的任务。”

> 安全研究员Valentina Palmiotti的吐槽在X上获得了不少同行点赞。她说自己只是想用Fable分析一篇安全博客，结果模型直接触发护栏，提示”涉及网络安全或生物相关主题”后拒绝响应。

问题出在Anthropic给Fable加的安全机制上。一旦提示词触发了某个关键词，Fable就会停下来说：”安全机制标记了这条消息，涉及网络安全或生物相关主题。”然后要么拒绝回答，要么把对话转去一个能力更弱的版本（Claude Opus 4.8）。

![Claude Fable AI安全模型](https://techcrunch.com/wp-content/uploads/2026/06/anthropic-claude-fable.jpg)

智能手机屏幕上显示Claude Fable的logo（图源：Samuel Boivin/NurPhoto / Getty Images）

### 触发词变成了”地雷”

Anthropic的想法可以理解——他们不想让Fable被用来写恶意软件或者搞入侵。对生物相关内容的限制也是同样的逻辑，怕被人用来设计生物武器。出发点没问题，但执行起来就变味了。

资深安全人士Matt Suiche说得更直白：”如果你让Fable写安全代码，它会觉得这是网络安全相关工作，不是软件工程最佳实践，然后就会降低响应权限。”他的意思是，Fable看起来是用关键词触发的，所以只要提示词里出现了”网络安全”相关的词，护栏就会启动。

-   有人在X上抱怨，连”申请代码审查”都能触发Fable的护栏
-   一旦触发护栏，Fable会回退到Claude Opus 4.8版本，能力明显下降
-   安全研究员认为这套机制是基于关键词的，缺乏上下文理解

### Anthropic的”解套”方案：申请审核

除了模型内部的护栏，Anthropic还给安全研究者准备了一个”网络验证计划”（Cyber Verification Program）。申请通过这个计划的人，在使用Claude做网络安全工作的时候会受到更少的限制。

这个思路跟OpenAI的”Trusted Access for Cyber”差不多。你得先证明自己是”好人”，然后才能拿到更少的限制。问题在于，这就把门槛架在那了。你要么接受Fable的过度限制，要么去走申请流程等审核。

* * *

截至发稿，Anthropic还没有回应置评请求。但考虑到安全社区的不满情绪已经在社交媒体上发酵了好几天，他们可能得出来解释一下了。

这其实反映了一个更大的难题：AI公司怎么在”防止滥用”和”不妨碍正常使用”之间找平衡。Anthropic一直是这方面最激进的玩家之一，他们愿意为了安全牺牲一些易用性，这个选择本身没问题。但当护栏严到连安全研究员都受不了的时候，可能就得重新调一下刻度了。

📎 原文来源：[Cybersecurity researchers are not happy about the guardrails on Anthropic’s Fable — TechCrunch](https://techcrunch.com/2026/06/10/cybersecurity-researchers-arent-happy-about-the-guardrails-on-anthropics-fable/)

**Tags:** AI, AI安全, AI安全护栏, AI技术, Anthropic, Claude

**Categories:** AI资讯

---