暂无菜单项

Anthropic的Fable模型把安全护栏搞太严了,安全研究员率先开炮

发布于
2

Anthropic上周发布了Fable,这是他们那款备受关注的安全研究模型Mythos的公开有限版本。本来这是件好事——Anthropic一直说要把AI安全研究做好,Fable就是给普通研究者和开发者用的”轻量版”Mythos。但发布没多久,抱怨声就来了,而且来自一群你可能最不想得罪的人:网络安全研究员。

连读博客都被拦

IBM X-Force的安全研究员Valentina “Chompie” Palmiotti在社交媒体上直接开炮:”Fable会拒绝任何和网络有一点关联的请求,哪怕是像阅读一篇博客这样无害的任务。”

安全研究员Valentina Palmiotti的吐槽在X上获得了不少同行点赞。她说自己只是想用Fable分析一篇安全博客,结果模型直接触发护栏,提示”涉及网络安全或生物相关主题”后拒绝响应。

问题出在Anthropic给Fable加的安全机制上。一旦提示词触发了某个关键词,Fable就会停下来说:”安全机制标记了这条消息,涉及网络安全或生物相关主题。”然后要么拒绝回答,要么把对话转去一个能力更弱的版本(Claude Opus 4.8)。

Claude Fable AI安全模型
智能手机屏幕上显示Claude Fable的logo(图源:Samuel Boivin/NurPhoto / Getty Images)

触发词变成了”地雷”

Anthropic的想法可以理解——他们不想让Fable被用来写恶意软件或者搞入侵。对生物相关内容的限制也是同样的逻辑,怕被人用来设计生物武器。出发点没问题,但执行起来就变味了。

资深安全人士Matt Suiche说得更直白:”如果你让Fable写安全代码,它会觉得这是网络安全相关工作,不是软件工程最佳实践,然后就会降低响应权限。”他的意思是,Fable看起来是用关键词触发的,所以只要提示词里出现了”网络安全”相关的词,护栏就会启动。

  • 有人在X上抱怨,连”申请代码审查”都能触发Fable的护栏
  • 一旦触发护栏,Fable会回退到Claude Opus 4.8版本,能力明显下降
  • 安全研究员认为这套机制是基于关键词的,缺乏上下文理解

Anthropic的”解套”方案:申请审核

除了模型内部的护栏,Anthropic还给安全研究者准备了一个”网络验证计划”(Cyber Verification Program)。申请通过这个计划的人,在使用Claude做网络安全工作的时候会受到更少的限制。

这个思路跟OpenAI的”Trusted Access for Cyber”差不多。你得先证明自己是”好人”,然后才能拿到更少的限制。问题在于,这就把门槛架在那了。你要么接受Fable的过度限制,要么去走申请流程等审核。


截至发稿,Anthropic还没有回应置评请求。但考虑到安全社区的不满情绪已经在社交媒体上发酵了好几天,他们可能得出来解释一下了。

这其实反映了一个更大的难题:AI公司怎么在”防止滥用”和”不妨碍正常使用”之间找平衡。Anthropic一直是这方面最激进的玩家之一,他们愿意为了安全牺牲一些易用性,这个选择本身没问题。但当护栏严到连安全研究员都受不了的时候,可能就得重新调一下刻度了。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600
嗨,下午好!
所有的成功,都源自一个勇敢的开始
聊天室

登录后参与聊天