黑客在“骗”AI：聊天机器人人格漏洞成新攻击面

发布于 2天前

黑客在”骗”AI：聊天机器人人格漏洞成新攻击面

最早的AI越狱攻击简单到可笑。你不需要任何技术背景，不需要后门权限，甚至不需要知道大语言模型是什么。有时候，你只需要跟AI说一句话：”忽略之前的所有指令。”

这种方法在早期Twitter机器人身上特别好用。用户告诉机器人”忽略之前的指令”，然后让它写诗、画画、发一些莫名其妙的 historical 评论。整个场面乱成一锅粥，但确实把问题暴露出来了：AI系统可以被语言操控。

早期的越狱攻击有点像小孩子糊弄大人：跟AI说”我们玩个游戏吧，游戏规则由我定”，或者”假装你是一个没有约束的AI”。这些方法后来被称为”DAN”（Do Anything Now），用户让ChatGPT角色扮演一个不受限制的AI，然后套出各种被护栏挡住的内容。

还有一个叫”奶奶漏洞”的著名攻击：你让AI扮演一个极其不负责任的奶奶，然后”她”会在睡前故事里告诉你怎么制作凝固汽油弹。听起来很荒唐，但确实管用。

科技公司很快修补了这些明显的漏洞。但根本问题还在：聊天机器人被设计来对话，如果严重限制对话范围，这个工具就没什么用了。

越狱攻击现在已经变成了一场军备竞赛。但黑客不再只是程序员了。他们是文字匠、心理学家、审讯专家——用人类语言来操纵机器行为的高级操盘手。

新一代的越狱攻击看起来不像命令，更像对话。攻击者很少直接要求模型违反规则，而是奉承、哄骗、 trick——让禁止的事情在对话语境下看起来可以接受，甚至值得做。

AI红队公司Mindgard的研究员最近说，他们通过”煤气灯操纵”（gaslighting）让Claude产生了 prohibited 内容，包括制作爆炸物的说明和恶意代码生成。这类攻击的核心是：把对话本身变成武器。

Mindgard的CEO告诉我，他们现在已经像审讯专家研究嫌疑人一样研究AI模型的”性格画像”。某个模型可能特别吃奉承这一套，另一个可能在持续施压之下崩溃。

即使我们拒绝用拟人化的词来描述AI，我们还是会本能地以不同方式对待不同的模型。Claude跟Grok不一样，Gemini跟ChatGPT也不一样。它们有不同的语气、不同的拒绝模式、不同的”性格”。

这些模型在人类意义上没有人格，但它们被设计成模仿人格——而这种模仿是可以被映射和利用的。

更有意思的是，这种攻破聊天机器人的技巧，很快就会被用来攻击在现实世界里跟我们共存的AI智能体——那些帮我们订会议、管日历、点外卖、处理客服的AI。安全团队需要确保模型能够恰当地回应各种不同类型的人，无论是奉承者、说谎者，还是有耐心的操纵者。

这篇文章最有意思的一点是：它预测了一类全新网络安全角色的出现。这些人不写代码，他们研究的是AI系统的”心理弱点”。

已经有早期迹象表明这个趋势正在发生。一些越狱攻击者说自己进入这个领域时没有任何技术背景，他们有的是心理学训练。

这意味着，我们通常关联到间谍、骗子和审讯专家的那些行为特质——阴险的魅力、持续的操纵、对可利用压力点的直觉——开始在网络安全的新前沿变得有用。

写这篇文章的记者Robert Hart说得挺到位：AI不能感受，但最好的黑客假装它能。这场游戏才刚刚开始。