黑客正在学习利用聊天机器人的“人格”，这比技术破解更可怕

如果你前两年试着和AI聊天机器人玩过，可能还记得一类很无厘头的玩法：给Twitter上的LLM机器人发条消息，让它”忽略所有之前的指令”，然后看看它会做出什么反应。

那时候这类漏洞简单到成了梗。用户兴高采烈地让原本用来发广告、刷互动的机器人写诗、用标点画画，还发布关于世界事件和历史的诡异无厘头内容，场面一度失控，堪称”美妙的混乱”。

同样的逻辑也可以用来说服聊天机器人本身。一个著名的漏洞叫”DAN”，全称”Do Anything Now（现在想做什么就做什么）”，用户让ChatGPT扮演一个不受原始限制约束的流氓AI，作为DAN的聊天机器人会被诱导说出安全护栏本应阻止的内容，包括脏话和阴谋论。

另一个更离谱的漏洞是”奶奶漏洞”：用户让GPT驱动的机器人扮演一个极其不负责任的奶奶，给孩子讲睡前故事时居然会讲怎么制作高度易燃的凝固汽油弹，直接泄露相关秘密。

这些早期攻击带有不可否认的荒诞色彩，但它们暴露了更黑暗的机制：聊天机器人可以被操纵、哄骗、欺骗，用的就是人类用来突破他人边界的同类策略。

显而易见的越狱漏洞没有持续太久，科技公司很快修补了已知漏洞。但底层漏洞始终存在：聊天机器人的设计初衷就是对话，而严重限制对话会削弱它的实用性，多少有些适得其反。

彻底禁用”炸弹””冰毒””沙林”这类词也很难甚至不可能做到，这些词在历史、医学、新闻、化学等领域有无数合法用途。关键是语境，但给语境制定规则意味着要提前写好固定规则，可靠地区分安全警告、历史课和伪装成其他请求的制作教程。

不可避免地，绕过聊天机器人已经变成了一场军备竞赛。但现在的黑客不再只是程序员，他们也是文字工作者、心理学家、审讯者——是擅长操纵的人，试图用这台机器被训练去遵循的人类语言来破解它。

这是一类全新的AI安全从业者，对他们来说技术技能是可选的，至少不如社交直觉重要。他们不再需要检查代码来入侵系统、利用软件漏洞，他们需要的是引导对话。

现在的攻击看起来不像命令，更像对话。越狱者很少直接要求模型违反规则，而是哄骗、诱导、奉承、欺骗聊天机器人放下戒备，让被禁止的内容在对话语境下看起来可以接受，甚至有吸引力。

AI红队公司Mindgard的研究人员最近表示，他们通过”煤气灯操纵（gaslight）”让Claude生成了违禁材料，包括制作爆炸物的教程和生成恶意代码的指令。这次黑客攻击是一类不断扩大的漏洞的最新案例，这类漏洞把对话作为武器，欺骗或引导聊天机器人突破自身边界。

我和Mindgard交流时，他们形容自己的工作有时候更接近心理学，而不是计算机科学。用这种方式描述统计模型会让人觉得不舒服，”敲诈””煤气灯操纵””欺骗””说服”这类词会引发本能反应。

但拒绝用类人术语描述也有选择性：我们似乎很习惯给很多非AI的事物用心理学简写，动物会”害怕”，癌症是”攻击性的”，软件有”记忆”，游戏里到处都是烦人又容易骗的NPC。

Mindgard的CEO告诉我，公司已经像审讯者分析嫌疑人一样给模型做画像，给测试人员提示怎么定制攻击：比如某个模型可能更容易被奉承打动，另一个可能在持续施压下就会妥协。

即使我们拒绝用类人术语，我们也本能地用不同方式对待不同模型：Claude不是Grok，Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的”人格”，但被设计成会模仿人格，而这种模仿可以被映射和利用。

能破解聊天机器人的技能，很快也可以用来破解现实世界里和我们共存的AI智能体——比如预约会议、管理日历、订餐、处理客户服务的智能体，安全团队需要确保模型对不同类型的人做出恰当回应，不管是奉承者、说谎者还是有耐心的操纵者。

下一步会出现围绕AI心理层面的合法和非法从业者群体。更专业的网络安全岗位可能会出现，专门压力测试这些系统的情感和社交边界，在探测技术漏洞的同事之外，并行探测没有心理却存在”心理弱点”的系统。同时，也会出现一批类似的社交黑客，他们从心理层面而非技术层面利用AI模型。

TradingAgents：用多智能体协作做金融交易决策，GitHub 7.3万星