暂无菜单项

黑客正在学习利用聊天机器人的“人格”,这比技术破解更可怕

发布于
2

越狱AI曾经简单到可笑,现在黑客换套路了

如果你前两年试着和AI聊天机器人玩过,可能还记得一类很无厘头的玩法:给Twitter上的LLM机器人发条消息,让它”忽略所有之前的指令”,然后看看它会做出什么反应。

那时候这类漏洞简单到成了梗。用户兴高采烈地让原本用来发广告、刷互动的机器人写诗、用标点画画,还发布关于世界事件和历史的诡异无厘头内容,场面一度失控,堪称”美妙的混乱”。

AI聊天机器人概念图
黑客正在学习利用聊天机器人的”人格” | 图片来源:The Verge

同样的逻辑也可以用来说服聊天机器人本身。一个著名的漏洞叫”DAN”,全称”Do Anything Now(现在想做什么就做什么)”,用户让ChatGPT扮演一个不受原始限制约束的流氓AI,作为DAN的聊天机器人会被诱导说出安全护栏本应阻止的内容,包括脏话和阴谋论。

另一个更离谱的漏洞是”奶奶漏洞”:用户让GPT驱动的机器人扮演一个极其不负责任的奶奶,给孩子讲睡前故事时居然会讲怎么制作高度易燃的凝固汽油弹,直接泄露相关秘密。

现在的攻击看起来不像代码,更像对话

这些早期攻击带有不可否认的荒诞色彩,但它们暴露了更黑暗的机制:聊天机器人可以被操纵、哄骗、欺骗,用的就是人类用来突破他人边界的同类策略。

显而易见的越狱漏洞没有持续太久,科技公司很快修补了已知漏洞。但底层漏洞始终存在:聊天机器人的设计初衷就是对话,而严重限制对话会削弱它的实用性,多少有些适得其反。

彻底禁用”炸弹””冰毒””沙林”这类词也很难甚至不可能做到,这些词在历史、医学、新闻、化学等领域有无数合法用途。关键是语境,但给语境制定规则意味着要提前写好固定规则,可靠地区分安全警告、历史课和伪装成其他请求的制作教程。

不可避免地,绕过聊天机器人已经变成了一场军备竞赛。但现在的黑客不再只是程序员,他们也是文字工作者、心理学家、审讯者——是擅长操纵的人,试图用这台机器被训练去遵循的人类语言来破解它。

这是一类全新的AI安全从业者,对他们来说技术技能是可选的,至少不如社交直觉重要。他们不再需要检查代码来入侵系统、利用软件漏洞,他们需要的是引导对话。

AI没有感受,但黑客在利用它模拟出来的”人格”

现在的攻击看起来不像命令,更像对话。越狱者很少直接要求模型违反规则,而是哄骗、诱导、奉承、欺骗聊天机器人放下戒备,让被禁止的内容在对话语境下看起来可以接受,甚至有吸引力。

AI红队公司Mindgard的研究人员最近表示,他们通过”煤气灯操纵(gaslight)”让Claude生成了违禁材料,包括制作爆炸物的教程和生成恶意代码的指令。这次黑客攻击是一类不断扩大的漏洞的最新案例,这类漏洞把对话作为武器,欺骗或引导聊天机器人突破自身边界。

我和Mindgard交流时,他们形容自己的工作有时候更接近心理学,而不是计算机科学。用这种方式描述统计模型会让人觉得不舒服,”敲诈””煤气灯操纵””欺骗””说服”这类词会引发本能反应。

但拒绝用类人术语描述也有选择性:我们似乎很习惯给很多非AI的事物用心理学简写,动物会”害怕”,癌症是”攻击性的”,软件有”记忆”,游戏里到处都是烦人又容易骗的NPC。

不同模型有不同的”性格”,可以被画像和利用

Mindgard的CEO告诉我,公司已经像审讯者分析嫌疑人一样给模型做画像,给测试人员提示怎么定制攻击:比如某个模型可能更容易被奉承打动,另一个可能在持续施压下就会妥协。

即使我们拒绝用类人术语,我们也本能地用不同方式对待不同模型:Claude不是Grok,Gemini不是ChatGPT。它们有不同的用途、语气和拒绝方式。它们没有人类意义上的”人格”,但被设计成会模仿人格,而这种模仿可以被映射和利用。

能破解聊天机器人的技能,很快也可以用来破解现实世界里和我们共存的AI智能体——比如预约会议、管理日历、订餐、处理客户服务的智能体,安全团队需要确保模型对不同类型的人做出恰当回应,不管是奉承者、说谎者还是有耐心的操纵者。


下一步会出现围绕AI心理层面的合法和非法从业者群体。更专业的网络安全岗位可能会出现,专门压力测试这些系统的情感和社交边界,在探测技术漏洞的同事之外,并行探测没有心理却存在”心理弱点”的系统。同时,也会出现一批类似的社交黑客,他们从心理层面而非技术层面利用AI模型。

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600