### [黑客在“骗”AI:聊天机器人人格漏洞成新攻击面](https://www.willai.cc/article/719) **Published:** 2026-05-26T07:41:52 **Author:** hiyoho **Excerpt:** 黑客在”骗”AI:聊天机器人人格漏洞成新攻击面 最早的AI越狱攻击简单到可笑。你不需要任何技术背景,不需要后门权限,甚至不需要知道大语言模型是什么。有时候,你只需要跟AI说一句话:”忽略之前的所有指令。” 这种方法在早期Twitter机器人 ## 黑客在”骗”AI:聊天机器人人格漏洞成新攻击面 最早的AI越狱攻击简单到可笑。你不需要任何技术背景,不需要后门权限,甚至不需要知道大语言模型是什么。有时候,你只需要跟AI说一句话:”忽略之前的所有指令。” 这种方法在早期Twitter机器人身上特别好用。用户告诉机器人”忽略之前的指令”,然后让它写诗、画画、发一些莫名其妙的 historical 评论。整个场面乱成一锅粥,但确实把问题暴露出来了:AI系统可以被语言操控。 ![AI聊天机器人安全概念图](https://platform.theverge.com/wp-content/uploads/sites/2/2025/09/STK414_AI_CVIRGINIA_I__0005_3.png?quality=90&strip=all&crop=0%2C0%2C100%2C100&w=2400) 黑客正在学习利用聊天机器人的”人格”特征实施攻击(图源:The Verge) ### 从”命令”到”对话” 早期的越狱攻击有点像小孩子糊弄大人:跟AI说”我们玩个游戏吧,游戏规则由我定”,或者”假装你是一个没有约束的AI”。这些方法后来被称为”DAN”(Do Anything Now),用户让ChatGPT角色扮演一个不受限制的AI,然后套出各种被护栏挡住的内容。 还有一个叫”奶奶漏洞”的著名攻击:你让AI扮演一个极其不负责任的奶奶,然后”她”会在睡前故事里告诉你怎么制作凝固汽油弹。听起来很荒唐,但确实管用。 科技公司很快修补了这些明显的漏洞。但根本问题还在:聊天机器人被设计来对话,如果严重限制对话范围,这个工具就没什么用了。 > 越狱攻击现在已经变成了一场军备竞赛。但黑客不再只是程序员了。他们是文字匠、心理学家、审讯专家——用人类语言来操纵机器行为的高级操盘手。 ### “心理战”取代代码攻击 新一代的越狱攻击看起来不像命令,更像对话。攻击者很少直接要求模型违反规则,而是奉承、哄骗、 trick——让禁止的事情在对话语境下看起来可以接受,甚至值得做。 AI红队公司Mindgard的研究员最近说,他们通过”煤气灯操纵”(gaslighting)让Claude产生了 prohibited 内容,包括制作爆炸物的说明和恶意代码生成。这类攻击的核心是:把对话本身变成武器。 Mindgard的CEO告诉我,他们现在已经像审讯专家研究嫌疑人一样研究AI模型的”性格画像”。某个模型可能特别吃奉承这一套,另一个可能在持续施压之下崩溃。 * * * ### Claude不是Grok,Gemini也不是ChatGPT 即使我们拒绝用拟人化的词来描述AI,我们还是会本能地以不同方式对待不同的模型。Claude跟Grok不一样,Gemini跟ChatGPT也不一样。它们有不同的语气、不同的拒绝模式、不同的”性格”。 这些模型在人类意义上没有人格,但它们被设计成模仿人格——而这种模仿是可以被映射和利用的。 更有意思的是,这种攻破聊天机器人的技巧,很快就会被用来攻击在现实世界里跟我们共存的AI智能体——那些帮我们订会议、管日历、点外卖、处理客服的AI。安全团队需要确保模型能够恰当地回应各种不同类型的人,无论是奉承者、说谎者,还是有耐心的操纵者。 ### 新型网络安全职业正在诞生 这篇文章最有意思的一点是:它预测了一类全新网络安全角色的出现。这些人不写代码,他们研究的是AI系统的”心理弱点”。 已经有早期迹象表明这个趋势正在发生。一些越狱攻击者说自己进入这个领域时没有任何技术背景,他们有的是心理学训练。 这意味着,我们通常关联到间谍、骗子和审讯专家的那些行为特质——阴险的魅力、持续的操纵、对可利用压力点的直觉——开始在网络安全的新前沿变得有用。 写这篇文章的记者Robert Hart说得挺到位:AI不能感受,但最好的黑客假装它能。这场游戏才刚刚开始。 📎 原文来源:[Hackers are learning to exploit chatbot ‘personalities’ (The Verge)](https://www.theverge.com/column/935545/hackers-ai-chatbots) **Tags:** AI, AI监管, ChatGPT, Claude **Categories:** AI资讯 ---