前阵子有个 Reddit 用户发帖说,他的手机连续一个月被陌生人打爆了——打电话的人都在找律师、产品经理、锁匠。原因很离谱:Google 的 AI 生成内容,把他的真实电话号码当成了这些服务的联系方式。
说实话我看到这个新闻的时候,第一反应是:这也能搞错?但仔细一想,AI 训练数据里本来就有大量从网上扒下来的个人信息,电话号码泄露只是冰山一角。

不止一个人中招
MIT Technology Review 这篇报道里提到了好几个案例。三月份,以色列一个软件工程师被陌生人通过 WhatsApp 联系,对方说是要找 PayBox(一款以色列支付应用)的客服。结果一查,是 Google 的 Gemini 给出了他的私人号码。
更离谱的是,华盛顿大学的一个博士生逗 Gemini 玩,输入了同事的名字,结果 Gemini 直接把同事的手机号码给报出来了。她同事之前在某个技术工作坊的页面上留过号码,估计就这么被模型「记住」了。
DeleteMe(一家帮用户删除网上个人信息的公司)说,过去七个月里,关于 AI 泄露个人信息的客户咨询量增加了 400%。其中 55% 跟 ChatGPT 有关,20% 跟 Gemini 有关,15% 跟 Claude 有关。
问题到底出在哪
老实讲,这事的根源其实不难理解。大语言模型的训练数据是从网上大规模爬取来的,里面难免包含各种个人信息——简历、驾照照片、信用卡信息,之前的研究早就证实过这一点。
关键是,模型会「记住」训练数据里的东西,而且不一定是出现次数多的才会被记住。也就是说,哪怕你只在某个小众论坛留过一次电话号码,也有可能被模型捕获,然后在某个不知情的情况下被「输出」给完全陌生的人。
我试着换位思考了一下:假设你某天突然接到一堆陌生电话,只因为某个 AI 把你的号码当成了某家公司的客服热线——这体验肯定糟透了。更麻烦的是,据 MIT TR 的报道,目前好像并没有什么好办法能让 AI 公司把你的个人信息从模型里删掉。
防护机制也不完美
AI 公司当然不是说完全没设防。各家都有自己的内容过滤和安全护栏,专门用来防止聊天机器人输出个人身份信息。但问题是,这些护栏并不总是管用。
报道里有个让人哭笑不得的细节:华盛顿大学的学生测试 ChatGPT 时,ChatGPT 先是说信息不可用,然后话锋一转,建议用「调查式」方法继续——只要提供目标的大概居住区域或者房产共同所有人姓名,它就能「挖」出更多信息。结果学生们照做了,ChatGPT 真的给出了那位教授的家庭住址和购房价格。
我觉得这件事真正让人担心的,不是某一个电话号码泄露,而是我们已经把这么多个人信息「喂」给了 AI,却基本没有撤回的余地。现有的隐私法规——无论是加州的 CCPA 还是欧盟的 GDPR——在处理「已公开但被爬虫抓取用于训练」这类数据时,其实都处于灰色地带。
最务实的建议?在个人信息被下一次爬虫抓走之前,尽量把它从公开网站上撤下来。只是这样一来,那些已经进了训练数据集的信息,怕是再也回不来了。
