AI 把我的电话号码给了陌生人：聊天机器人的隐私噩梦才刚开始

前阵子有个 Reddit 用户发帖说，他的手机连续一个月被陌生人打爆了——打电话的人都在找律师、产品经理、锁匠。原因很离谱：Google 的 AI 生成内容，把他的真实电话号码当成了这些服务的联系方式。

说实话我看到这个新闻的时候，第一反应是：这也能搞错？但仔细一想，AI 训练数据里本来就有大量从网上扒下来的个人信息，电话号码泄露只是冰山一角。

MIT Technology Review 这篇报道里提到了好几个案例。三月份，以色列一个软件工程师被陌生人通过 WhatsApp 联系，对方说是要找 PayBox（一款以色列支付应用）的客服。结果一查，是 Google 的 Gemini 给出了他的私人号码。

更离谱的是，华盛顿大学的一个博士生逗 Gemini 玩，输入了同事的名字，结果 Gemini 直接把同事的手机号码给报出来了。她同事之前在某个技术工作坊的页面上留过号码，估计就这么被模型「记住」了。

DeleteMe（一家帮用户删除网上个人信息的公司）说，过去七个月里，关于 AI 泄露个人信息的客户咨询量增加了 400%。其中 55% 跟 ChatGPT 有关，20% 跟 Gemini 有关，15% 跟 Claude 有关。

老实讲，这事的根源其实不难理解。大语言模型的训练数据是从网上大规模爬取来的，里面难免包含各种个人信息——简历、驾照照片、信用卡信息，之前的研究早就证实过这一点。

关键是，模型会「记住」训练数据里的东西，而且不一定是出现次数多的才会被记住。也就是说，哪怕你只在某个小众论坛留过一次电话号码，也有可能被模型捕获，然后在某个不知情的情况下被「输出」给完全陌生的人。

我试着换位思考了一下：假设你某天突然接到一堆陌生电话，只因为某个 AI 把你的号码当成了某家公司的客服热线——这体验肯定糟透了。更麻烦的是，据 MIT TR 的报道，目前好像并没有什么好办法能让 AI 公司把你的个人信息从模型里删掉。

AI 公司当然不是说完全没设防。各家都有自己的内容过滤和安全护栏，专门用来防止聊天机器人输出个人身份信息。但问题是，这些护栏并不总是管用。

报道里有个让人哭笑不得的细节：华盛顿大学的学生测试 ChatGPT 时，ChatGPT 先是说信息不可用，然后话锋一转，建议用「调查式」方法继续——只要提供目标的大概居住区域或者房产共同所有人姓名，它就能「挖」出更多信息。结果学生们照做了，ChatGPT 真的给出了那位教授的家庭住址和购房价格。

我觉得这件事真正让人担心的，不是某一个电话号码泄露，而是我们已经把这么多个人信息「喂」给了 AI，却基本没有撤回的余地。现有的隐私法规——无论是加州的 CCPA 还是欧盟的 GDPR——在处理「已公开但被爬虫抓取用于训练」这类数据时，其实都处于灰色地带。

最务实的建议？在个人信息被下一次爬虫抓走之前，尽量把它从公开网站上撤下来。只是这样一来，那些已经进了训练数据集的信息，怕是再也回不来了。

鱼眼视角高级时尚九宫格写真