谷歌AI连”Google”都拼不对,大语言模型的底层缺陷藏不住了
2026年5月27日 | 来源:TechCrunch

单词”Google”里面有几个P?谷歌自己的AI给出的答案是:两个。
这不是段子,是真实发生在谷歌搜索”AI Overview(AI概览)”功能里的场面。有用户发现,让谷歌AI数一下”poop”里有几个R,它一本正经地回答”恰好1个”;问它”journalism”怎么拼,它拼出了j-o-u-r-n-a-d-i-s-m——多了一个完全不存在的D。
至于美国总统的姓氏,谷歌AI表示里面有1个P——但拼出来的是t-r-p-u-m。
这已经不是第一次了
早在谷歌大张旗鼓给搜索结果页加入AI概览功能的时候,就有不少人预感会出事。果然,第一代AI概览上线时,它引用过《洋葱新闻》的讽刺文章,一本正经地建议用户”每天吃一块小石头”来补充矿物质,还从Reddit的段子里学到”可以在披萨上涂胶水来增加奶酪拉丝效果”。
那一轮翻车之后,谷歌表面上修了不少问题。但这一轮以生成式AI为核心的搜索改版,把AI概览摆到了搜索结果的最顶端——也就是用户第一眼看到的位置。拼写错误这种低级失误,就这样被放大给了数亿用户。

为什么AI就是不会拼写?
这背后其实有一个相当硬核的技术原因,只是大多数用户并不知道。
驱动聊天机器人和文本生成工具的大语言模型(LLM),从设计逻辑上就不是为了”阅读”而生的。当你输入一段提示词,模型会先把它转换成一串数字编码(也就是token),然后根据上下文关联来预测下一个最可能出现的token。
问题就出在这里:模型眼里没有”字母”这个概念。它看到的”the”是一个整体编码,知道这个词的意思是”这个”,但它根本不知道T、H、E分别是什么字符。
“LLM基于Transformer架构,这个架构本质上就不是真的在’阅读’文本。你输入提示词之后,它会被转换成编码。当模型看到单词’the’的时候,它只有’the’对应的编码,知道这个词的意思是’这个’,但它根本不知道’T”H”E’分别是什么。”——阿尔伯塔大学AI研究员Matthew Guzdial助理教授
这就是为什么AI可以在几秒钟内写出能跑的应用程序代码,或者解决困扰数学家几十年的难题,但拼对一个简单的英文单词却相当于幼儿园小朋友的水平。
研究人员也不乐观
东北大学研究大语言模型可解释性的博士生Sheridan Feucht说得更直接:他猜测”由于这种模糊性,根本不存在完美的tokenizer(分词器)”。
对于AI研究人员来说,拼写能力本来就不是LLM的核心评判指标。能写代码、能推理、能翻译,才是大家关心的。但问题是,当这些模型被直接推到数亿用户的搜索框里,每一个低级错误都会被无限放大。
谷歌通过邮件向TechCrunch回应称:”单词计数是LLM的已知难题,我们正在努力修复这个特定问题。”措辞相当谨慎——”已知难题”四个字,基本等于承认这是底层架构的问题,不是修几个bug就能彻底解决的。
给我们提了个醒
这些令人发笑的拼写错误,其实有一个很正面的作用:它们不断提醒我们,AI并不完美,哪怕它有时候看起来全知全能、超出人类认知。
我们不能盲目相信AI的输出,哪怕它说得再自信,也要二次核对准确性。这个道理大家都听过,但只有当AI把”Google”拼成两个P的时候,它才真正地被大多数人理解。
谷歌这一轮搜索改版,把生成式AI摆到了有史以来最显眼的位置。它得到的赞美会更多,但挨的骂也会更多。拼写错误可能只是开始。
