斯坦福2026 AI指数报告:AI在狂奔,我们还在找鞋
如果你在关注AI新闻,你可能会觉得头晕。AI是淘金热。AI是泡沫。AI要抢你工作。AI连时钟都不会读。斯坦福大学以人为本AI研究所发布的2026年AI指数报告,就是为了切断一些噪音而出的年度成绩单。
报告说,尽管有预测认为AI发展可能会碰壁,但顶级模型一直在变得更好。人们采用AI的速度比采用个人电脑或互联网还快。AI公司生成收入的速度比之前任何技术繁荣时期的公司都快,但它们也在数据中心和芯片上花费了数千亿美元。用来衡量AI的基准测试、用来监管它的政策、就业市场都在努力跟上。AI在狂奔,而我们其他人还在找鞋。

美中AI竞赛:差距薄如刀片
在一场具有巨大地缘政治风险的漫长激烈竞赛中,根据Arena(一个允许用户比较大型语言模型在相同提示下输出的社区驱动排名平台)的数据,美国在AI模型性能上与中国几乎并驾齐驱。
2023年初,OpenAI凭借ChatGPT领先,但这个差距在2024年随着Google和Anthropic发布自己的模型而缩小。2025年2月,由中国实验室DeepSeek构建的AI模型R1短暂匹配了顶级美国模型ChatGPT。截至2026年3月,Anthropic领先,紧随其后的是xAI、Google和OpenAI。中国模型如DeepSeek和阿里巴巴落后并不多。
随着最佳AI模型在排名中的差距只有薄如刀片的优势,它们现在在成本、可靠性和现实世界实用性上竞争。
指数指出,美国和中国有不同的AI优势。虽然美国有更强大的AI模型、更多资本和估计5,427个数据中心(比任何其他国家的10倍还多),但中国在AI研究出版物、专利和机器人技术方面领先。
AI模型进步速度快得吓人
尽管有预测认为发展将进入平台期,AI模型仍在变得越来越好。从某些指标来看,它们现在在旨在衡量博士级科学、数学和语言理解的测试上达到或超过了人类专家的表现。
AI模型的软件工程基准测试SWE-bench Verified,顶级分数从2024年的约60%跃升至2025年的近100%。2025年,一个AI系统独立生成了天气预报。
“我对这项技术继续改进感到震惊,它根本没有以任何方式进入平台期,”报告的合著者、南加州大学计算机科学家Yolanda Gil说。

测试AI的方式坏了
这些进步报告应该持保留态度。斯坦福报告说,随着模型迅速突破天花板,旨在跟踪AI进步的基准测试也在努力跟上。有些构建得很差——一个测试模型数学能力的流行基准测试有42%的错误率。其他的可以被操纵:例如,当模型在基准测试数据上训练时,它们可以学会得分高而没有变得更聪明。
因为AI很少以被测试的方式使用,强大的基准测试性能并不总是转化为现实世界的性能。对于复杂、互动的技术如AI代理和机器人,基准测试几乎还不存在。
AI开始影响就业,年轻人首当其冲
在成为主流的三年内,AI现在被全球超过一半的人使用,采用速度比个人电脑或互联网都快。估计88%的组织现在使用AI,五分之四的大学生使用它。
部署还处于早期阶段,AI对就业的影响很难衡量。尽管如此,一些研究表明,AI开始影响某些职业的年轻工作者。根据斯坦福经济学家2025年的一项研究,自2022年以来,22至25岁软件开发人员的就业下降了近20%。
下降可能不能单独归咎于AI,因为更广泛的宏观经济条件可能是罪魁祸首,但AI似乎正在发挥作用。
雇主表示招聘可能会继续收紧。根据麦肯锡公司2025年的一项调查,三分之一的组织预计AI将在未来一年缩小他们的劳动力,特别是在服务和供应链运营和软件工程领域。
所有这些都付出了代价
所有这些速度都是有代价的。全球AI数据中心现在可以抽取29.6吉瓦的电力,足以在峰值需求时运行整个纽约州。仅运行OpenAI的GPT-4o的年用水量可能超过120万人的饮用水需求。
同时,芯片的供应链令人担忧地脆弱。美国托管了世界上大多数AI数据中心,而台湾的一家公司台积电制造了几乎所有领先的AI芯片。
