一家初创公司声称突破了制约LLM的瓶颈，AI效率竞赛迎来新变量

大语言模型有个绕不开的数学瓶颈——”二次方爆炸”。处理的文本越长，计算量不是线性增长，而是平方级暴涨。这个瓶颈卡了业界快十年，但现在有家迈阿密的小公司说他们解决了。

Subquadratic公司5月从隐身模式走出来，发布了模型SubQ。他们声称用”稀疏注意力”替代了传统Transformer的”密集注意力”，把计算复杂度从二次方降到了——你猜对了——亚二次方。

“我们希望开启一个效率新时代。几年后，没人会用Transformer搭建模型了。”

——Justin Dangel，Subquadratic联合创始人兼CEO

今天所有主流大模型都基于Transformer架构，核心是”密集注意力”机制。处理一段文本时，模型把每个词（token）编码成数字，然后让每个数字和所有其他数字相乘——用来捕捉词与词之间的关系。

1万个词的文本，要算近5000万次乘法。文本长度翻倍，计算量翻四倍。这就是为什么长文档处理这么烧钱，也是为什么各家公司在拼命堆GPU。

Subquadratic的思路很简单：不是所有词之间的关系都重要。稀疏注意力只挑重要的词做运算，跳过不相关的。问题难在——怎么判断哪些重要？以前的办法都用固定模式（比如”第1个词总是和第5个词比较”），效果不好。

SubQ的”秘密酱料”是动态选择——对每段输入的文本，实时判断哪些词之间的关系值得计算。联合创始人Alex Whedon不肯透露具体怎么实现的，只说”这是我们的核心秘密”。

第一次发布时，Subquadratic只给了几个自测跑分，没有第三方验证。AI工程师Dan McAteer在X上发文：”SubQ要么是Transformer之后最大突破，要么就是AI界的Theranos。”

一个月后，Subquadratic找了第三方评测机构Appen来跑分。结果有些惊人：在LiveCodeBench编程测试上，SubQ得分89.7%，和顶级模型在同一个水平线。处理长文本时，SubQ的上下文窗口可达1200万token（主流模型一般是100万）。

成本数据更夸张。跑同样的测试（从大文档里检索信息），Anthropic的Opus 4.6花了2600美元；SubQ花了8美元。

但质疑没有完全消散。SubQ的底层权重是用中国开源模型Qwen”启动”的（在Qwen基础上微调），而不是从零训练的。这让一些研究者怀疑：这到底是一个全新架构，还是Qwen的一个高效变种？

SubQ目前还没开放公测，等候名单上有几万人。在更多人真正用上之前，判断它是突破还是泡沫，还为时过早。但有一点是确定的：效率竞赛已经打响，谁能把大模型的计算成本打下来，谁就掌握了下一个回合的主动权。

AnythingLLM — 61.7K Stars，全栈本地优先AI应用，私有知识库与AI代理一站式解决方案