大语言模型有个绕不开的数学瓶颈——”二次方爆炸”。处理的文本越长,计算量不是线性增长,而是平方级暴涨。这个瓶颈卡了业界快十年,但现在有家迈阿密的小公司说他们解决了。

Subquadratic公司5月从隐身模式走出来,发布了模型SubQ。他们声称用”稀疏注意力”替代了传统Transformer的”密集注意力”,把计算复杂度从二次方降到了——你猜对了——亚二次方。
“我们希望开启一个效率新时代。几年后,没人会用Transformer搭建模型了。”
——Justin Dangel,Subquadratic联合创始人兼CEO
二次方瓶颈到底卡在哪
今天所有主流大模型都基于Transformer架构,核心是”密集注意力”机制。处理一段文本时,模型把每个词(token)编码成数字,然后让每个数字和所有其他数字相乘——用来捕捉词与词之间的关系。
1万个词的文本,要算近5000万次乘法。文本长度翻倍,计算量翻四倍。这就是为什么长文档处理这么烧钱,也是为什么各家公司在拼命堆GPU。
Subquadratic的思路很简单:不是所有词之间的关系都重要。稀疏注意力只挑重要的词做运算,跳过不相关的。问题难在——怎么判断哪些重要?以前的办法都用固定模式(比如”第1个词总是和第5个词比较”),效果不好。
SubQ的”秘密酱料”是动态选择——对每段输入的文本,实时判断哪些词之间的关系值得计算。联合创始人Alex Whedon不肯透露具体怎么实现的,只说”这是我们的核心秘密”。
质疑声:AI界的Theranos?
第一次发布时,Subquadratic只给了几个自测跑分,没有第三方验证。AI工程师Dan McAteer在X上发文:”SubQ要么是Transformer之后最大突破,要么就是AI界的Theranos。”
一个月后,Subquadratic找了第三方评测机构Appen来跑分。结果有些惊人:在LiveCodeBench编程测试上,SubQ得分89.7%,和顶级模型在同一个水平线。处理长文本时,SubQ的上下文窗口可达1200万token(主流模型一般是100万)。
成本数据更夸张。跑同样的测试(从大文档里检索信息),Anthropic的Opus 4.6花了2600美元;SubQ花了8美元。
但质疑没有完全消散。SubQ的底层权重是用中国开源模型Qwen”启动”的(在Qwen基础上微调),而不是从零训练的。这让一些研究者怀疑:这到底是一个全新架构,还是Qwen的一个高效变种?
SubQ目前还没开放公测,等候名单上有几万人。在更多人真正用上之前,判断它是突破还是泡沫,还为时过早。但有一点是确定的:效率竞赛已经打响,谁能把大模型的计算成本打下来,谁就掌握了下一个回合的主动权。
