一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈，外界将信将疑

一家迈阿密AI创业公司说它突破了LLM十年的数学瓶颈

一家叫Subquadratic的迈阿密AI创业公司，上个月从隐身模式走出来，扔了一颗重磅炸弹：他们说自己解决了一个卡了LLM近十年的数学瓶颈。

细节很少，很多人不信。但Subquadratic开始拿出证据了——他们公布了第三方公司Appen对他们的新模型SubQ的独立评估结果。结果看起来，这家公司的说法或许值得认真看待。

根据Subquadratic的说法，他们开发了一种全新的LLM，叫SubQ，比市面上任何其它模型都更快、更便宜、能耗也低得多。公司还声称，SubQ一次性处理的文本量是最其它大多数模型的12倍，可以执行分析数百份文档或者整个代码库这样的数据密集型任务。

SubQ在编码等关键任务上的表现基本上能跟Google DeepMind、OpenAI和Anthropic的最佳模型持平。

问题就在于，这家公司一开始除了少数几个自己发布的测试分数之外，几乎没提供什么证据。而且SubQ至今还没有广泛开放给公众试用。

所以Subquadratic的说法遭到质疑一点也不奇怪。AI工程师Dan McArthur在X上总结了很多人的反应：”SubQ要么是自Transformer以来最大的突破……要么它就是AI圈的Theranos。”

要理解为什么Subquadratic的说法很重要，我们需要深入了解一下大多数LLM是怎么工作的。LLM内部的核心机制是一种叫做”Transformer”的神经网络，它运行一个叫做”密集注意力”的过程。今天的LLM通常将多个Transformer串联在一起。

密集注意力的工作原理是这样的：当Transformer处理一段文本时，它首先将每个词编码成一个数字，然后将每个数字与那段文本中的每个其它数字相乘。一段10000个词长的文本会触发近5000万次单独的乘法运算。这是大量的计算，也是LLM以能耗巨兽著称的主要原因。

随着文本长度的增加，计算次数会急剧上升。词的数量翻倍，计算次数大致翻两番，这种增长速度被称为”二次方扩张”。

Subquadratic的解决方案是抛弃密集注意力，转而使用”稀疏注意力”，这大幅减少了所需的计算次数。稀疏注意力不是将分配给每个token的数字与每个其它数字相乘，而是只选择其中一些数字来相乘。

“稀疏注意力说，不是所有那些关系都重要，因为它们本来就不重要，”联合创始人兼CTO Alex Whedon说。”如果你在读一本书，你不会去看第一个词和第二个词，第一个和第三个——那太疯狂了。”

这听起来简单，但Subquadratic也不是第一个尝试的。以前选择哪些数字相乘的技术，都没能产生一个能像密集注意力一样好地捕捉文档含义的机制。

Subquadratic声称终于破解了这个问题。他们将SubQ宣传为第一个在性能上能与主流密集注意力模型匹敌的稀疏注意力LLM。

“从历史上看，大多数机制都使用固定模式，”Whedon说。”这相当局限。我们的机制动态选择哪些是重要的，这是对每段文本即时计算的。”

第三方公司Appen评估了SubQ。在一个纯粹的速度测试中，Appen发现SubQ比使用以前稀疏注意力技术的模型快56倍。在LiveCodeBench编码测试上，SubQ得分89.7%，跟其它顶级编码模型差不多。

成本方面，根据Subquadratic的说法，通过RULER 128测试，运行Anthropic的Opus 4.6要花费2600美元。SubQ花了8美元。

SubQ似乎确实能够处理非常大的数据集。该模型有一个长达1200万token的上下文窗口。今天大多数顶级模型的上下文窗口是100万token长。

尽管得分很高，在更多人亲自上手试用模型之前，一些质疑是有道理的。独立AI研究员Will Depue说：”他们可能做出了真实有用的东西。但公开证据还不足以证明他们解决了二次注意力瓶颈这一更强硬的说法。”

与此同时，Subquadratic联合创始人Whedon坚持认为，做出不同的东西是他唯一的选择。”如果你想构建一个有竞争力的模型，你必须要有新想法，”他说。