「阶跃星辰」的一次豪赌

5月8日,久不露面的阶跃星辰CEO姜大昕,出现在北京的一场媒体沟通会上。

5月8日,久不露面的阶跃星辰CEO姜大昕,出现在北京的一场媒体沟通会上。

“在多模态领域,如果任何一个方面有短板,都会延缓探索AGI进程。”姜大昕给出了一个鲜明的判断。过去一年中,他在不同场合都在反复提及:多模态是实现AGI的必经之路。

在六小龙中,比起在融资、市场声量上有烈火烹油之势的其他选手,阶跃星辰的低调格外显眼。

这家公司最不声不响,但又能有独特的身位而被记住——过去两年中,它没有参与应用投流的狂热之中,在To C应用上也仅是有所试水。

多模态如今成为了阶跃最亮眼的标签,这家公司正在倾注大部分力量探索这一道路。

成立两年,阶跃一共发布了22款自研基座模型,覆盖文字、语音、图像、视频、音乐、推理等。这其中,有16款是多模态模型,占比超7成。阶跃也因此在行业内被称为“多模态卷王”。

但多模态的发展阶段和语言模型并不相同。

在技术路线已经收敛的语言模型领域,几乎所有公司都已经沿着差不多的技术路线迭代,但多模态的技术探索尚在早期。从顶尖大厂到AI初创,都像在迷雾中穿行。

在2024年Sora震撼全球时,不少AI创业者就有着不一样的意见。“Sora出来的时候,其实我们比较失望,我们觉得它的主线应该是做理解生成一体化,但他们只做了生成,没怎么做理解。”姜大昕表示。

姜大昕对《智能涌现》表示,如果对标语言模型的技术演进时间线,阶跃所押注的“理解+生成一体”的原生多模方向,可能还处在GPT 1.0之前,Transformer刚出来时的阶段。

多模态的一大难点,是融合过程中不能损失单个模态的性能,尤其是不能降智。阶跃采取的技术路线可以说是“难上加难”:同一个大模型,既要做理解,也要做生成。这是阶跃星辰从成立之初,就定下的发展主线。

做理解和生成,是原生多模方向的一体两面,这意味着:

能理解:模型能理解画面中的物体关系,这需要生成端来监督

能生成:生成的内容,也需要理解来控制,保证其不是超出物理世界认知的

直到2025年GPT-4o image的发布,吉卜力、拟人化的风格滤镜点燃全球,多模态又重回全球AI舞台的中心。而DeepSeek为代表的推理模型的进步,也能够为多模态的技术探索,补足一块重要的拼图。

多模态和Agent,是2025年当仁不让的两个关键词。在过去一年中,姜大昕也在不同场合反复强调:多模态是AGI的必经之路。而Agent,则是当下业界在AGI道路上探索出来的初始形态。

当前,阶跃也在重点布局Agent这一领域。在汽车、手机、具身智能、IoT等关键应用场景里,阶跃已经和Oppo、吉利汽车集团、千里科技等企业合作,将Agent应用在关键场景中。

在DeepSeek一飞冲天,引爆全球之后,它的另一面是——当原来坚如磐石的技术壁垒被击穿,所有人都不得不走到了一个焦虑的十字路口上:接下来,技术路线该怎么走?

大厂有存量的场景和用户,尚有充足的时间腾挪方向,加大火力。对大模型初创而言,这个拷问尤为紧迫。短短两个月时间内,大模型六小虎有裁撤团队、砍To C应用者;也有停止投流者,重新将重点放到语言模型中。

对创业公司而言,去探索更前沿、更未知的领域,或许是这个阶段更重要、也更确定的事。

对阶跃而言,这也是一场豪赌——现在,阶跃内部已经组织起不同技术路线的数支团队。“哪一条路线都有可能出现突破,要形成并发的状态。”姜大昕说。

在这次沟通会上,姜大昕除了披露了未来的模型和产品计划外,也对当下的多模态领域给出了关键判断,经《智能涌现》编辑整理:

多模态任何一个方面有短板,都会延缓AGI进程

追求智能的上限仍然是当下最重要的一件事。我也在很多场合不停的重复:多模态是实现AGI的必经之路。

过去两年,我们看到整个行业的模型进化,基本上还是遵循了这个路线图:模拟世界—探索世界—归纳世界。

从技术路线上讲,眼下的发展,也是从单模态到多模态,从多模融合到理解生成一体化,再从强化学习到AI for Science。

阶跃从一开始就始终认为:多模态对通用人工智能非常重要。为什么?

首先,AGI对标的是人类的智能,人的智能是多元化的,每个人除了有来自语言的符号智能,还包括视觉智能、空间智能和运动智能等等,这些智能是需要通过视觉和其他模态来进行学习的。

从应用角度来讲,我们无论做什么应用,都需要AI能听、能看、能说,这样它才能更好地理解用户所处的环境,并且和用户进行更为自然的交流。多模态可以让智能体充分地理解和感知这个世界,这样它可能更好地理解用户的意图。

所以,在多模态领域,任何一个方向出现短板,都会延缓实现AGI的进程。

在多模态层面,下一步的模型发展趋势有两点:一是,在预训练的基础模型上加上强化学习,可以激发模型推理的时候产生长思维链,极大地提高模型的推理能力。

从OpenAI发布o1,到春节前DeepSeek R1发布,我觉得这是一个标志,推理模型从一个趋势变成了范式,现在语言模型基本上是推理模型一统天下。

这是非常火热、大家都争前恐后在做创新的地方。稍微更新一点的,大家不太注意的一个能力,其实是如何把推理引入到多模态领域。

比如,我给一张这个图片(足球比赛),问这个模型这张图片是谁的地方,是谁的主场?这是把模型的感知能力和内部知识能结合起来,一起去做推理,就比原先的视觉理解就强化了很多。

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力

2025-5-10 10:30:12

AI新闻资讯

Harmon:协调视觉表征,统一多模态理解和生成(模型已开源)

2025-5-10 13:45:57

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索