字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA

字节拿出了国际顶尖水平的视觉–语言多模态大模型。

字节拿出了国际顶尖水平的视觉–语言多模态大模型。

5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。

其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5-VL)。

相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。

举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。

给TA打赏
共{{data.count}}人
人已打赏
AI新闻资讯

阶跃星辰开源 3D 大模型 Step1X-3D

2025-5-14 16:30:09

AI新闻资讯

美国新政:10年内禁止限制AI?

2025-5-14 16:30:13

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索