商汤科技迈向多模态大模型的新纪元

在过去的两年里，人工智能领域的关注点逐渐转向了大模型的技术发展，而商汤科技作为一家成立不到十年的公司，凭借其在计算机视觉领域的技术积累，正迅速转型，迎接这一浪潮。尽管在2023年之前，商汤主要聚焦于视觉模型，但随着 DeepSeek R1的发布，市场的重心开始向自然语言处理和大规模参数模型倾斜，商汤的策略也随之调整。

商汤于4月10日推出的全新6000亿参数多模态大模型 “日日新 Sense Nova V6”，展现了强大的综合能力，与国际领先的 GPT-4.5和 Gemini2.0Pro 不相上下。商汤不仅成功弥补了文本模型的差距，更在多模态领域厚积薄发，标志着其在国内大模型市场中越来越重要的地位。

商汤科技迈向多模态大模型的新纪元

图源备注：图片由AI生成，图片授权服务商Midjourney

值得注意的是，商汤在构建其多模态模型的过程中，采用了独特的思维链构建方法。通过将文本、图像、语音和视频数据融合，商汤的日日新 V6能在同一上下文中进行有效的推理，达到1+1>2的效果。这一创新不仅提升了模型的理解与生成能力，也使得多模态之间的协同作用更加显著。

当前，尽管市场上出现了众多多模态模型，能够同时处理多种数据模态的产品依然屈指可数。商汤的日日新 V6凭借其在多模态数据融合方面的成功，逐渐显示出其在未来人工智能竞争中的强大潜力。

{{userData.name}}已认证

商汤科技迈向多模态大模型的新纪元

无需邀请码！扣子空间宣布开放测试

英伟达开源新一代OCR代码推理 AI 模型，超越 OpenAIo3-Mini表现

如何使用即梦3.0模型？

AI写作-DeepSeek虚拟伴侣指令之AI男友角色设定

AI绘画-即梦ai智能参考功能实测

豆包 1.5 · 深度思考模型上线边缘大模型网关可免费领百万Tokens

AI变天！HeyGen发布“有灵魂”的数字人Avatar IV 一张照片秒变“戏精”数字人，表情比真人还细腻

ICML 2025 | 视频生成模型无损加速两倍，秘诀竟然是「抓住attention的时空稀疏性」