谷歌开源Gemma 4 12B，16GB内存笔记本就能跑多模态AI

大部分玩家都在冲更大、更强的模型，谷歌反过来证明：一个精心设计的120亿参数模型，配合聪明的架构选择，在边缘设备上也能给出不俗的多模态推理能力。

谷歌刚刚做了一个挺有意思的举动。6月3日，这家公司悄悄上线了Gemma 4 12B——一个119.5亿参数的开源多模态模型，最关键的卖点是：普通16GB内存的笔记本就能跑。

这个人称”统一架构”的东西，说白了就是把传统多模态模型里那些分开的编码器给砍掉了。

传统做法里，音频和图像得先经过专门的编码器转成语言模型能懂的表示，这一转就带来了延迟和额外内存消耗。Gemma 4 12B直接让原始音频波形和视觉块流入核心语言模型的嵌入空间，只用了3500万参数的轻量线性层。

结果就是：延迟低了，内存需求降到16GB，还能一次性微调整个多模态系统。

这个小模型跑分接近谷歌自己260亿参数的混合专家模型。它支持256K token上下文窗口——这对需要处理长财报、大型代码库或一小时会议记录的企业来说很实用。

另外还内置了”思考模式”，会在生成回复前先列出逐步推理过程；开箱就支持函数调用和系统提示，这些都是搭建自主智能体的基础能力。

如果你主要做的是海量知识检索，又不搭RAG管道，那可能还是需要更大的基础模型。

另外音频输入严格限制在30秒内处理，视频理解只有60秒（按每秒1帧算）。需要处理长视频或大型音频档案的企业，还是得用API模型或分块架构。

谷歌这次把小模型路线走得很坚决。对企业技术负责人来说，Gemma 4 12B值得认真评估——尤其是当你既想要多模态能力，又不想把所有数据都送到云端去的时候。

埃琳·布罗克维奇新活：给美国AI数据中心画地图，把争议摊在阳光下