### [谷歌开源Gemma 4 12B，16GB内存笔记本就能跑多模态AI](https://www.willai.cc/article/1325)

**Published:** 2026-06-07T11:45:58

**Author:** hiyoho

**Excerpt:** 谷歌走了条不同的路 大部分玩家都在冲更大、更强的模型，谷歌反过来证明：一个精心设计的120亿参数模型，配合聪明的架构选择，在边缘设备上也能给出不俗的多模态推理能力。 谷歌刚刚做了一个挺有意思的举动。6月3日，这家公司悄悄上线了Gemma 4

### 谷歌走了条不同的路

大部分玩家都在冲更大、更强的模型，谷歌反过来证明：一个精心设计的120亿参数模型，配合聪明的架构选择，在边缘设备上也能给出不俗的多模态推理能力。

> 谷歌刚刚做了一个挺有意思的举动。6月3日，这家公司悄悄上线了Gemma 4 12B——一个119.5亿参数的开源多模态模型，最关键的卖点是：普通16GB内存的笔记本就能跑。

### 砍掉编码器，延迟和内存都降了

这个人称”统一架构”的东西，说白了就是把传统多模态模型里那些分开的编码器给砍掉了。

传统做法里，音频和图像得先经过专门的编码器转成语言模型能懂的表示，这一转就带来了延迟和额外内存消耗。Gemma 4 12B直接让原始音频波形和视觉块流入核心语言模型的嵌入空间，只用了3500万参数的轻量线性层。

结果就是：延迟低了，内存需求降到16GB，还能一次性微调整个多模态系统。

### 性能不弱，上下文窗口大到离谱

这个小模型跑分接近谷歌自己260亿参数的混合专家模型。它支持256K token上下文窗口——这对需要处理长财报、大型代码库或一小时会议记录的企业来说很实用。

另外还内置了”思考模式”，会在生成回复前先列出逐步推理过程；开箱就支持函数调用和系统提示，这些都是搭建自主智能体的基础能力。

### 企业哪几种场景最适合

-   严格数据隐私和合规要求（比如医疗、金融、国防），敏感数据不能传出本地
-   多模态智能体工作流，需要实时音频和变分辨率图像输入
-   成本敏感的边缘部署，比如零售库存监控、本地客服亭、离线现场服务

### 当然也有局限

如果你主要做的是海量知识检索，又不搭RAG管道，那可能还是需要更大的基础模型。

另外音频输入严格限制在30秒内处理，视频理解只有60秒（按每秒1帧算）。需要处理长视频或大型音频档案的企业，还是得用API模型或分块架构。

* * *

谷歌这次把小模型路线走得很坚决。对企业技术负责人来说，Gemma 4 12B值得认真评估——尤其是当你既想要多模态能力，又不想把所有数据都送到云端去的时候。

📎 原文来源：[Google’s new open source Gemma 4 12B analyzes audio, video — and runs entirely locally on a typical 16GB enterprise laptop](https://venturebeat.com/technology/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop/)

**Tags:** AI, AI技术, AI模型, Google

**Categories:** AI资讯

---