### [谷歌开源Gemma 4 12B,16GB内存笔记本就能跑多模态AI](https://www.willai.cc/article/1325) **Published:** 2026-06-07T11:45:58 **Author:** hiyoho **Excerpt:** 谷歌走了条不同的路 大部分玩家都在冲更大、更强的模型,谷歌反过来证明:一个精心设计的120亿参数模型,配合聪明的架构选择,在边缘设备上也能给出不俗的多模态推理能力。 谷歌刚刚做了一个挺有意思的举动。6月3日,这家公司悄悄上线了Gemma 4 ### 谷歌走了条不同的路 大部分玩家都在冲更大、更强的模型,谷歌反过来证明:一个精心设计的120亿参数模型,配合聪明的架构选择,在边缘设备上也能给出不俗的多模态推理能力。 > 谷歌刚刚做了一个挺有意思的举动。6月3日,这家公司悄悄上线了Gemma 4 12B——一个119.5亿参数的开源多模态模型,最关键的卖点是:普通16GB内存的笔记本就能跑。 ### 砍掉编码器,延迟和内存都降了 这个人称”统一架构”的东西,说白了就是把传统多模态模型里那些分开的编码器给砍掉了。 传统做法里,音频和图像得先经过专门的编码器转成语言模型能懂的表示,这一转就带来了延迟和额外内存消耗。Gemma 4 12B直接让原始音频波形和视觉块流入核心语言模型的嵌入空间,只用了3500万参数的轻量线性层。 结果就是:延迟低了,内存需求降到16GB,还能一次性微调整个多模态系统。 ### 性能不弱,上下文窗口大到离谱 这个小模型跑分接近谷歌自己260亿参数的混合专家模型。它支持256K token上下文窗口——这对需要处理长财报、大型代码库或一小时会议记录的企业来说很实用。 另外还内置了”思考模式”,会在生成回复前先列出逐步推理过程;开箱就支持函数调用和系统提示,这些都是搭建自主智能体的基础能力。 ### 企业哪几种场景最适合 - 严格数据隐私和合规要求(比如医疗、金融、国防),敏感数据不能传出本地 - 多模态智能体工作流,需要实时音频和变分辨率图像输入 - 成本敏感的边缘部署,比如零售库存监控、本地客服亭、离线现场服务 ### 当然也有局限 如果你主要做的是海量知识检索,又不搭RAG管道,那可能还是需要更大的基础模型。 另外音频输入严格限制在30秒内处理,视频理解只有60秒(按每秒1帧算)。需要处理长视频或大型音频档案的企业,还是得用API模型或分块架构。 * * * 谷歌这次把小模型路线走得很坚决。对企业技术负责人来说,Gemma 4 12B值得认真评估——尤其是当你既想要多模态能力,又不想把所有数据都送到云端去的时候。 📎 原文来源:[Google’s new open source Gemma 4 12B analyzes audio, video — and runs entirely locally on a typical 16GB enterprise laptop](https://venturebeat.com/technology/googles-new-open-source-gemma-4-12b-analyzes-audio-video-and-runs-entirely-locally-on-a-typical-16gb-enterprise-laptop/) **Tags:** AI, AI技术, AI模型, Google **Categories:** AI资讯 ---