暂无菜单项

一个研究生用12B模型干翻HuggingFace热榜,大厂这次真的有点尴尬

发布于
1

一个研究生,两款模型,74万次下载

HuggingFace的Trending模型榜,向来是大厂的秀场——直到逯雨鑫(yuxinlu1)带着他的GGUF量化模型闯了进来。

这个美国AI方向的在读研究生,用Gemma4-12B做底座,通过蒸馏把Fable 5的编程推理能力「压」进了一个仅需4.5GB显存就能跑的小模型。结果很直接:在HuggingFace趋势榜上,它一度超过了智谱GLM-5.2、百度Unlimited-OCR等大厂作品,两款模型合计下载量突破74万

个人开发者霸榜HuggingFace概念图
个人开发者的12B模型在HuggingFace趋势榜超越众多大厂模型

怎么做到的?数据质量胜过数量

逯雨鑫的秘诀不算神秘,但很费功夫:他用约1万条高质量、经过验证的训练数据,而不是几百万条噪声数据。具体来说,他用Fable 5生成代码推理链,但只保留「能通过测试用例」的那些——相当于让老师先改作业,再把满分答案给学生做示范。

两个版本各有侧重:V1 Coder版专注代码生成与解题;V2 Agentic版增加了多步工具调用能力。在tau2-bench telecom子集上,V2得分55%,而基座Gemma4-12B只有15%——提升了约3.5倍。

「大厂能做得更好,但开源小模型受品牌和API引流目标影响。个人开发者可以更纯粹地解决『好用』问题。」——逯雨鑫

为什么是现在?本地AI的窗口打开了

这几年有个矛盾的现象:云端大模型越来越强,但很多人反而开始关心「本地能跑」的模型。原因很实际:隐私(不想把代码发给云端)、成本(不想为API账单发愁)、延迟(本地推理零网络开销)。

逯雨鑫的模型最小版本(Q2_K)只要4.5GB显存,一张RTX 4060就能跑。对于很多个人开发者和中小团队,这个门槛意味着「不用申请采购、自己的笔记本就能用」。

作者是个什么样的人?

逯雨鑫,美国AI方向在读研究生,本科背景是数据与商业分析。他自述患有ADHD,但在快速变化的AI领域,这种「兴趣快速切换」的特质反而成了优势——hyperfocus让他能在模型训练上连续投入40多个小时。

项目是纯自费的:一张RTX 5090(32GB VRAM)、约96GB本地SSD,没有融资、没有团队。V2版本最耗时的不是训练,而是数据处理——尤其是agentic长序列的裁剪和验证。


  • 模型底座:Google Gemma4-12B(蒸馏Fable 5能力)
  • 量化格式:GGUF(兼容llama.cpp/Ollama/LM Studio)
  • 最小显存:Q2_K约4.5GB(推荐Q4_K_M约6.87GB)
  • 合计下载:超74万(HuggingFace Trending榜一度超越GLM-5.2)
  • 未来计划:V3沿12B路线推进,同时开发基于Qwen3.6-27B的大版本

0 点赞
0 收藏
分享
0 讨论
反馈
0 讨论
热门最新
总结
暂无总结
0 / 600