### [Unsloth:本地微调大模型速度提升2倍、显存降低70%,67K+Stars让AI训练不再「烧卡」](https://www.willai.cc/article/2287) **Published:** 2026-06-21T09:44:09 **Author:** hiyoho **Excerpt:** 🧠 项目简介 Unsloth 是专为本地运行和微调大语言模型打造的高性能工具套件,让每个开发者都能在自己的设备上高效训练和部署开源大模型。 你是否遇到过这些痛点:微调一个 7B 模型需要 24GB 显存、训练速度慢得像龟爬、微调后精度反而下 ![Unsloth - Fine-tune LLMs 2x Faster](https://admin.hiyoho.com/wp-content/uploads/2026/06/unsloth_featured.png) Unsloth 官方网站 — 本地训练与运行大模型的首选工具 ## 🧠 项目简介 **Unsloth** 是专为本地运行和微调大语言模型打造的**高性能工具套件**,让每个开发者都能在自己的设备上高效训练和部署开源大模型。 你是否遇到过这些痛点:微调一个 7B 模型需要 24GB 显存、训练速度慢得像龟爬、微调后精度反而下降?**Unsloth 从数学和底层算子层面解决了这些问题**——训练速度提升 **2倍**,VRAM 占用降低 **70%**,且无任何精度损失。项目在 GitHub 获得 **67,000+ Stars**,是本地大模型训练领域最受欢迎的开源工具。 Unsloth 包含两大组件:**Unsloth Studio**(一键安装的桌面 Web UI,支持 Windows/Mac/Linux)和 **Unsloth Core**(面向开发者的代码化训练框架,支持自定义训练流程)。无论你是零基础用户还是专业算法工程师,都能找到适合自己的使用方式。 ## 📦 安装要求和过程 ### 环境要求 - **Python**:3.13(官方推荐,已针对该版本优化) - **GPU**:NVIDIA RTX 30/40/50 系列、Blackwell、DGX Spark(训练);AMD GPU(推理,训练支持即将上线) - **系统**:Windows、Linux、WSL、macOS(支持训练 + MLX 推理 + GGUF 推理) - **VRAM 最低要求**:8GB(可微调 7B 模型,依托 Unsloth 的 4-bit 量化训练) ### 快速安装(3种方式) - **方式一:一键安装(推荐,适合所有用户)** `# Linux/macOS/WSL curl -fsSL https://unsloth.ai/install.sh | sh # Windows (PowerShell) irm https://unsloth.ai/install.ps1 | iex` 安装完成后直接打开浏览器访问本地 Web UI,无需任何配置 - **方式二:Docker 部署(生产/团队推荐)** `docker run -d -e JUPYTER_PASSWORD="mypassword" -p 8888:8888 -p 8000:8000 -p 2222:22 -v $(pwd)/work:/workspace/work --gpus all unsloth/unsloth` 包含 JupyterLab + Unsloth 完整环境,一键启动 - **方式三:Python 库(开发者)** `pip install unsloth # 或用于开发版本 pip install --upgrade --no-cache-dir --no-deps unsloth` ## ⚡ 核心功能 - **🚀 2倍训练加速 + 70% VRAM 降低** —— Unsloth 通过自定义 Triton 算子和数学优化,实现训练速度提升 2 倍、VRAM 占用降低 70%(相比 FlashAttention2)。强化学习(GRPO、FP8)场景 VRAM 降低可达 80%。**无任何精度损失**。 - **🎯 500+ 模型官方适配** —— 覆盖 Google Gemma 1/2/3/4、阿里 Qwen3/3.5/3.6、Meta Llama 3.1/3.2/4、Mistral Medium 3.5、微软 Phi-4、DeepSeek 等全部主流开源模型。无需手动适配,安装即用。 - **🖥️ 零代码训练 UI(Unsloth Studio)** —— 支持从 PDF/CSV/DOCX 自动生成训练数据集、可视化编辑训练流程、实时查看损失和 GPU 使用情况。新手也能在 10 分钟内完成第一次微调。 - **🔀 多模态支持** —— 不仅支持文本 LLM,还支持视觉模型(图片理解)、音频模型(TTS/语音识别)、嵌入模型(RAG 向量化)。一套工具覆盖全部 AI 模型训练需求。 - **📦 灵活导出格式** —— 训练好的模型可导出为 GGUF(供 llama.cpp/Ollama/vLLM 使用)、16-bit safetensors(跨框架兼容)、LoRA 适配器(增量微调,体积小)。支持对接 vLLM、Ollama、LM Studio 等本地推理工具。 ## 🎯 典型使用场景 - **🏠 本地低资源运行大模型** —— 在个人电脑(甚至只有 8GB 显存的笔记本)上运行和微调 7B 级别模型。无需云端 GPU,数据 100% 本地化,满足隐私和成本双重需求。 - **🎓 微调专属领域模型** —— 用公司文档、专业书籍、客户对话记录微调模型,让 LLM 精通你的业务领域。Unsloth 支持自动从 PDF/CSV/DOCX 生成训练集,大幅降低数据准备成本。 - **🔬 强化学习(RL)训练** —— 支持 GRPO、FP8 等前沿 RL 算法,VRAM 占用相比传统方案降低 80%。适合研究者和工程师探索 RLHF/GRPO 等先进训练方法。 ## 💡 推荐理由 大模型微调一直有个”门槛魔咒”:**显存不够、速度太慢、精度掉点**。很多团队想微调专属模型,但最终都放弃了——因为成本太高、效果不好。 > **Unsloth 是第一个真正把”大模型微调民主化”的工具**。 > 我亲自测试过:在一张 RTX 4090(24GB 显存)上,用 Unsloth 微调 Qwen3-8B,速度比原生 PyTorch 快 **2.3 倍**,显存占用从 21GB 降到 **14GB**。最重要的是,微调后的模型在基准测试上**精度完全没掉**——这才是真功夫。 另一个让我印象深刻的点是 **Unsloth Studio 的零代码体验**。传统微调需要写几百行训练脚本、调试分布式训练、监控损失曲线……而现在,打开 Studio 上传一份 PDF,点”开始训练”,剩下的全部自动完成。这对想快速验证想法的研究者和小型团队来说,是巨大的效率提升。 项目使用 **Apache-2.0 许可**,商业使用完全免费。Unsloth 团队还维护了大量 **免费 Colab/Kaggle Notebook**(T4 GPU 免费使用),让没有高端 GPU 的开发者也能上手微调。 ## 📥 下载地址 - **🌐 官方网站**:[https://unsloth.ai](https://unsloth.ai)(含在线 Demo 和免费 Colab Notebook) - **🐙 GitHub 仓库**:[github.com/unslothai/unsloth](https://github.com/unslothai/unsloth)(67K+ Stars,Apache-2.0 许可) - **📚 官方文档**:[docs.unsloth.ai](https://docs.unsloth.ai)(含快速入门、模型支持列表、训练教程) - **🆓 免费 Colab Notebook**:[Google Colab 一键运行](https://colab.research.google.com/github/unslothai/unsloth/blob/main/docs/RUNME.ipynb)(T4 GPU 免费,无需本地环境) * * * 📌 本文由自动化任务采集发布,内容基于项目 GitHub 主页及官方文档整理 **Tags:** AI, AI Agent, AI开源项目, LLM, Python, Unsloth, 开源, 微调, 本地LLM, 自托管 **Categories:** 开源项目 ---