### [LLMs-from-scratch：96.3K Stars！从零手写大模型，彻底搞懂LLM底层原理](https://www.willai.cc/article/933)

**Published:** 2026-05-30T18:03:48

**Author:** hiyoho

**Excerpt:** 《Build a Large Language Model (From Scratch)》书籍封面 📌 项目简介 LLMs-from-scratch 是 Sebastian Raschka 所著《Build a Large Language

![LLMs-from-scratch 封面](https://sebastianraschka.com/images/LLMs-from-scratch-images/cover.jpg)

《Build a Large Language Model (From Scratch)》书籍封面

* * *

## 📌 项目简介

**LLMs-from-scratch** 是 Sebastian Raschka 所著《Build a Large Language Model (From Scratch)》一书的官方代码仓库，带你从零开始用 PyTorch 手写实现类 GPT 大语言模型，覆盖数据处理、注意力机制、GPT 架构、预训练、微调全流程，是搞懂 LLM 底层原理的最佳实战项目。

* * *

## ⚙️ 安装要求与过程

### 环境要求

-   **Python** 3.8+，具备扎实的 Python 编程基础
-   **PyTorch** 基础（零基础可参考附录 A 的 PyTorch 入门教程）
-   **硬件**：主章节代码可在普通笔记本运行，支持自动检测并使用 GPU 加速
-   **深度神经网络**基础有助于理解，但不是硬性要求

### 快速安装步骤

```
# 1. 克隆仓库（只拉取最新版本，减少下载量）
git clone --depth 1 https://github.com/rasbt/LLMs-from-scratch.git

# 2. 进入目录
cd LLMs-from-scratch

# 3. 安装依赖
pip install -r requirements.txt

# 4. （可选）安装 Jupyter Notebook
pip install jupyter

# 5. 启动 Notebook，按章节运行代码
jupyter notebook
```

📌 如果你从 Manning 官网下载了代码包，建议前往 GitHub 官方仓库获取最新更新。

* * *

## ✨ 核心功能

### 🧠 从零实现注意力机制

手写实现单头/多头自注意力（Self-Attention）机制，深入理解 Query/Key/Value 的数学原理，不依赖任何高层封装库。

### 🏗️ 完整 GPT 架构实现

从词嵌入、位置编码到 Transformer 解码器块，完整实现 GPT 模型架构，代码逐行对照论文，透明可调试。

### 🔥 预训练与微调全流程

覆盖无标注数据预训练、文本分类微调、指令遵循微调（SFT）完整流程，附带可运行的训练脚本。

### 🚀 主流模型权重加载

支持加载 Llama 3.2、Qwen3、Gemma 3、OLMo 3 等主流开源模型的预训练权重进行微调与推理。

### 📚 附录与扩展内容

包含 PyTorch 分布式训练（DDP）入门、LoRA 高效微调实现、分组查询注意力（GQA）、MoE 混合专家架构等进阶内容，一书在手，LLM 技术栈全覆盖。

* * *

## 🎯 典型使用场景

### 场景一：系统学习 LLM 底层原理

不看封装库黑盒，从张量运算级别理解 Transformer 和 GPT。每章配有练习和解答，适合有一定 Python 基础、想深入 LLM 原理的开发者系统学习。可搭配书籍《Build a Large Language Model (From Scratch)》一起使用，理解更透彻。

### 场景二：在自己的数据上训练定制 LLM

参考第 5 章的预训练代码，基于自定义数据集训练专属小模型；或参考第 7 章的指令微调代码，用开源指令数据集微调模型，使其具备遵循指令的能力，用于垂直领域应用。

### 场景三：作为 LLM 课程的配套实践材料

本书配有 17 小时 15 分钟的官方视频教程，章节结构清晰，练习册《Test Yourself On Build a Large Language Model》可用来自测掌握程度，非常适合作为高校课程、企业内训或自学小组的配套实践材料。

* * *

## 💡 推荐理由

我第一次翻开这本书的代码时，有一种「原来 GPT 是这样工作的」的恍然大悟感。

大多数 LLM 教程要么停留在概念层面，要么直接调用 `transformers` 库，黑盒到底。而 **LLMs-from-scratch** 选择了一条更难但更有价值的路：从张量运算级别手写实现，不依赖任何高层封装。

我最喜欢的是**第 4 章实现 GPT 模型**那部分——当你亲手写出 `self.attn = MultiHeadAttention(...)` 和 `self.ln = LayerNorm(...)` 并成功跑通时，那种「我理解了」的满足感是任何调用封装库都给不了的。

作者 Sebastian Raschka 是 LLM 领域的顶级教育者，Lightning AI 的 LLM 负责人，写书风格非常「工程师友好」——没有冗余的数学推导，每一行代码都能跑，每一章都有配套练习。

如果你是想深入 LLM 原理的开发者、研究者，或正在准备 LLM 相关技术面试，这个项目绝对值得你花时间从头到尾跟一遍。**96.3K 的 Star 数不是偶然，是工程师们用脚投票的结果。**

* * *

## 📥 下载地址

### 🔗 GitHub 仓库

https://github.com/rasbt/LLMs-from-scratch

[访问 GitHub →](https://github.com/rasbt/LLMs-from-scratch)

### 📘 配套书籍

《Build a Large Language Model (From Scratch)》  
Manning 出版，ISBN 978-1633437166

[Amazon 购买 →](https://amzn.to/4fqvn0D)

### 🎬 配套视频教程（17h15min）

Manning LiveVideo：Master and Build Large Language Models

[观看视频 →](https://www.manning.com/livevideo/master-and-build-large-language-models)

* * *

> 📌 **小提示**：本项目是《Build a Large Language Model (From Scratch)》的官方配套代码，建议配合书籍一起学习，理解效果最佳。书籍附录 A 还提供了 PyTorch 入门教程，适合 PyTorch 零基础读者补基础。

**Tags:** AI, AI Agent, GitHub, LLM, LLMs-from-scratch, Python, PyTorch, 从零构建大模型, 大模型原理, 开源

**Categories:** 开源项目

---