CodeGeeX4：清华大学出品的9B全能代码模型，性能超越70B级大模型

Q: CodeGeeX4：清华大学出品的9B全能代码模型，性能超越70B级大模型

CodeGeeX4-ALL-9B 是清华大学 KEG 实验室与智谱 AI 联合推出的第四代多语言代码生成模型。仅 9B 参数即在 HumanEval、MBPP、BigCodeBench 等基准上全面超越 Llama3-70B 等超大模型，并原生支持 Function Call，是当前 10B 以下最强代码模型。

CodeGeeX4

清华大学 KEG 实验室 × 智谱 AI 联合出品

ALL-9B 全能模型 · 代码生成 · Function Call · 仓库级理解

⭐ 最新一代
🚀 9B 超越 70B
🏆 BigCodeBench SOTA

📝 项目简介

CodeGeeX4 是清华大学 KEG 实验室与智谱 AI 联合推出的第四代多语言代码生成模型，基于 GLM-4-9B 持续训练，在代码生成、代码解释、Web 搜索、Function Call、仓库级 Q&A 等全场景软件开发生命周期中均提供卓越表现。仅 9B 参数即超越 Llama3-70B、DeepSeekCoder-33B 等超大模型，是当前 10B 以下参数规模中综合性能最强的代码模型。

模型参数

82.3%

HumanEval Pass@1

128K

上下文长度

⭐ 30K+

GitHub Stars

⚙️ 安装要求和过程

💻 环境要求

Python 3.10+（推荐 3.11）
CUDA 12.1+（GPU 推理）
PyTorch 2.0+ 或 vLLM 0.5.1+
内存：FP16 推理约 18GB，INT4 量化约 6GB
操作系统：Windows / macOS / Linux 全平台支持

🚀 快速安装（Ollama — 最简单）

# 安装 Ollama（需 0.2+ 版本）
# macOS/Linux:
curl -fsSL https://ollama.com/install.sh | sh

# Windows: 从 https://ollama.com/download 下载安装

# 一键运行 CodeGeeX4
ollama run codegeex4

🐍 使用 transformers 推理

pip install transformers==4.40.0 torch

from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

model = AutoModelForCausalLM.from_pretrained(
    "THUDM/codegeex4-all-9b",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True
).cuda().eval()
tokenizer = AutoTokenizer.from_pretrained(
    "THUDM/codegeex4-all-9b",
    trust_remote_code=True
)

# 对话格式
prompt = [{"role":"user","content":"写一个快速排序"}]
inputs = tokenizer.apply_chat_template(prompt, add_generation_prompt=True, return_tensors="pt").cuda()
outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

⚡ vLLM 高性能部署

pip install vllm==0.5.1

# 启动 OpenAI 兼容 API 服务
python -m vllm.entrypoints.openai.api_server     --model THUDM/codegeex4-all-9b     --trust-remote-code     --tensor-parallel-size 1

# 然后即可用 OpenAI SDK 调用
# pip install openai
# client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")

✨ 核心功能

💬 全场景代码助手

支持代码补全、代码生成、代码解释、代码翻译、文档生成、Bug 修复等全场景，基于 ChatGLM2/GLM-4 架构，中英文理解能力优异。

🔧 Function Call 原生支持

唯一原生支持 Function Call 的代码模型，Function Call 执行成功率甚至超越 GPT-4。可无缝接入 AI Agent 工具调用链路。

📦 仓库级代码理解

支持 128K 超长上下文，可理解整个代码仓库。支持仓库级 Q&A、跨文件代码补全、自动 commit 等高级功能。

🌐 多平台部署

支持 Ollama / vLLM / transformers / Rust-candle 多种推理后端；支持 VS Code、JetBrains 全系列 IDE 插件；支持本地 / 云端双模式。

🏆 性能全面领先（10B 以下模型）

HumanEval 82.3% · MBPP 75.7% · NaturalCodeBench 40.4% · BigCodeBench 48.9%（complete）/ 40.4%（instruct）· CRUXEval-O 47.1%。在代码推理、代码理解、代码执行等全方位评测中均取得 10B 以下模型最佳成绩。

🎯 典型使用场景

场景一：IDE 智能编程助手（最适合日常使用）

在 VS Code 或 JetBrains IDE 中安装 CodeGeeX 插件，即可体验：

代码补全：根据上下文自动补全下一行 / 下一个函数
上下文补全：基于仓库内其他文件提供跨文件补全建议
Ask CodeGeeX：中英文对话解决编程问题，支持代码解释、翻译、纠错
本地模式：连接本地 Ollama 运行的 CodeGeeX4，数据完全不出本地

💡 支持超过 100 种编程语言！

场景二：AI Agent Function Call 工具

CodeGeeX4 原生支持 Function Call，可以：

作为 AI Agent 的代码生成工具，解析自然语言需求生成代码
接入 OpenAI 兼容 API，与 LangChain / AutoGen 等 Agent 框架无缝集成
支持仓库级代码操作（增删改文件），实现 AI 自动 commit
结合 vLLM 部署，支持多并发、高吞吐的生产环境调用

场景三：本地私有化部署（数据安全敏感场景）

对于数据隐私有严格要求的企业 / 个人，CodeGeeX4 提供完善的本地部署方案：

通过 Ollama 一行命令启动，INT4 量化仅需 6GB 显存
支持连接 VS Code / JetBrains 插件，体验与云端一致
支持昇腾 / NVIDIA 全系列硬件，包括国产 AI 芯片
代码和数据完全不离开本地，满足企业合规要求

💡 推荐理由

作为 AI 编程工具的深度用户，我试用过 GitHub Copilot、Claude Code、Cursor 等各类产品，CodeGeeX4 给我留下了极其深刻的印象：

① 性价比无敌：9B 参数的小模型，性能直接干翻 70B 的 Llama3 和 33B 的 DeepSeekCoder。这意味着你用消费级显卡（甚至 6GB 显存的 RTX 3060）就能跑一个世界级代码模型。

② Function Call 是杀手锏：在 AI Agent 时代，代码模型不能只做补全，还要能调用工具。CodeGeeX4 是唯一原生支持 Function Call 的开源代码模型，而且执行成功率比 GPT-4 还高。这对构建 AI 编程 Agent 来说是个游戏规则改变者。

③ 清华大学 + 智谱 AI 双背书：KEG 实验室（唐杰教授团队）在 NLP 和代码生成领域深耕多年，CodeGeeX 系列从 2022 年做到 2026 年，四代演进，成熟度远超同类竞品。智谱 AI 的 GLM 架构也在持续迭代优化。

④ 真正可用的 IDE 插件：很多开源模型只提供权重，没有好的用户体验。CodeGeeX 的 VS Code / JetBrains 插件做得相当完善，上下文补全、跨文件理解、Ask CodeGeeX 对话，体验不输商业产品。

如果你在找一个能本地部署、性能好、中文友好的 AI 编程助手，CodeGeeX4 是目前唯一的最优解。

📊 性能对比（10B 以下模型）

模型	参数	HumanEval	MBPP	NCB	Function Call
CodeGeeX4-ALL-9B	9B	82.3%	75.7%	40.4%	✅ 超越GPT-4
Llama3-70B-Instruct	70B	77.4%	82.3%	37.0%	—
DeepSeekCoder-33B	33B	81.1%	80.4%	39.3%	—
Codestral-22B	22B	81.1%	78.2%	46.0%	—