🚀 9B 超越 70B
🏆 BigCodeBench SOTA
📝 项目简介
CodeGeeX4 是清华大学 KEG 实验室与智谱 AI 联合推出的第四代多语言代码生成模型,基于 GLM-4-9B 持续训练,在代码生成、代码解释、Web 搜索、Function Call、仓库级 Q&A 等全场景软件开发生命周期中均提供卓越表现。仅 9B 参数即超越 Llama3-70B、DeepSeekCoder-33B 等超大模型,是当前 10B 以下参数规模中综合性能最强的代码模型。
⚙️ 安装要求和过程
💻 环境要求
- Python 3.10+(推荐 3.11)
- CUDA 12.1+(GPU 推理)
- PyTorch 2.0+ 或 vLLM 0.5.1+
- 内存:FP16 推理约 18GB,INT4 量化约 6GB
- 操作系统:Windows / macOS / Linux 全平台支持
🚀 快速安装(Ollama — 最简单)
# 安装 Ollama(需 0.2+ 版本)
# macOS/Linux:
curl -fsSL https://ollama.com/install.sh | sh
# Windows: 从 https://ollama.com/download 下载安装
# 一键运行 CodeGeeX4
ollama run codegeex4
🐍 使用 transformers 推理
pip install transformers==4.40.0 torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
model = AutoModelForCausalLM.from_pretrained(
"THUDM/codegeex4-all-9b",
torch_dtype=torch.bfloat16,
trust_remote_code=True
).cuda().eval()
tokenizer = AutoTokenizer.from_pretrained(
"THUDM/codegeex4-all-9b",
trust_remote_code=True
)
# 对话格式
prompt = [{"role":"user","content":"写一个快速排序"}]
inputs = tokenizer.apply_chat_template(prompt, add_generation_prompt=True, return_tensors="pt").cuda()
outputs = model.generate(inputs, max_new_tokens=256)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
⚡ vLLM 高性能部署
pip install vllm==0.5.1
# 启动 OpenAI 兼容 API 服务
python -m vllm.entrypoints.openai.api_server --model THUDM/codegeex4-all-9b --trust-remote-code --tensor-parallel-size 1
# 然后即可用 OpenAI SDK 调用
# pip install openai
# client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")
✨ 核心功能
🎯 典型使用场景
在 VS Code 或 JetBrains IDE 中安装 CodeGeeX 插件,即可体验:
- 代码补全:根据上下文自动补全下一行 / 下一个函数
- 上下文补全:基于仓库内其他文件提供跨文件补全建议
- Ask CodeGeeX:中英文对话解决编程问题,支持代码解释、翻译、纠错
- 本地模式:连接本地 Ollama 运行的 CodeGeeX4,数据完全不出本地
💡 支持超过 100 种编程语言!
CodeGeeX4 原生支持 Function Call,可以:
- 作为 AI Agent 的代码生成工具,解析自然语言需求生成代码
- 接入 OpenAI 兼容 API,与 LangChain / AutoGen 等 Agent 框架无缝集成
- 支持仓库级代码操作(增删改文件),实现 AI 自动 commit
- 结合 vLLM 部署,支持多并发、高吞吐的生产环境调用
对于数据隐私有严格要求的企业 / 个人,CodeGeeX4 提供完善的本地部署方案:
- 通过 Ollama 一行命令启动,INT4 量化仅需 6GB 显存
- 支持连接 VS Code / JetBrains 插件,体验与云端一致
- 支持昇腾 / NVIDIA 全系列硬件,包括国产 AI 芯片
- 代码和数据完全不离开本地,满足企业合规要求
💡 推荐理由
作为 AI 编程工具的深度用户,我试用过 GitHub Copilot、Claude Code、Cursor 等各类产品,CodeGeeX4 给我留下了极其深刻的印象:
① 性价比无敌:9B 参数的小模型,性能直接干翻 70B 的 Llama3 和 33B 的 DeepSeekCoder。这意味着你用消费级显卡(甚至 6GB 显存的 RTX 3060)就能跑一个世界级代码模型。
② Function Call 是杀手锏:在 AI Agent 时代,代码模型不能只做补全,还要能调用工具。CodeGeeX4 是唯一原生支持 Function Call 的开源代码模型,而且执行成功率比 GPT-4 还高。这对构建 AI 编程 Agent 来说是个游戏规则改变者。
③ 清华大学 + 智谱 AI 双背书:KEG 实验室(唐杰教授团队)在 NLP 和代码生成领域深耕多年,CodeGeeX 系列从 2022 年做到 2026 年,四代演进,成熟度远超同类竞品。智谱 AI 的 GLM 架构也在持续迭代优化。
④ 真正可用的 IDE 插件:很多开源模型只提供权重,没有好的用户体验。CodeGeeX 的 VS Code / JetBrains 插件做得相当完善,上下文补全、跨文件理解、Ask CodeGeeX 对话,体验不输商业产品。
如果你在找一个能本地部署、性能好、中文友好的 AI 编程助手,CodeGeeX4 是目前唯一的最优解。
📊 性能对比(10B 以下模型)
| 模型 | 参数 | HumanEval | MBPP | NCB | Function Call |
|---|---|---|---|---|---|
| CodeGeeX4-ALL-9B | 9B | 82.3% | 75.7% | 40.4% | ✅ 超越GPT-4 |
| Llama3-70B-Instruct | 70B | 77.4% | 82.3% | 37.0% | — |
| DeepSeekCoder-33B | 33B | 81.1% | 80.4% | 39.3% | — |
| Codestral-22B | 22B | 81.1% | 78.2% | 46.0% | — |
数据来源:CodeGeeX4 官方 README,NCB = NaturalCodeBench
📚 CodeGeeX 系列演进
📥 下载地址
