DeepSeek开源AG

DeepSeek开源AGI：从零开始部署与使用深度求索开源LLM模型完整教程

深度求索 AGI 人工智能底层模型开源模型 LLM DeepSeek DeepSeek Coder DeepSeek Chat DeepSeek Platform
手把手带你上手国产开源大模型 · 本地部署 + 云API调用 · 含注意事项与FAQ

随着通用人工智能（AGI）技术的高速发展，深度求索（DeepSeek） 团队发布了一系列性能卓越的人工智能底层模型，包括 DeepSeek LLM、DeepSeek Coder 和 DeepSeek Chat 等。这些开源模型不仅展示了中国AI社区的硬核实力，更为开发者和研究者提供了完全可自建的 LLM 解决方案。本文将带你从零开始，完成环境准备、模型下载、本地推理、API集成以及DeepSeek Platform的使用，并附上关键注意事项和常见问题解答。

📌 你将学到：
✅ 如何下载并使用 DeepSeek / DeepSeek Coder / DeepSeek Chat 开源权重
✅ 在本地GPU/CPU上进行推理与部署
✅ 通过 DeepSeek Platform 调用云端AGI能力
✅ 生产环境注意事项与调优建议
✅ 常见问题排查（显存、量化、API报错等）

一、了解DeepSeek开源家族

深度求索 以“推动AGI普惠”为使命，其开源模型覆盖了通用对话、代码生成、数学推理等场景。以下是核心模型矩阵：

DeepSeek LLM — 基座大语言模型，具备强大的通用知识和推理能力，适合对话、文本生成、知识问答。
DeepSeek Coder — 专为代码理解和生成设计的模型，在HumanEval、MBPP等基准上表现优异，支持多种编程语言。
DeepSeek Chat — 对齐优化后的对话模型，交互更自然，适合构建AI助手。
DeepSeek Platform — 官方提供的云服务平台，可通过API快速调用上述模型，无需本地硬件。

所有模型均采用开源许可证，可商用，且提供了多种尺寸（1.3B、6.7B、33B、67B等），适配不同算力环境。

二、环境准备与硬件建议

2.1 硬件最低要求

推理 DeepSeek 1.3B/6.7B：推荐 8GB+ 显存（GPU），或 16GB+ 内存（CPU 推理，速度较慢）。
推理 DeepSeek 33B/67B：至少 24GB 显存（如 RTX 3090/4090、A10G、V100），或使用量化（Int8/Int4）降低显存占用。
纯 CPU 推理：建议 32GB 内存以上，且使用 GGUF 格式的量化模型。

2.2 软件环境

操作系统：Ubuntu 20.04 / Windows 11 / macOS (M1/M2 推荐)
Python 3.8+，CUDA 11.7+（若使用GPU）
推荐使用 conda 创建虚拟环境：
conda create -n deepseek python=3.10 -y
conda activate deepseek
安装核心依赖：
pip install torch transformers accelerate bitsandbytes sentencepiece
（可选）如果使用 DeepSeek Coder，建议安装 flask 或 gradio 快速搭建演示界面。

三、下载并加载DeepSeek开源模型

推荐从 Hugging Face 官方仓库下载，搜索 “deepseek-ai/deepseek-llm-7b-chat” 或 “deepseek-ai/deepseek-coder-6.7b-instruct”。以下以 DeepSeek Chat 7B 为例：

3.1 使用 Transformers 直接加载

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "deepseek-ai/deepseek-llm-7b-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    torch_dtype="auto",
    device_map="auto"   # 自动分配到GPU/CPU
)

💡 提示： 如果网络较慢，可先使用 git lfs 克隆仓库到本地，再将 model_name 改为本地路径。确保已经安装了 git-lfs。

3.2 量化加载（节省显存）

使用 bitsandbytes 进行 8-bit 或 4-bit 量化，显存占用降低约50%~75%：

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    trust_remote_code=True,
    load_in_8bit=True,          # 或 load_in_4bit=True
    device_map="auto"
)

3.3 使用 llama.cpp 进行 CPU 推理（推荐GGUF）

如果只有CPU或Apple Silicon，下载GGUF格式模型（如 deepseek-llm-7b-chat.Q4_K_M.gguf），然后用 llama-cpp-python 加载：

pip install llama-cpp-python

from llama_cpp import Llama
llm = Llama(model_path="deepseek-llm-7b-chat.Q4_K_M.gguf", n_ctx=4096)

四、运行推理：对话 & 代码生成

4.1 使用DeepSeek Chat进行对话

messages = [
    {"role": "user", "content": "解释一下什么是AGI，以及深度求索的开源模型如何推动AGI发展？"}
]
inputs = tokenizer.apply_chat_template(messages, return_tensors="pt").to(model.device)
outputs = model.generate(inputs, max_new_tokens=512, temperature=0.7, top_p=0.9)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

4.2 使用DeepSeek Coder生成代码

DeepSeek Coder 特别擅长代码补全与解释，推荐使用 fill-in-the-middle 模式：

prompt = "def fibonacci(n):\n    """返回斐波那契数列的第n项"""\n"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=128, do_sample=False)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

🔍 注意： 对于代码模型，建议 do_sample=False 或极低温度，以获得确定性的输出。

4.3 使用DeepSeek Platform（云端API）

若不想本地部署，可直接注册 DeepSeek Platform，获取 API Key 后调用：

import requests
API_URL = "https://api.deepseek.com/v1/chat/completions"
HEADERS = {"Authorization": "Bearer YOUR_API_KEY", "Content-Type": "application/json"}
payload = {
    "model": "deepseek-chat",
    "messages": [{"role": "user", "content": "用Python写一个快速排序"}]
}
resp = requests.post(API_URL, json=payload, headers=HEADERS).json()
print(resp["choices"][0]["message"]["content"])

Platform 支持 DeepSeek Chat、DeepSeek Coder 等多种模型，且提供免费额度，非常适合快速原型开发。

五、重要注意事项

⚠️ 显存与内存管理：
• 加载33B模型前请确保显存≥32GB，否则会出现OOM。推荐使用 device_map="auto" 或 max_memory 参数。
• CPU推理时，4-bit量化模型可大幅降低内存压力，但速度较慢（约2-5 token/s）。
• 多GPU用户可使用 device_map="sequential" 手动分配层。

⚠️ 开源协议与合规：
DeepSeek 模型采用 MIT / Apache 2.0 或自定义开源协议，允许商业使用。但需注意在模型输出中保留原论文引用或版权声明，具体以仓库 LICENSE 为准。

⚡ 性能优化建议：

DeepSeek开源AG

DeepSeek开源AGI：从零开始部署与使用深度求索开源LLM模型完整教程

一、了解DeepSeek开源家族

二、环境准备与硬件建议

2.1 硬件最低要求

2.2 软件环境

三、下载并加载DeepSeek开源模型

3.1 使用 Transformers 直接加载

3.2 量化加载（节省显存）

3.3 使用 llama.cpp 进行 CPU 推理（推荐GGUF）

四、运行推理：对话 & 代码生成

4.1 使用DeepSeek Chat进行对话

4.2 使用DeepSeek Coder生成代码

4.3 使用DeepSeek Platform（云端API）

五、重要注意事项

📖 相关文章