DeepSeek R1 入门指南:架构、训练、本地部署上手
大型语言模型(LLM)的推理能力一直是人工智能领域的研究重点,而DeepSeek团队提出的 DeepSeek R1 系列模型,通过创新的训练方法和技术架构,为这一领域注入了新的活力。本文将从模型设计、训练策略、性能表现到本地部署,全方位解读这一技术成果,并指导开发者高效利用其能力。
一、模型架构:从探索到优化的双路径
DeepSeek R1并非单一模型,而是包含两个核心版本——R1-Zero与R1,分别代表了不同的技术路线:
-
- 训练方法:完全依赖强化学习(RL),从基础模型出发,通过试错机制自主发展推理能力,无需监督微调。
- 技术亮点:采用混合专家(MoE)架构,激活参数达370亿,展现了自我验证、长链推理(CoT)等新兴能力。
- 局限性:尽管在AIME 2024基准测试中准确率达71%,但语言连贯性与格式控制较弱。
-
- 迭代优化:引入多阶段训练——先用数千高质量样本进行监督微调(SFT),再结合强化学习优化推理任务。
- 性能提升:在保持6710亿参数规模的同时,响应可读性显著增强,AIME 2024准确率提升至79.8%,超越同类竞品。
二、训练策略:效率与性能的平衡术
1. 核心技术创新
- 群体相对策略优化(GRPO):通过动态调整奖励机制(准确性与格式双重奖励),减少对标注数据的依赖,提升模型自主推理能力。
- 蒸馏技术:将R1的推理能力压缩至15亿至700亿参数的轻量级版本(基于Gwen/Llama架构),通过合成数据微调,实现低成本高性能的平衡。
2. 训练流程对比
- R1-Zero:三步直达——基础模型 → 强化学习 → 简单奖励机制。
- R1:四阶段进阶——监督微调 → 强化学习专项训练 → 拒绝采样数据收集 → 全任务强化学习优化。
三、性能表现:领跑行业基准
推理能力:
-
- AIME 2024:79.8%通过率(OpenAI o1–1217为79.2%)。
- MATH-500:97.3%高分(行业领先)。
- 编程任务:在SWE-bench验证中展现卓越代码生成能力。
成本优势:API定价为每百万输入标记0.14美元,较同类模型降低30%以上。
局限性:
- 特定格式输出稳定性不足,多语言混合场景存在挑战。
- 少样本提示(Few-shot)易导致性能波动。
四、部署指南:从云端到本地的无缝衔接
1. 云端网页访问
DeepSeek 聊天平台提供了一个用户友好的界面,可以无需任何设置即可与 DeepSeek-R1 互动。
访问步骤:
- 访问 DeepSeek 官网
- 注册一个账号或登录已有账号
- 登录后,选择“深度思考 R1”模式,体验 DeepSeek-R1 的逐步推理能力

2、通过 DeepSeek API 访问
对于编程访问,DeepSeek 提供了与 OpenAI 格式兼容的 API,允许集成到各种应用中。
使用 API 的步骤:
a. 获取 API 密钥:
- 访问 DeepSeek API 平台创建账号并生成唯一的 API 密钥
b. 配置你的环境:
- 将 base_url 设置为 https://api.deepseek.com/v1
- 使用你的 API 密钥进行认证,通常通过 HTTP 头中的 Bearer Token
c. 进行 API 调用:
- 使用 API 发送提示并接收 DeepSeek-R1 的响应
- 详细的文档和示例可在 DeepSeek API 文档中找到
from openai import OpenAI
client = OpenAI(api_key="<密钥>", base_url="https://api.deepseek.com")
response = client.chat.completions.create(
model="deepseek-chat",
messages=[{"role": "user", "content": "你好!"}]
)
print(response.choices[0].message.content)
3. 本地部署方案
本地运行的软件工具:
Ollama:你可以使用 Ollama 在本地提供模型服务:Ollama 是一个用于在你的机器上本地运行开源 AI 模型的工具。你可以在 Ollama 下载页面 下载它。
接下来,你需要本地下载并运行 DeepSeek R1 模型。
Ollama 提供了不同大小的模型——基本上,模型越大,AI 越聪明,但需要更好的 GPU。以下是模型系列:
- 1.5B 版本(最小):
ollama run deepseek-r1:1.5b
- 8B 版本:
ollama run deepseek-r1:8b
- 14B 版本:
ollama run deepseek-r1:14b
- 32B 版本:
ollama run deepseek-r1:32b
- 70B 版本(最大/最智能):
ollama run deepseek-r1:70b
为了开始实验 DeepSeek-R1,建议从较小的模型开始,以熟悉设置并确保与你的硬件兼容。你可以通过打开终端并执行以下命令来启动这个过程:
ollama run deepseek-r1:8b
通过 Ollama 向本地下载的 DeepSeek-R1 发送请求:
Ollama 提供了一个 API ,可以以编程方式与 DeepSeek-R1 互动。确保 Ollama 服务器在本地运行后再进行 API 请求。你可以通过运行以下命令启动服务器:
ounter(lineollama serve
服务器启动后,你可以使用 curl 发送请求,如下所示:
ounter(lineounter(lineounter(lineounter(lineounter(linecurl -X POST <http://localhost:11434/api/generate> -d '{ "model": "deepseek-r1", "prompt": "你的问题或提示内容"}
将“你的问题或提示内容”替换为你希望提供给模型的实际输入。该命令向本地 Ollama 服务器发送一个 POST 请求,服务器使用指定的 DeepSeek-R1 模型处理提示并返回生成的响应。
本地运行/访问模型的其他方法包括:
- vLLM/SGLang: 用于本地提供模型。对于蒸馏版本,可以使用类似以下的命令:
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — enforce-eager
- llama.cpp: 你也可以使用 llama.cpp 在本地运行模型。
五、未来展望:持续突破技术边界
DeepSeek团队计划进一步优化模型在函数调用、多轮对话等复杂场景的表现,同时探索多语言混合推理的解决方案。通过开源MIT协议,R1系列不仅降低了AI开发门槛,更推动了行业协作创新。
从R1-Zero的探索到R1的成熟,这一技术演进验证了“监督+强化”双轨训练的有效性。无论是研究学者还是应用开发者,都能从这一框架中获得启发,共同推动智能推理技术的下一次飞跃。
来源:Python技术极客