DeepSeek R1 入门指南：架构、训练、本地部署上手

2025-2-8

大型语言模型（LLM）的推理能力一直是人工智能领域的研究重点，而DeepSeek团队提出的 DeepSeek R1 系列模型，通过创新的训练方法和技术架构，为这一领域注入了新的活力。本文将从模型设计、训练策略、性能表现到本地部署，全方位解读这一技术成果，并指导开发者高效利用其能力。

一、模型架构：从探索到优化的双路径

DeepSeek R1并非单一模型，而是包含两个核心版本——R1-Zero与R1，分别代表了不同的技术路线：

R1-Zero：纯强化学习的初探

- 训练方法：完全依赖强化学习（RL），从基础模型出发，通过试错机制自主发展推理能力，无需监督微调。
- 技术亮点：采用混合专家（MoE）架构，激活参数达370亿，展现了自我验证、长链推理（CoT）等新兴能力。
- 局限性：尽管在AIME 2024基准测试中准确率达71%，但语言连贯性与格式控制较弱。

R1：监督与强化学习的融合突破

- 迭代优化：引入多阶段训练——先用数千高质量样本进行监督微调（SFT），再结合强化学习优化推理任务。
- 性能提升：在保持6710亿参数规模的同时，响应可读性显著增强，AIME 2024准确率提升至79.8%，超越同类竞品。

二、训练策略：效率与性能的平衡术

1. 核心技术创新

群体相对策略优化（GRPO）：通过动态调整奖励机制（准确性与格式双重奖励），减少对标注数据的依赖，提升模型自主推理能力。
蒸馏技术：将R1的推理能力压缩至15亿至700亿参数的轻量级版本（基于Gwen/Llama架构），通过合成数据微调，实现低成本高性能的平衡。

2. 训练流程对比

R1-Zero：三步直达——基础模型 → 强化学习 → 简单奖励机制。
R1：四阶段进阶——监督微调 → 强化学习专项训练 → 拒绝采样数据收集 → 全任务强化学习优化。

三、性能表现：领跑行业基准

推理能力：

- AIME 2024：79.8%通过率（OpenAI o1–1217为79.2%）。
- MATH-500：97.3%高分（行业领先）。
- 编程任务：在SWE-bench验证中展现卓越代码生成能力。

成本优势：API定价为每百万输入标记0.14美元，较同类模型降低30%以上。

局限性：

特定格式输出稳定性不足，多语言混合场景存在挑战。
少样本提示（Few-shot）易导致性能波动。

四、部署指南：从云端到本地的无缝衔接

1. 云端网页访问

DeepSeek 聊天平台提供了一个用户友好的界面，可以无需任何设置即可与 DeepSeek-R1 互动。

访问步骤：

访问 DeepSeek 官网
注册一个账号或登录已有账号
登录后，选择“深度思考 R1”模式，体验 DeepSeek-R1 的逐步推理能力

2、通过 DeepSeek API 访问

对于编程访问，DeepSeek 提供了与 OpenAI 格式兼容的 API，允许集成到各种应用中。

使用 API 的步骤：

a. 获取 API 密钥：

访问 DeepSeek API 平台创建账号并生成唯一的 API 密钥

b. 配置你的环境：

将 base_url 设置为 https://api.deepseek.com/v1
使用你的 API 密钥进行认证，通常通过 HTTP 头中的 Bearer Token

c. 进行 API 调用：

使用 API 发送提示并接收 DeepSeek-R1 的响应
详细的文档和示例可在 DeepSeek API 文档中找到

from openai import OpenAI  client = OpenAI(api_key="<密钥>", base_url="https://api.deepseek.com")  response = client.chat.completions.create(        model="deepseek-chat",        messages=[{"role": "user", "content": "你好！"}]  )  print(response.choices[0].message.content)

3. 本地部署方案

本地运行的软件工具：

Ollama：你可以使用 Ollama 在本地提供模型服务：Ollama 是一个用于在你的机器上本地运行开源 AI 模型的工具。你可以在 Ollama 下载页面下载它。

接下来，你需要本地下载并运行 DeepSeek R1 模型。

Ollama 提供了不同大小的模型——基本上，模型越大，AI 越聪明，但需要更好的 GPU。以下是模型系列：

1.5B 版本（最小）:ollama run deepseek-r1:1.5b
8B 版本:ollama run deepseek-r1:8b
14B 版本:ollama run deepseek-r1:14b
32B 版本:ollama run deepseek-r1:32b
70B 版本（最大/最智能）:ollama run deepseek-r1:70b

为了开始实验 DeepSeek-R1，建议从较小的模型开始，以熟悉设置并确保与你的硬件兼容。你可以通过打开终端并执行以下命令来启动这个过程：

ollama run deepseek-r1:8b

通过 Ollama 向本地下载的 DeepSeek-R1 发送请求：

Ollama 提供了一个 API ，可以以编程方式与 DeepSeek-R1 互动。确保 Ollama 服务器在本地运行后再进行 API 请求。你可以通过运行以下命令启动服务器：

ounter(lineollama serve

服务器启动后，你可以使用 curl 发送请求，如下所示：

ounter(lineounter(lineounter(lineounter(lineounter(linecurl -X POST <http://localhost:11434/api/generate> -d '{  "model": "deepseek-r1",  "prompt": "你的问题或提示内容"}

将“你的问题或提示内容”替换为你希望提供给模型的实际输入。该命令向本地 Ollama 服务器发送一个 POST 请求，服务器使用指定的 DeepSeek-R1 模型处理提示并返回生成的响应。

本地运行/访问模型的其他方法包括：

vLLM/SGLang： 用于本地提供模型。对于蒸馏版本，可以使用类似以下的命令：

vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B — tensor-parallel-size 2 — max-model-len 32768 — enforce-eager

llama.cpp： 你也可以使用 llama.cpp 在本地运行模型。

五、未来展望：持续突破技术边界

DeepSeek团队计划进一步优化模型在函数调用、多轮对话等复杂场景的表现，同时探索多语言混合推理的解决方案。通过开源MIT协议，R1系列不仅降低了AI开发门槛，更推动了行业协作创新。

从R1-Zero的探索到R1的成熟，这一技术演进验证了“监督+强化”双轨训练的有效性。无论是研究学者还是应用开发者，都能从这一框架中获得启发，共同推动智能推理技术的下一次飞跃。

来源：Python技术极客

THE END

计算机视觉算法全解析：从传统方法到深度学习的演变

<<上一篇

传统检索增强生成（RAG）到缓存增强生成（CAG）的转变探索

下一篇>>