DeepSeek-R1强化学习算法:群组相对策略优化(GRPO)
强化学习(RL)已被证明在监督微调(SFT)阶段后,能进一步提高大型语言模型(LLMs)的数学推理能力。
DeepSeek-R1引入了组相对策略优化(GRPO),这是一种高效且有效的强化学习算法。GRPO摒弃了评判模型,而是通过组分数来估计基线,与近端策略优化(PPO)相比,显著减少了训练资源。
一、强化学习(RL)
强化学习(Reinforcement Learning,RL)是什么?强化学习是一种独特的机器学习方法,它侧重于智能体如何在复杂环境中通过与环境的持续交互来学习并优化其行为策略,从而最大化长期累积奖励。
强化学习模仿了人类和动物从经验中学习以实现目标的学习方式。在学习过程中,利用奖励和惩罚信号来引导智能体选择有利的行为。
- Q-learning:一种无模型、非策略性的算法,通过迭代更新其基于观察到的过渡和奖励的估计值来学习最佳的Q-函数。
- 深度Q网络(DQN):Q-learning的扩展,使用深度神经网络来近似Q-函数,使RL能够扩展到高维状态空间。
- 策略梯度算法(Policy Gradient Methods):一系列的算法,通过基于预期累积奖励的梯度调整其参数来直接优化策略。
- 近端策略优化(PPO):一种基于Actor-Critic框架的强化学习算法,通过限制新旧策略的差异来保持训练过程的稳定性,并实现了策略的有效更新。
基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)是什么?基于人类反馈的强化学习是一种结合强化学习和人类反馈的技术,旨在训练智能体,使其行为更符合人类期望。
传统的强化学习主要依赖于环境提供的奖励信号来优化智能体的行为策略,但在某些复杂、主观和依赖上下文的任务中,环境奖励可能难以准确定义或获取。
因此,RLHF通过引入人类反馈来弥补这一不足,使智能体能够学习到更符合人类期望的行为模式。
二、群组相对策略优化(GRPO)
群组相对策略优化(Group Relative Policy Optimization,GRPO)是什么?群组相对策略优化是一种基于近端策略优化(PPO)的强化学习(RL)变体算法。GRPO摒弃了评判模型,而是通过群组分数来估计基线,从而显著减少了训练资源。
- 摒弃评判模型(Value Model):GRPO不再使用额外的评判模型来估计价值,降低了内存和计算需求。
- 引入群组相对奖励(Group Computation):通过比较同一输入下不同输出的奖励,GRPO估计优势,使策略更新更依赖于组内样本表现。
- 控制KL散度(Kullback-Leibler Divergence):在更新策略时,通过控制KL散度,限制策略更新的幅度,避免策略发生剧烈变化,从而保持训练过程的稳定性。
DeepSeek-R1模型如何使用GRPO算法?DeepSeek-R1模型采用了GRPO算法进行强化学习微调,其训练流程包括监督微调(SFT)阶段和强化学习(RL)阶段。在RL阶段,通过GRPO算法对模型进行微调,使其在数学推理和问题解决能力方面取得了显著的提升。
一、冷启动(Cold Start)与监督微调(SFT)
冷启动:在强化学习(RL)训练前,用数千个长链推理(Chain-of-Thought,CoT)示例微调基础模型,提升输出可读性。
监督微调(SFT):在冷启动之后,模型会进行一轮或多轮监督微调。
二、推理导向的强化学习(Reasoning-oriented RL)与GRPO
推理导向的强化学习:经过SFT微调后,模型进入推理导向的强化学习阶段。
引入GRPO算法:在推理导向的强化学习阶段,DeepSeek R1采用了GRPO算法进行策略优化。
三、收集监督微调数据(再次SFT)
在推理导向的强化学习之后,DeepSeek团队会收集新的监督微调数据。
四、通用对齐的强化学习(General Alignment RL)与GRPO
通用对齐的强化学习:在收集到新的监督微调数据后,模型进入通用对齐的强化学习阶段。
再次应用GRPO算法:在通用对齐的强化学习阶段,DeepSeek R1再次应用GRPO算法进行策略优化。
来源:架构师带你玩转AI