LLM-RL的探索困境
- 首发链接:LLM-RL的探索困境
- NIPS 2025 Best paper Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 观察到当前对 LLM 进行 RL 训练的局限性:RLVR 只能在基座模型已有推理路径上提高采样效率,不仅无法创造新的推理能力,还常导致推理覆盖范围缩窄
- 本文参考俞扬老师的文章 “从一些基础的优化说一下RL在LLM中的探索问题”,分析 RL 等无梯度优化方法在平衡探索和利用时的先天特性,并说明 LLM-RL 的困境本质:探索不足导致陷入局部最优
1 可微代理优化
可微代理优化 (Differentiable Surrogate Optimization):考虑原始优化问题 ,当目标函数 对决策变量 不可微、不可得解析梯度或梯度估计不稳定时,难以直接基于 进行优化。此时引入一个由参数 控制、且对 可微的决策变量代理分布 ,构造代理目标假设 不显式依赖 ( 仅通过采样分布影响 ),则即使 对 不可微,仍可通过对数导数技巧得到对 的梯度估计
再加 baseline 降低方差,并利用 保持期望不变,得到核心结构
如此通过梯度更新改变代理对象 ,就可以把搜索/采样的概率质量推向高 的区域,从而间接提升原始目标 的性能
- 注意到 “可微代理优化” 包含两个核心要素:
- 代理(surrogate):不直接在 “决策本体” 上做离散的 搜索,而是选一个可控的概率分布族 来 “代表你当前在搜索什么”,通过调整分布参数 来把概率质量推向高回报区域
- 可微(differentiable):选出 的 对参数 是可微的,这保证我们可以用对数导数技巧得到一个可用的梯度估计
2 Policy-Gradient RL 是一类可微代理优化方法
- 从可微代理优化的角度看,RL 里我们想最大化交互轨迹的回报,但回报来自不可微的环境反馈没法直接优化,为此我们引入诱导了轨迹分布的可微策略作为代理分布,通过策略梯度优化策略从而间接提升回报
- 形式化地讲,设有 参数化的策略 ,其和环境 交互诱导出的轨迹分布为
优化目标是最大化期望回报
此时轨迹 是决策变量 ,累积(折扣)奖励 就是目标函数 ,策略 是代理分布。由于初始状态分布 和环境转移 都和 无关,得到梯度公式
注意到其中 只和当前的 有关,我们从 时刻把轨迹切分成前后两部分,引入 和 RTG ,使 ,继续推导
下面证明第三行第一项 期望为 0。考虑时刻 ,引入历史轨迹
给定 后 是常数,用塔式法则展开
给定 后,内层唯一还在随机的量只有 ,因此有
直观理解,依 更新策略时,本质是在按加权的 方向调整策略,提高好动作的出现概率,降低坏动作的出现概率。此时乘上的系数决定了调整的力度,是 credit assignment 的体现。注意到权重 中包含的 部分和 无关,因为它在选择 之前就已经确定了,故其只会把调整力度随机放大/缩小,但不会稳定地偏向某个方向——平均下来贡献就是 0,因此 时刻的 就是一个不影响梯度期望,只增大方差的 baseline 项,应当将其减去
- 至此我们得到 ,其实它就是 Policy-Gradient RL 理论分析中常见的策略梯度定理 的另一种写法。下面我们完成这个形式转换,核心就是两步:
- 把轨迹 RTG换成 条件化后的 :依定义有
在任意时刻 给定 后, 看作常数,有
将上式对 求和,并利用期望的线性性,得到
- 把“沿时间求和的轨迹期望”改写为“在状态-动作访问分布下的期望”:注意到上式右端是对轨迹上各时刻 的求和。为将其写成对 的一次期望,定义策略 的折扣状态-动作占用分布
其中 为折扣因子。现在我们可以换一种写法,把 “沿时间的加权求和期望” 改写成 “在加权访问分布下的期望”,对任意可积函数 恒有
令 代入上式,可得
忽略与 无关的常数因子 ,得到常见的策略梯度定理写法
- 把轨迹 RTG换成 条件化后的 :依定义有
- 关于策略梯度定理的详细证明可以参考 RL 实践(5)—— 二维滚球环境【REINFORCE & Actor-Critic】
3 可微代理优化的内在机制
-
为了简化分析,设被优化参数为 ,用多维高斯分布 作为代理分布,此时 ,其中
- 均值代表了当前搜索的“重心”,算法会努力将 移动到回报更高的区域
- 标准差是探索的体现, 越大采样的策略越多样化, 越小策略越集中
-
首先计算代理分布关于 的偏导数。设参数维度为 ,有
对标量 求导,得到
通常使用重参数化方法对各向同性高斯分布进行采样,即 ,其中 ,用 带入,有
-
使用可微代理优化方法,得到的关于 的梯度估计为
其中 是第 次采样策略的回报, 是回报的基线(通常是平均回报), 是重参数化采样时引入的噪声。这个公式揭示了无梯度优化的内在机制:该类算法天生就倾向于在无法探索(落入局部最优)时缩小探索范围。
- 当算法在局部最优附近获得正反馈时,算法会认为“当前重心附近已经能稳定获得较高回报”,于是倾向于收缩搜索分布、减少无谓的探索,在该区域进行更精细的局部搜索:通常靠近均值 的样本(即扰动幅度较小 )更容易保持可行性并获得更高回报,因此其优势项 往往为正。此时梯度中的 “距离信号项” 为负,因此单个样本对 的贡献 为负,整体梯度倾向于推动 减小
- 当算法因过度探索受到惩罚时,算法将外部区域视为“高风险、低收益”的区域,因而通过收缩来降低采样到这些失败样本的概率,进一步固守当前相对安全的搜索半径:通常远离均值的样本(即扰动幅度较大 )更容易落入低回报区域,其回报低于基线使得 通常为负。此时距离信号项 为正,于是乘积 仍为负,梯度依然倾向于推动 减小
-
综上所述,LLM+RL中出现的 “方差坍塌” 等熵相关现象,并非RL算法失灵,而是经典的 “探索不足导致陷入局部最优”。具体而言,策略梯度 RL 作为一类可微代理优化方法,其天然性质会导致以下现象:
- 算法进入局部最优时出现方差坍塌:当 Agent 在策略空间中探索受困时,RL 会系统性地降低探索标准差,使策略分布锁定在当前模式上,体现为 LLM 输出熵崩溃,多样性下降
- pass@1 提升,但 pass@k 下降:当 Agent 在策略空间中探索受困时,RL 锁定在局部最优模式,使策略均值 精细地调整到这个 “小山丘” 的顶峰并缩小标准差 ,采样到 “峰顶” 附近的概率增大,从而提升了 pass@1 指标。然而,这也导致模型更难采样到远离这个局部最优的更优解,导致 pass@k 下降
- 优化后的 pass@1 未超过基础模型的 pass@k:这揭示了局部最优解与全局最优解之间的鸿沟。RL 会系统性地推动模型深陷局部最优区域
-
以上分析都是建立在多维高斯代理分布上的,实际的 LLM 作为代理分布会复杂很多,比如其分布往往是多峰而非单峰的,且 LLM 本质在进行条件生成,其探索强度也无法用类似方差的一个全局标量进行描述。尽管如此,以上分析的 “定性机制” 在很大范围内仍然成立。回顾梯度公式
它表达的核心就是:高回报样本的 log-prob 被增大,低回报样本的 log-prob 被减小,只要策略更新本质上在做这件事,就会天然有一种 “把概率质量往少数高回报区域挤” 的趋势。REINFORCE、PPO 及其近似(GRPO 等)都是这个味道