LLM-RL的探索困境


1 可微代理优化

  • 可微代理优化 (Differentiable Surrogate Optimization):考虑原始优化问题 maxxf(x)\max_x f(x),当目标函数 f(x)f(x) 对决策变量 xx不可微、不可得解析梯度或梯度估计不稳定时,难以直接基于 xf(x)\nabla_x f(x) 进行优化。此时引入一个由参数 ϕ\phi 控制、且对 ϕ\phi可微的决策变量代理分布 pϕ(x)p_\phi(x),构造代理目标

    J(ϕ)=Expϕ[f(x)]J(\phi)=\mathbb{E}_{x\sim p_\phi}[f(x)]

    假设 ff 不显式依赖 ϕ\phiϕ\phi 仅通过采样分布影响 xx),则即使 f(x)f(x)xx 不可微,仍可通过对数导数技巧得到对 ϕ\phi 的梯度估计

    ϕJ(ϕ)=ϕf(x)pϕ(x)dx=f(x)pϕ(x)ϕlogpϕ(x)dx=Expϕ[f(x)ϕlogpϕ(x)]\begin{aligned} \nabla_{\phi} J(\phi) &=\nabla_{\phi} \int f(x) p_{\phi}(x) d x \\ &=\int f(x) p_{\phi}(x) \nabla_{\phi} \log p_{\phi}(x) d x \\ &=\mathbb{E}_{x \sim p_{\phi}}\left[f(x) \nabla_{\phi} \log p_{\phi}(x)\right] \end{aligned}

    再加 baseline bb 降低方差,并利用 Expϕ[ϕlogpϕ(x)]=0\mathbb{E}_{x\sim p\phi}[\nabla_\phi \log p_\phi(x)]=0 保持期望不变,得到核心结构

    ϕJ(ϕ)=Expϕ[(f(x)b)ϕlogpϕ(x)]\nabla_{\phi} J(\phi)=\mathbb{E}_{x \sim p_{\phi}}\left[(f(x)-b) \nabla_{\phi} \log p_{\phi}(x)\right]

    如此通过梯度更新ϕ\phi改变代理对象 pϕp_\phi,就可以把搜索/采样的概率质量推向高 f(x)f(x) 的区域,从而间接提升原始目标 ff 的性能
  • 注意到 “可微代理优化” 包含两个核心要素:
    1. 代理(surrogate):不直接在 “决策本体” ff 上做离散的 arg max\argmax 搜索,而是选一个可控的概率分布族 pϕp_\phi 来 “代表你当前在搜索什么”,通过调整分布参数 ϕ\phi 来把概率质量推向高回报区域
    2. 可微(differentiable):选出 的 pϕp_\phi 对参数 ϕ\phi 是可微的,这保证我们可以用对数导数技巧得到一个可用的梯度估计

2 Policy-Gradient RL 是一类可微代理优化方法

  • 从可微代理优化的角度看,RL 里我们想最大化交互轨迹的回报,但回报来自不可微的环境反馈没法直接优化,为此我们引入诱导了轨迹分布的可微策略作为代理分布,通过策略梯度优化策略从而间接提升回报
  • 形式化地讲,设有 ϕ\phi 参数化的策略 πϕ(as)\pi_\phi(a|s),其和环境 p(ss,a)p(s'|s,a) 交互诱导出的轨迹分布为

    pϕ(τ)=p(s0)tπϕ(atst)p(st+1st,at)p_{\phi}(\tau)=p\left(s_{0}\right) \prod_{t} \pi_{\phi}\left(a_{t} \mid s_{t}\right) p\left(s_{t+1} \mid s_{t}, a_{t}\right)

    优化目标是最大化期望回报

    J(ϕ)=Eτpϕ(τ)[R(τ)]J(\phi) = \mathbb{E}_{\tau\sim p_\phi(\tau)}[R(\tau)]

    此时轨迹 τ\tau 是决策变量 xx,累积(折扣)奖励 RR 就是目标函数 ff,策略 πϕ\pi_\phi 是代理分布。由于初始状态分布 p(s0)p(s_0) 和环境转移 p(st+1st,at)p(s_{t+1} \mid s_{t}, a_{t}) 都和 ϕ\phi 无关,得到梯度公式

    ϕJ(ϕ)=Eτpϕ[R(τ)ϕlogpϕ(τ)]=Eτpϕ[R(τ)(ϕlogp(s0)+ϕtlogπϕ(atst)+ϕtlogp(st+1st,at))]=Eτpϕ[R(τ)tϕlogπϕ(atst)]\begin{aligned} \nabla_{\phi} J(\phi) &=\mathbb{E}_{\tau\sim p_{\phi}}\left[R(\tau) \nabla_{\phi} \log p_{\phi}(\tau)\right] \\ &=\mathbb{E}_{\tau\sim p_{\phi}}\left[R(\tau) \left(\nabla_{\phi} \log p\left(s_{0}\right)+ \nabla_{\phi}\sum_{t} \log \pi_{\phi}\left(a_{t} \mid s_{t}\right)+\nabla_{\phi} \sum_{t} \log p\left(s_{t+1} \mid s_{t}, a_{t}\right)\right) \right]\\ &=\mathbb{E}_{\tau\sim p_{\phi}}\left[R(\tau)\sum_{t} \nabla_{\phi}\log \pi_{\phi}\left(a_{t} \mid s_{t}\right) \right] \end{aligned}

    注意到其中 ϕlogπϕ(atst)\nabla_{\phi}\log \pi_{\phi}\left(a_{t} \mid s_{t}\right) 只和当前的 (st,at)(s_t,a_t) 有关,我们从 tt 时刻把轨迹切分成前后两部分,引入 R<t=k=0t1γkrkR_{<t}=\sum_{k=0}^{t-1}\gamma^k r_k 和 RTG Gt=k=tγkrkG_t=\sum_{k=t}^{\infin}\gamma^k r_k,使 R(τ)=R<t+GtR(\tau)=R_{<t} +G_t,继续推导

    ϕJ(ϕ)=Eτpϕ[R(τ)tϕlogπϕ(atst)]=Eτpϕ[tϕlogπϕ(atst)R(τ)]=Eτ[tϕlogπϕ(atst)R<t]+Eτ[tϕlogπϕ(atst)Gt]=Eτ[tϕlogπϕ(atst)Gt].\begin{aligned} \nabla_{\phi} J(\phi) &=\mathbb{E}_{\tau\sim p_{\phi}}\left[R(\tau)\sum_{t} \nabla_{\phi}\log \pi_{\phi}\left(a_{t} \mid s_{t}\right) \right] \\ &= \mathbb{E}_{\tau\sim p_{\phi}}\left[\sum_{t} \nabla_{\phi}\log \pi_{\phi}\left(a_{t} \mid s_{t}\right) R(\tau) \right] \\ &= \mathbb{E}_{\tau}\left[\sum_{t} \nabla_{\phi} \log \pi_\phi\left(a_{t} \mid s_{t}\right) R_{<t}\right] + \mathbb{E}_{\tau}\left[\sum_{t}\nabla_{\phi} \log \pi_\phi\left(a_{t} \mid s_{t}\right) G_{t} \right] \\ &=\mathbb{E}_{\tau}\left[\sum_{t}\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, G_{t}\right]. \end{aligned}

    下面证明第三行第一项 Eτ[tϕlogπϕ(atst)R<t]\mathbb{E}_{\tau}\left[\sum_{t} \nabla_{\phi} \log \pi_\phi\left(a_{t} \mid s_{t}\right) R_{<t}\right] 期望为 0。考虑时刻 tt,引入历史轨迹

    Ht(s0,a0,r0,,st1,at1,rt1,st) H_t\doteq (s_0,a_0,r_0,\dots,s_{t-1},a_{t-1},r_{t-1},s_t)

    给定 HtH_tR<tR_{<t} 是常数,用塔式法则展开

    Eτ[ϕlogπϕ(atst)R<t]=EHt[R<t Eτ[ϕlogπϕ(atst)  Ht]]. \mathbb{E}_{\tau}\left[\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, R_{<t}\right] =\mathbb{E}_{H_t}\left[ R_{<t}\ \mathbb{E}_\tau\left[\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\ \big|\ H_t\right]\right].

    给定 sts_t 后,内层唯一还在随机的量只有 ata_t,因此有

    Eτ[ϕlogπϕ(atst)  Ht]=Eatπϕ(st)[ϕlogπϕ(atst)  Ht]=aπϕ(ast)ϕlogπϕ(ast)=aϕπϕ(ast)=ϕaπϕ(ast)=ϕ1=0. \begin{aligned} \mathbb{E}_\tau\left[\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\ \big|\ H_t\right] &=\mathbb{E}_{a_t\sim \pi_\phi(\cdot|s_t)}\left[\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\ \big|\ H_t\right] \\ &=\sum_{a}\pi_\phi(a\mid s_t)\nabla_\phi \log \pi_\phi(a\mid s_t) \\ &=\sum_{a}\nabla_\phi \pi_\phi(a\mid s_t) =\nabla_\phi \sum_{a}\pi_\phi(a\mid s_t) =\nabla_\phi 1 =0 \end{aligned}.

    直观理解,依 ϕJ(ϕ)\nabla_{\phi} J(\phi) 更新策略时,本质是在按加权的 ϕlogπϕ(atst)\nabla_{\phi}\log \pi_{\phi}\left(a_{t} \mid s_{t}\right) 方向调整策略,提高好动作的出现概率,降低坏动作的出现概率。此时乘上的系数决定了调整的力度,是 credit assignment 的体现。注意到权重 R(τ)R(\tau) 中包含的 R<tR_{<t}部分和 πϕ(atst)\pi_{\phi}\left(a_{t} \mid s_{t}\right) 无关,因为它在选择 ata_t 之前就已经确定了,故其只会把调整力度随机放大/缩小,但不会稳定地偏向某个方向——平均下来贡献就是 0,因此 tt 时刻的 Eτ[ϕlogπϕ(atst)  Ht]\mathbb{E}_\tau\left[\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\ \big|\ H_t\right] 就是一个不影响梯度期望,只增大方差的 baseline 项,应当将其减去

  • 至此我们得到 ϕJ(ϕ)=Eτ[tϕlogπϕ(atst)Gt]\nabla_{\phi} J(\phi)=\mathbb{E}_{\tau}\left[\sum_{t}\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, G_{t}\right],其实它就是 Policy-Gradient RL 理论分析中常见的策略梯度定理 ϕJ(ϕ)Eπϕ[Qπϕ(s,a)ϕlogπϕ(as)]\nabla_{\phi} J(\phi) \propto \mathbb{E}_{\pi_{\phi}}\left[Q_{\pi_{\phi}}(s, a) \nabla_{\phi} \log \pi_{\phi}(a \mid s)\right] 的另一种写法。下面我们完成这个形式转换,核心就是两步:
    1. 把轨迹 RTGGtG_t换成 (st,at)(s_t,a_t) 条件化后的 Qπϕ(st,at)Q_{\pi_\phi}(s_t, a_t):依定义有

      Qπϕ(st,at)E ⁣[Gtst,at;πϕ].Q_{\pi_\phi}(s_t,a_t)\doteq \mathbb{E}\!\left[G_t\mid s_t,a_t;\pi_\phi\right].

      在任意时刻 tt 给定 (st,at)(s_t, a_t) 后,ϕlogπϕ(atst)\nabla_{\phi} \log \pi_{\phi}(a_t \mid s_t) 看作常数,有

      Eτpϕ ⁣[ϕlogπϕ(atst)Gt]=E(st,at)pϕt ⁣[E ⁣[ϕlogπϕ(atst)Gt  st,at;πϕ]]=E(st,at)pϕt ⁣[ϕlogπϕ(atst) E ⁣[Gt  st,at;πϕ]]=E(st,at)pϕt ⁣[ϕlogπϕ(atst) Qπϕ(st,at)].\begin{aligned} \mathbb{E}_{\tau\sim p_{\phi}}\!\left[\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, G_{t}\right] &=\mathbb{E}_{(s_t,a_t)\sim p_{\phi}^t}\!\left[ \mathbb{E}\!\left[\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, G_{t}\ \big|\ s_t,a_t;\pi_\phi\right] \right]\\ &=\mathbb{E}_{(s_t,a_t)\sim p_{\phi}^t}\!\left[ \nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\ \mathbb{E}\!\left[G_{t}\ \big|\ s_t,a_t;\pi_\phi\right] \right]\\ &=\mathbb{E}_{(s_t,a_t)\sim p_{\phi}^t}\!\left[ \nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\ Q_{\pi_\phi}(s_t,a_t) \right]. \end{aligned}

      将上式对 t=0,1,2,...t=0,1,2,... 求和,并利用期望的线性性,得到

      ϕJ(ϕ)=Eτpϕ ⁣[tϕlogπϕ(atst)Gt]=Eτpϕ ⁣[tϕlogπϕ(atst)Qπϕ(st,at)].\begin{aligned} \nabla_{\phi} J(\phi) &=\mathbb{E}_{\tau\sim p_{\phi}}\!\left[\sum_t\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, G_{t}\right]\\ &=\mathbb{E}_{\tau\sim p_{\phi}}\!\left[\sum_t\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, Q_{\pi_\phi}(s_t,a_t)\right]. \end{aligned}

    2. 把“沿时间求和的轨迹期望”改写为“在状态-动作访问分布下的期望”:注意到上式右端是对轨迹上各时刻 (st,at)(s_t,a_t) 的求和。为将其写成对 (s,a)(s,a) 的一次期望,定义策略 πϕ\pi_\phi 的折扣状态-动作占用分布

      dπϕ(s,a)(1γ)tγtpϕt(st=s,at=a),d_{\pi_\phi}(s,a)\doteq (1-\gamma)\sum_{t}\gamma^t\,p_{\phi}^t(s_t=s,a_t=a),

      其中 γ(0,1)\gamma\in(0,1) 为折扣因子。现在我们可以换一种写法,把 “沿时间的加权求和期望” 改写成 “在加权访问分布下的期望”,对任意可积函数 f(s,a)f(s,a) 恒有

      Eτpϕ ⁣[t=0γtf(st,at)]=t=0γtE(st,at)pϕt ⁣[f(st,at)]=t=0γtE(s,a)pϕt ⁣[f(s,a)]=11γ E(s,a)dπϕ ⁣[f(s,a)],\begin{aligned} \mathbb{E}_{\tau\sim p_{\phi}}\!\left[\sum_{t=0}^{\infty}\gamma^t f(s_t,a_t)\right] &=\sum_{t=0}^{\infty} \gamma^{t}\, \mathbb{E}_{(s_t,a_t)\sim p_{\phi}^t}\!\left[f(s_t,a_t)\right] \\ &=\sum_{t=0}^{\infty} \gamma^{t}\, \mathbb{E}_{(s,a)\sim p_{\phi}^t}\!\left[f(s,a)\right] \\ &=\frac{1}{1-\gamma}\ \mathbb{E}_{(s,a)\sim d_{\pi_\phi}}\!\left[f(s,a)\right], \end{aligned}

      f(s,a)ϕlogπϕ(as)Qπϕ(s,a)f(s,a)\doteq \nabla_{\phi}\log \pi_{\phi}(a\mid s)\,Q_{\pi_\phi}(s,a) 代入上式,可得

      ϕJ(ϕ)=Eτpϕ ⁣[tγtϕlogπϕ(atst)Qπϕ(st,at)]=11γ E(s,a)dπϕ ⁣[Qπϕ(s,a)ϕlogπϕ(as)].\begin{aligned} \nabla_{\phi} J(\phi) &=\mathbb{E}_{\tau\sim p_{\phi}}\!\left[\sum_{t}\gamma^t\nabla_{\phi}\log \pi_{\phi}(a_t \mid s_t)\, Q_{\pi_\phi}(s_t,a_t)\right]\\ &=\frac{1}{1-\gamma}\ \mathbb{E}_{(s,a)\sim d_{\pi_\phi}}\!\left[Q_{\pi_\phi}(s,a)\nabla_{\phi}\log \pi_{\phi}(a \mid s)\right]. \end{aligned}

      忽略与 ϕ\phi 无关的常数因子 1/(1γ)1/(1-\gamma),得到常见的策略梯度定理写法

      ϕJ(ϕ)E(s,a)dπϕ ⁣[Qπϕ(s,a)ϕlogπϕ(as)].\nabla_{\phi} J(\phi)\propto \mathbb{E}_{(s,a)\sim d_{\pi_\phi}}\!\left[Q_{\pi_\phi}(s,a)\nabla_{\phi}\log \pi_{\phi}(a \mid s)\right].

  • 关于策略梯度定理的详细证明可以参考 RL 实践(5)—— 二维滚球环境【REINFORCE & Actor-Critic】

3 可微代理优化的内在机制

  • 为了简化分析,设被优化参数为 θ\theta,用多维高斯分布 pϕ(θ)=N(θμ,σ2I)p_\phi(\theta)=\mathcal{N}(\theta\mid \mu,\sigma^2 I) 作为代理分布,此时 ϕ={μ,σ}\phi = \{\mu,\sigma\},其中

    • 均值μ\mu代表了当前搜索的“重心”,算法会努力将 μ\mu 移动到回报更高的区域
    • 标准差σ\sigma是探索的体现σ\sigma 越大采样的策略越多样化,σ\sigma 越小策略越集中
  • 首先计算代理分布关于 σ\sigma 的偏导数。设参数维度为 dd,有

    p(θ)=(2πσ2)d/2exp(θμ22σ2)logp(θ)=d2log(2π)dlogσθμ22σ2p(\theta)=\left(2 \pi \sigma^{2}\right)^{-d / 2} \exp \left(-\frac{\|\theta-\mu\|^{2}}{2 \sigma^{2}}\right) \\ \log p(\theta)=-\frac{d}{2} \log (2 \pi)-d \log \sigma-\frac{\|\theta-\mu\|^{2}}{2 \sigma^{2}}

    对标量 σ\sigma 求导,得到

    σlogp(θ)=dσ+θμ2σ3\frac{\partial}{\partial \sigma} \log p(\theta)=-\frac{d}{\sigma}+\frac{\|\theta-\mu\|^{2}}{\sigma^{3}}

    通常使用重参数化方法对各向同性高斯分布进行采样,即 θ=μ+σϵ\theta=\mu+\sigma \epsilon,其中 ϵN(0,I)\epsilon \sim \mathcal{N}(0, I),用 θμ2=σ2ϵ2\|\theta-\mu\|^{2}=\sigma^{2}\|\epsilon\|^{2} 带入,有

    σlogp(θ)=dσ+σ2ϵ2σ3=ϵ2dσ\frac{\partial}{\partial \sigma} \log p(\theta)=-\frac{d}{\sigma}+\frac{\sigma^{2}\|\epsilon\|^{2}}{\sigma^{3}}=\frac{\|\epsilon\|^{2}-d}{\sigma}

  • 使用可微代理优化方法,得到的关于 σ\sigma 的梯度估计为

    σJ(ϕ)=Eθpϕ[(J(θ)b)σlogpϕ(θ)]1Ni=1Nϵi2dσ(Jib)\begin{aligned} \nabla_{\sigma} J(\phi) &=\mathbb{E}_{\theta \sim p_{\phi}}\left[(J(\theta)-b) \nabla_{\sigma} \log p_{\phi}(\theta)\right] \\ &\approx \frac{1}{N} \sum_{i=1}^{N} \frac{\left\|\epsilon_{i}\right\|^{2}-d}{\sigma} \left(J_{i}-b\right) \end{aligned}

    其中 JiJ_i 是第 ii 次采样策略的回报,bb 是回报的基线(通常是平均回报),ϵi\epsilon_i 是重参数化采样时引入的噪声。这个公式揭示了无梯度优化的内在机制:该类算法天生就倾向于在无法探索(落入局部最优)时缩小探索范围。

    • 当算法在局部最优附近获得正反馈时,算法会认为“当前重心附近已经能稳定获得较高回报”,于是倾向于收缩搜索分布、减少无谓的探索,在该区域进行更精细的局部搜索:通常靠近均值 μ\mu 的样本(即扰动幅度较小 ϵi2<d|\epsilon_i|^2<d)更容易保持可行性并获得更高回报,因此其优势项 (Jib)(J_i-b) 往往为正。此时梯度中的 “距离信号项” ϵi2dσ\frac{\left\|\epsilon_{i}\right\|^{2}-d}{\sigma} 为负,因此单个样本对 σJ(ϕ)\nabla_\sigma J(\phi) 的贡献 ϵi2dσ(Jib)\frac{|\epsilon_i|^2-d}{\sigma}(J_i-b) 为负,整体梯度倾向于推动 σ\sigma 减小
    • 当算法因过度探索受到惩罚时,算法将外部区域视为“高风险、低收益”的区域,因而通过收缩σ\sigma来降低采样到这些失败样本的概率,进一步固守当前相对安全的搜索半径:通常远离均值的样本(即扰动幅度较大 ϵi2>d|\epsilon_i|^2>d)更容易落入低回报区域,其回报低于基线使得 (Jib)(J_i-b) 通常为负。此时距离信号项 ϵi2dσ\frac{|\epsilon_i|^2-d}{\sigma} 为正,于是乘积 ϵi2dσ(Jib)\frac{|\epsilon_i|^2-d}{\sigma}(J_i-b) 仍为负,梯度依然倾向于推动 σ\sigma 减小
  • 综上所述,LLM+RL中出现的 “方差坍塌” 等熵相关现象,并非RL算法失灵,而是经典的 “探索不足导致陷入局部最优”。具体而言,策略梯度 RL 作为一类可微代理优化方法,其天然性质会导致以下现象:

    在这里插入图片描述
    1. 算法进入局部最优时出现方差坍塌:当 Agent 在策略空间中探索受困时,RL 会系统性地降低探索标准差,使策略分布锁定在当前模式上,体现为 LLM 输出熵崩溃,多样性下降
    2. pass@1 提升,但 pass@k 下降:当 Agent 在策略空间中探索受困时,RL 锁定在局部最优模式,使策略均值 μ\mu 精细地调整到这个 “小山丘” 的顶峰并缩小标准差 σ\sigma,采样到 “峰顶” 附近的概率增大,从而提升了 pass@1 指标。然而,这也导致模型更难采样到远离这个局部最优的更优解,导致 pass@k 下降
    3. 优化后的 pass@1 未超过基础模型的 pass@k:这揭示了局部最优解与全局最优解之间的鸿沟。RL 会系统性地推动模型深陷局部最优区域
  • 以上分析都是建立在多维高斯代理分布上的,实际的 LLM 作为代理分布会复杂很多,比如其分布往往是多峰而非单峰的,且 LLM 本质在进行条件生成,其探索强度也无法用类似方差的一个全局标量进行描述。尽管如此,以上分析的 “定性机制” 在很大范围内仍然成立。回顾梯度公式

    ϕJ=Expϕ[(f(x)b)ϕlogpϕ(x)]\nabla_{\phi} J=\mathbb{E}_{x \sim p_{\phi}}\left[(f(x)-b) \nabla_{\phi} \log p_{\phi}(x)\right]

    它表达的核心就是:高回报样本的 log-prob 被增大,低回报样本的 log-prob 被减小,只要策略更新本质上在做这件事,就会天然有一种 “把概率质量往少数高回报区域挤” 的趋势。REINFORCE、PPO 及其近似(GRPO 等)都是这个味道