广义优势估计(Generalized Advantage Estimation, GAE)是一种用于强化学习中优势函数估计的方法。它的核心思想是通过时间差分误差 (TD Error)的加权和来估计优势函数,从而在偏差和方差之间找到平衡。

数学表示

\[A^{GAE}_t = \sum^{\infty}_{l=0}(\gamma \lambda)^l\delta_{t+l}\]

其中:

  • $\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ 是 TD 残差, 表示即时奖励和值函数估计的差异

  • $\gamma$ 是折扣因子, 用于控制未来回报的权重

  • $\lambda$ 是 GAE 的衰减系数, 用于平衡短期与长期偏差

  • $A^{GAE}_t$ 是时间步 $t$ 的广义优势估计

GAE 的递推形式如下:

\[A^{GAE}_t = \delta_t + (\gamma \lambda) \cdot A^{GAE}_{t+1}\]

通过调整超参数 $\lambda$, GAE 可以在以下两种情况中找到平衡:

  • 当 $\lambda = 0$ 时, GAE 退化为单步 TD 估计

  • 当 $\lambda = 1$ 时, GAE 退化为 Monte Carlo 估计