时序差分方法 (TD)

TD（Temporal Difference）方法是一种强化学习中的值函数估计方法，结合了蒙特卡洛（Monte Carlo, MC）方法和动态规划（Dynamic Programming, DP）方法的特点。它的核心思想是通过比较当前时刻的奖励和未来的值函数估计来更新当前的值函数。

原理

TD 方法的关键在于 TD 残差（TD Error），它表示当前时刻的奖励与未来值函数估计之间的差异。通过 TD 残差，TD 方法能够在不等待完整回合结束的情况下逐步更新值函数，从而在偏差和方差之间找到平衡。

\[\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)\]

其中:

TD 方法中价值函数更新计算如下:

\[V(s_t) = V(s_t) + \alpha \delta_t\]

其中: