• 时序差分方法 (TD)

    TD(Temporal Difference)方法是一种强化学习中的值函数估计方法,结合了蒙特卡洛(Monte Carlo, MC)方法和动态规划(Dynamic Programming, DP)方法的特点。它的核心思想是通过比较当前时刻的奖励和未来的值函数估计来更新当前的值函数。
  • 广义优势估计方法 (GAE)

    广义优势估计(Generalized Advantage Estimation, GAE)是一种用于强化学习中优势函数估计的方法。它的核心思想是通过时间差分误差 (TD Error)的加权和来估计优势函数,从而在偏差和方差之间找到平衡。
  • ceo-py: MCP 兼容性更新

    我提供了 McpAgent 以支持基于 MCP 协议的 tool call。以下是使用 McpAgent 接入 mcp.stdio_client 的简要入门。
  • RL中的奖励折扣机制

    在学习并实现强化学习算法中, 我发现累积奖励的计算通常是倒序计算的. 究其原因, 我明白了, 这么计算其实是一种递推算法, 也和其奖励折扣机制有关.
  • 现代强化学习-策略梯度算法学习

    策略梯度算法(Policy Gradient, PG)是一类直接对策略进行优化的强化学习算法。其核心思想是通过梯度上升法来调整策略参数,使得策略在选择高奖励动作时的概率增加,从而最大化累积奖励。
  • 强化学习中, 价值函数和优势函数分别是什么?

    价值函数 $Q^{\pi_{\theta}}(s_t, a_t)$ 是指在状态 $s_t$ 下执行动作 $a_t$ 后,根据策略 $\pi_{\theta}$ 继续行动所获得的期望累计奖励(累计奖励的期望)。虽然后续的轨迹尚未确定,但我们可以通过对所有可能的后续轨迹进行概率加权平均来计算这个期望值。
  • 强化学习发展史

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它使智能体能够在环境中通过试错的方式学习最优行为策略,以最大化累积奖励。
  • 困惑度和熵

    熵是衡量随机变量不确定性的指标,值越大表示不确定性越高;困惑度是基于熵的概念,用于衡量模型对数据的预测不确定性,值越大表示模型的预测越不准确。
  • 1
  • 2