• 广义优势估计方法 (GAE)

    广义优势估计(Generalized Advantage Estimation, GAE)是一种用于强化学习中优势函数估计的方法。它的核心思想是通过时间差分误差 (TD Error)的加权和来估计优势函数,从而在偏差和方差之间找到平衡。
  • Autono: MCP 兼容性更新

    我提供了 McpAgent 以支持基于 MCP 协议的 tool call。以下是使用 McpAgent 接入 mcp.stdio_client 的简要入门。
  • RL中的奖励折扣机制

    在学习并实现强化学习算法中, 我发现累积奖励的计算通常是倒序计算的. 究其原因, 我明白了, 这么计算其实是一种递推算法, 也和其奖励折扣机制有关.
  • 现代强化学习-策略梯度算法学习

    策略梯度算法(Policy Gradient, PG)是一类直接对策略进行优化的强化学习算法。其核心思想是通过梯度上升法来调整策略参数,使得策略在选择高奖励动作时的概率增加,从而最大化累积奖励。
  • 强化学习中, 价值函数和优势函数分别是什么?

    价值函数 $Q^{\pi_{\theta}}(s_t, a_t)$ 是指在状态 $s_t$ 下执行动作 $a_t$ 后,根据策略 $\pi_{\theta}$ 继续行动所获得的期望累计奖励(累计奖励的期望)。虽然后续的轨迹尚未确定,但我们可以通过对所有可能的后续轨迹进行概率加权平均来计算这个期望值。
  • 强化学习发展史

    强化学习(Reinforcement Learning, RL)是一种机器学习方法,它使智能体能够在环境中通过试错的方式学习最优行为策略,以最大化累积奖励。
  • 困惑度和熵

    熵是衡量随机变量不确定性的指标,值越大表示不确定性越高;困惑度是基于熵的概念,用于衡量模型对数据的预测不确定性,值越大表示模型的预测越不准确。
  • 深入强化学习算法

    强化学习入门与理论知识学习. 强化学习(Reinforcement Learning, RL)是机器学习的一个分支,它关注的是智能体(agent)如何在环境中采取行动以最大化某种累积奖励(reward)。与监督学习和无监督学习不同,强化学习不要求智能体有明确的训练数据,而是通过与环境的交互来学习最优的行为策略.
  • 分类任务中的投票算法

    在分类任务中,投票算法结合多个模型的预测结果来提高整体分类性能。其核心思想是利用“集体智慧”,将多个弱模型组合成一个强模型,从而提升分类的准确性和鲁棒性:投票算法属于集成学习(Ensemble Learning)的一种,通过将多个不同的分类器(或模型)组合起来,对同一个问题进行预测,并通过某种投票机制汇总这些模型的预测结果,最终得出一个统一的预测类别。
  • 大模型权重量化学习笔记

    大模型量化技术是一种用于优化深度学习模型的技术,通过降低模型参数和激活值的精度,将高精度的浮点数(如32位浮点数FP32)转换为低精度的表示形式(如8位整数INT8或4位整数INT4),从而减少模型的存储需求和计算复杂度.
  • Autono: A ReAct-Based Highly Robust Autonomous Agent Framework

    An ultra-lightweight autonomous agent framework based on the ReAct paradigm. MCP is currently supported. How to use McpAgent.
  • 深度学习-梯度不稳定-学习笔记

    梯度不稳定
  • 词嵌入模型(Embedding Model)是什么

    Embedding 是机器学习领域中的一个概念,主要用于将高维的数据嵌入到低维空间,以便于算法更好地处理和理解数据。通常用于将离散的、高维的特征转换为连续的、低维的向量表示
  • MINI XCEPTION 模型学习

    From 《Real-time Convolutional Neural Networks for Emotion and Gender Classification》 by Oscar Arrigapoulos in 2017
  • 学习布隆过滤器

    布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多,缺点是有一定的误识别率和删除困难。
  • 1
  • 2