Apr 11, 2025
KL散度(Kullback-Leibler Divergence)的非对称性意味着 $KL(P|Q)$ 和 $KL(Q|P)$ 的值通常是不同的。这种非对称性反映了 KL 散度的方向性,即它衡量的是从 $P$ 到 $Q$ 的“偏离”程度,而不是从 $Q$ 到 $P$ 的偏离程度。KL 散度的非对称性是其核心特性之一,这种特性使得它在衡量概率分布之间的差异时具有方向性。在实际应用中,这种非对称性需要特别注意,因为它会影响KL散度的解释和使用。
Apr 10, 2025
LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出,因为模型的简单和有效,掀起了主题模型研究的波浪。LDA(Latent Dirichlet Allocation)主题分析是一种无监督的生成式模型,用于从大规模文本数据中挖掘潜在的主题结构。LDA假设每篇文档是由多个主题混合生成的,而每个主题又是一个词的概率分布。通过分析文档中的词频分布,LDA能够推断出文档的主题分布以及每个主题的关键词。LDA的核心在于其生成过程:文档先从一个Dirichlet分布中抽取主题比例,然后从每个主题中抽取词汇。LDA的无监督特性使其能够自动发现文本数据中的主题,而无需人工标注,广泛应用于文本挖掘、信息检索、推荐系统和学术分析等领域。其结果通常以概率分布的形式呈现,便于用户理解和解释。
Apr 9, 2025
随着移动互联网的飞速发展,人们已经处于一个信息过载的时代。在这个时代中,信息的生产者很难将信息呈现在对它们感兴趣的信息消费者面前,而对于信息消费者也很难从海量的信息中找到自己感兴趣的信息。推荐系统就是一个将信息生产者和信息消费者连接起来的桥梁。平台往往会作为推荐系统的载体,实现信息生产者和消费者之间信息的匹配。
Mar 31, 2025
TD(Temporal Difference)方法是一种强化学习中的值函数估计方法,结合了蒙特卡洛(Monte Carlo, MC)方法和动态规划(Dynamic Programming, DP)方法的特点。它的核心思想是通过比较当前时刻的奖励和未来的值函数估计来更新当前的值函数。
Mar 31, 2025
广义优势估计(Generalized Advantage Estimation, GAE)是一种用于强化学习中优势函数估计的方法。它的核心思想是通过时间差分误差 (TD Error)的加权和来估计优势函数,从而在偏差和方差之间找到平衡。
Mar 29, 2025
我提供了 McpAgent 以支持基于 MCP 协议的 tool call。以下是使用 McpAgent 接入 mcp.stdio_client 的简要入门。
Mar 27, 2025
在学习并实现强化学习算法中, 我发现累积奖励的计算通常是倒序计算的. 究其原因, 我明白了, 这么计算其实是一种递推算法, 也和其奖励折扣机制有关.
Mar 26, 2025
策略梯度算法(Policy Gradient, PG)是一类直接对策略进行优化的强化学习算法。其核心思想是通过梯度上升法来调整策略参数,使得策略在选择高奖励动作时的概率增加,从而最大化累积奖励。
Mar 26, 2025
价值函数 $Q^{\pi_{\theta}}(s_t, a_t)$ 是指在状态 $s_t$ 下执行动作 $a_t$ 后,根据策略 $\pi_{\theta}$ 继续行动所获得的期望累计奖励(累计奖励的期望)。虽然后续的轨迹尚未确定,但我们可以通过对所有可能的后续轨迹进行概率加权平均来计算这个期望值。
Mar 25, 2025
强化学习(Reinforcement Learning, RL)是一种机器学习方法,它使智能体能够在环境中通过试错的方式学习最优行为策略,以最大化累积奖励。
Mar 19, 2025
熵是衡量随机变量不确定性的指标,值越大表示不确定性越高;困惑度是基于熵的概念,用于衡量模型对数据的预测不确定性,值越大表示模型的预测越不准确。
Mar 14, 2025
强化学习入门与理论知识学习. 强化学习(Reinforcement Learning, RL)是机器学习的一个分支,它关注的是智能体(agent)如何在环境中采取行动以最大化某种累积奖励(reward)。与监督学习和无监督学习不同,强化学习不要求智能体有明确的训练数据,而是通过与环境的交互来学习最优的行为策略.
Mar 3, 2025
在分类任务中,投票算法结合多个模型的预测结果来提高整体分类性能。其核心思想是利用“集体智慧”,将多个弱模型组合成一个强模型,从而提升分类的准确性和鲁棒性:投票算法属于集成学习(Ensemble Learning)的一种,通过将多个不同的分类器(或模型)组合起来,对同一个问题进行预测,并通过某种投票机制汇总这些模型的预测结果,最终得出一个统一的预测类别。
Feb 24, 2025
大模型量化技术是一种用于优化深度学习模型的技术,通过降低模型参数和激活值的精度,将高精度的浮点数(如32位浮点数FP32)转换为低精度的表示形式(如8位整数INT8或4位整数INT4),从而减少模型的存储需求和计算复杂度.
Oct 25, 2024
An ultra-lightweight autonomous agent framework based on the ReAct paradigm.
MCP is currently supported. How to use McpAgent.
Sep 27, 2024
梯度不稳定
Sep 23, 2024
Embedding 是机器学习领域中的一个概念,主要用于将高维的数据嵌入到低维空间,以便于算法更好地处理和理解数据。通常用于将离散的、高维的特征转换为连续的、低维的向量表示
Aug 5, 2024
From 《Real-time Convolutional Neural Networks for Emotion and Gender Classification》 by Oscar Arrigapoulos in 2017