Apr 19, 2025
推荐系统可以参考实时性, 个性化, 推荐方法, 数据源进行归纳.
Apr 16, 2025
变分自编码器(Variational Autoencoder, VAE)是一种基于神经网络的生成模型,结合了自编码器(Autoencoder)和变分推断(Variational Inference)的思想,旨在学习样本数据的潜在分布。
Apr 15, 2025
集合相似性算法是一种用于计算两个集合之间相似性的方法,它在数据处理和信息检索领域具有重要的应用价值, 特别在文本处理 (文本相似性), 推荐算法 (协同过滤), 生物信息学 (DNA相似性)有广泛的应用。
Apr 14, 2025
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的统计方法,用于评估一个词(或短语)在文档中的重要性. 它结合了两个指标: 词频 (Term Frequency, TF) 衡量一个词在文档中出现的频率, 逆文档频率 (Inverse Document Frequency, IDF) 衡量一个词在文档集合中的稀有性. TF-IDF 的核心思想是如果一个词在某个文档中出现的频率高, 但在其他文档中很少出现, 那么它对这个文档的区分能力更强.
Apr 11, 2025
词汇熵(Vocabulary Entropy)是信息论中的一个概念,用于衡量一个词汇分布的“不确定性”或“多样性”。它可以帮助我们了解词汇在某个语料库中的分布是否均匀。如果词汇分布非常均匀,熵值会较高;如果某些词汇出现得非常频繁,而其他词汇很少出现,熵值会较低。
Apr 11, 2025
Bidirectional 是一种神经网络的结构特性,表示网络在处理序列数据时,同时考虑正向和反向的上下文信息。这种结构通常用于循环神经网络(RNN)及其变体(如 LSTM 和 GRU)中,以提高模型对序列数据的理解能力。
Apr 11, 2025
KL散度(Kullback-Leibler Divergence)的非对称性意味着 $KL(P|Q)$ 和 $KL(Q|P)$ 的值通常是不同的。这种非对称性反映了 KL 散度的方向性,即它衡量的是从 $P$ 到 $Q$ 的“偏离”程度,而不是从 $Q$ 到 $P$ 的偏离程度。KL 散度的非对称性是其核心特性之一,这种特性使得它在衡量概率分布之间的差异时具有方向性。在实际应用中,这种非对称性需要特别注意,因为它会影响KL散度的解释和使用。
Apr 10, 2025
LDA于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出,因为模型的简单和有效,掀起了主题模型研究的波浪。LDA(Latent Dirichlet Allocation)主题分析是一种无监督的生成式模型,用于从大规模文本数据中挖掘潜在的主题结构。LDA假设每篇文档是由多个主题混合生成的,而每个主题又是一个词的概率分布。通过分析文档中的词频分布,LDA能够推断出文档的主题分布以及每个主题的关键词。LDA的核心在于其生成过程:文档先从一个Dirichlet分布中抽取主题比例,然后从每个主题中抽取词汇。LDA的无监督特性使其能够自动发现文本数据中的主题,而无需人工标注,广泛应用于文本挖掘、信息检索、推荐系统和学术分析等领域。其结果通常以概率分布的形式呈现,便于用户理解和解释。
Apr 9, 2025
随着移动互联网的飞速发展,人们已经处于一个信息过载的时代。在这个时代中,信息的生产者很难将信息呈现在对它们感兴趣的信息消费者面前,而对于信息消费者也很难从海量的信息中找到自己感兴趣的信息。推荐系统就是一个将信息生产者和信息消费者连接起来的桥梁。平台往往会作为推荐系统的载体,实现信息生产者和消费者之间信息的匹配。
Mar 31, 2025
TD(Temporal Difference)方法是一种强化学习中的值函数估计方法,结合了蒙特卡洛(Monte Carlo, MC)方法和动态规划(Dynamic Programming, DP)方法的特点。它的核心思想是通过比较当前时刻的奖励和未来的值函数估计来更新当前的值函数。
Mar 31, 2025
广义优势估计(Generalized Advantage Estimation, GAE)是一种用于强化学习中优势函数估计的方法。它的核心思想是通过时间差分误差 (TD Error)的加权和来估计优势函数,从而在偏差和方差之间找到平衡。
Mar 29, 2025
我提供了 McpAgent 以支持基于 MCP 协议的 tool call。以下是使用 McpAgent 接入 mcp.stdio_client 的简要入门。
Mar 27, 2025
在学习并实现强化学习算法中, 我发现累积奖励的计算通常是倒序计算的. 究其原因, 我明白了, 这么计算其实是一种递推算法, 也和其奖励折扣机制有关.
Mar 26, 2025
策略梯度算法(Policy Gradient, PG)是一类直接对策略进行优化的强化学习算法。其核心思想是通过梯度上升法来调整策略参数,使得策略在选择高奖励动作时的概率增加,从而最大化累积奖励。
Mar 26, 2025
价值函数 $Q^{\pi_{\theta}}(s_t, a_t)$ 是指在状态 $s_t$ 下执行动作 $a_t$ 后,根据策略 $\pi_{\theta}$ 继续行动所获得的期望累计奖励(累计奖励的期望)。虽然后续的轨迹尚未确定,但我们可以通过对所有可能的后续轨迹进行概率加权平均来计算这个期望值。
Mar 25, 2025
强化学习(Reinforcement Learning, RL)是一种机器学习方法,它使智能体能够在环境中通过试错的方式学习最优行为策略,以最大化累积奖励。
Mar 19, 2025
熵是衡量随机变量不确定性的指标,值越大表示不确定性越高;困惑度是基于熵的概念,用于衡量模型对数据的预测不确定性,值越大表示模型的预测越不准确。
Mar 14, 2025
强化学习入门与理论知识学习. 强化学习(Reinforcement Learning, RL)是机器学习的一个分支,它关注的是智能体(agent)如何在环境中采取行动以最大化某种累积奖励(reward)。与监督学习和无监督学习不同,强化学习不要求智能体有明确的训练数据,而是通过与环境的交互来学习最优的行为策略.