2025
-
» 西班牙语入门学习 1: 字母与发音
-
» Prompt4py, 程序化提示词模板框架
-
» 基于 Stable Baselines3 和 Gymnasium 的强化学习 (PPO) 算法实践
-
» 文本生成算法中, 采样与解码的基本原理: Top-K, Top-P, Temperature, Beam Search
-
» 机器翻译技术调研: ByteDance-Seed/Seed-X-PPO-7B, 超越 Gemini-2.5-Pro 的开源翻译小模型背后的训练管线与技术细节
-
» Paper 追踪: Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning (上下文学习中示例在提示中的位置会影响生成性能)
-
» Paper 追踪: Attention is NOT all you need: Pure Attention Loses Rank Doubly Exponentially with Depth (深层自注意力网络的灾难性秩退化)
-
» 从 0 开始, 手搓一个 Transformer (Roformer) Encoder
-
» LRU 缓存算法原理与实现
-
» 技术调研 DEBATE: Devil's Advocate-Based Assessment and Text Evaluation
-
» 论文精读 Re³: Generating Longer Stories With Recursive Reprompting and Revision
-
» 机器学习数学基础: 理解对数几率 (Logit 函数)
-
» 技术调研 GROVE 框架: A Retrieval-augmented Complex Story Generation Framework with A Forest of Evidence
-
» 论文精读 STORYTELLER: An Enhanced Plot-Planning Framework for Coherent and Cohesive Story Generation
-
» 深入理解 DPO: PPO 的对比学习平替
-
» 可控文本生成技术概述, 与 CTRL 方法论(模型)
-
» 基于 LLM 的内容自动化 Tagging 实践
-
» 论文精读 LongStory: Coherent, Complete and Length Controlled Long story Generation
-
» 旋转位置编码 (RoPE), 原理与应用
-
» 深度学习中的权重正则化方法: Lasso/Ridge/ElasticNet
-
» 深入理解 BERT, 并基于 BERT 实现 NLU
-
» 深入对比学习,机器是如何学习到信息的向量表示的?
-
» 深入逻辑回归模型
-
» 深入线性回归模型, 最小二乘法和梯度下降法求解
-
» 皮亚诺公理 (Peano's Axioms)
-
» 推荐系统的不同类型-Overview
-
» VAE, 变分自编码器
-
» 基于集合的相似性度量算法
-
» 词频-逆文档频率(TF-IDF)的计算
-
» 计算词汇熵(基于词汇的信息熵)
-
» 序列模型中什么是 Bidirectional
-
» KL 散度的非对称性质
-
» 基于潜在狄利克雷分配算法(LDA)实现长文档主题建模
-
» 什么是推荐系统 (1)
-
» 时序差分方法 (TD)
-
» 广义优势估计方法 (GAE)
-
» Autono: MCP 兼容性更新
-
» RL中的奖励折扣机制
-
» 现代强化学习-策略梯度算法学习
-
» 强化学习中, 价值函数和优势函数分别是什么?
-
» 强化学习发展史
-
» 困惑度和熵
-
» 深入强化学习算法
-
» 分类任务中的投票算法
-
» 大模型权重量化学习笔记
Top ⇈
2024
Top ⇈