• 西班牙语入门学习 1: 字母与发音

    西班牙语属印欧语系罗曼语族,其语言根源可追溯至古罗马时期伊比利亚半岛的通俗拉丁语,后因卡斯蒂利亚王国的政治影响力扩大,当地的卡斯蒂利亚方言逐渐规范化,成为现代西班牙语的基础;作为全球使用人口超 5 亿的主要语言,它不仅是西班牙本土的官方语言,还广泛通行于墨西哥、阿根廷、哥伦比亚等拉丁美洲绝大多数国家(巴西等少数国家除外),此外在赤道几内亚、美国西南部 (南加州, 美墨边境) 及加勒比部分地区也有大量使用者,亦是联合国六大官方语言之一。从与法语、英语的渊源来看,它与法语同属罗曼语族,二者均直接衍生自拉丁语,共享名词阴阳性、动词变位等核心语法特征及众多同源词汇(如西班牙语 “casa”、法语 “maison” 均源自拉丁语 “casa”,意为 “房子”);与英语则存在双向词汇交流,英语从西班牙语借入 “taco”“siesta” 等词,西班牙语也吸收 “internet”“marketing” 等英语词汇,且二者在历史上均受日耳曼语系语言的少量影响(如英语受盎格鲁 - 撒克逊语影响更深,西班牙语则受西哥特语影响较浅). 以下是我初学西班牙语的第一篇博客, 主要讨论西班牙语字母与发音基础:
  • Prompt4py, 程序化提示词模板框架

    现有提示词模板多采用 “定义 - 渲染” 的一次性流程,模板结构(如角色、指令、约束)一旦定义,便形成固定框架。在需要动态调整提示逻辑的场景中(例如多轮对话中根据模型反馈逐步强化指令、或在复杂任务中分阶段解锁新要求),开发者往往需要重新定义整个模板或手动拼接字符串,难以实现 “模块化增量修改”. 例如,在一个知识问答任务中,若首轮提示未获取足够信息,需要追加 “请补充 XX 领域细节” 的指令,现有模板无法仅对 “INSTRUCTION” 部分进行增量更新,而需重新渲染包含新增指令的完整提示,既冗余又易出错. 而 Prompt4Py 是一个专为 Python 设计的程序化提示模板工具,旨在简化与大语言模型(LLM)交互时的提示工程流程。该项目通过提供结构化的模板定义方式,允许开发者以编程方式配置提示的角色、目标、指令、约束、上下文等核心要素,并支持动态变量替换与格式化输出,从而高效生成规范、一致的提示文本.
  • 基于 Stable Baselines3 和 Gymnasium 的强化学习 (PPO) 算法实践

    强化学习 (Reinforcement Learning, RL) 是机器学习的核心分支之一,核心逻辑是代理(Agent)在环境(Environment)中通过 “经验积累” 学习最优行为策略:代理通过执行动作与环境交互,环境会反馈 “奖励”(正向反馈,如达成目标)或 “惩罚”(负向反馈,如失败),代理则以 “最大化累积奖励” 为目标,不断调整行为,最终学会在特定场景下的最优决策方式. 它与监督学习(依赖标注数据)、无监督学习(挖掘数据内在规律)的核心区别在于:无预设 “正确答案”,仅通过环境反馈的 “奖励信号” 动态学习,更贴近人类 / 动物从经验中学习的过程. 为了实现 RL, 我选择了两个 SDK: Gymnasium 和 Stable Baselines3. Gymnasium 是一款开源 Python 库,主要用于强化学习环境的开发与算法性能对比。它的核心功能包括两方面:一是提供一套标准的 RL 环境 API(应用程序编程接口),实现代理与环境之间的通信交互;二是提供一组符合该 API 规范的标准环境集合. 而 Stable Baselines3(SB3)是基于 PyTorch 开发的一套可靠的强化学习算法实现集合, 其实现了 A2C DDPG TRPO PPO DQN 等经典算法, 可开箱即用并用于代理 RL 训练. 结合 Gymnasium 实现 RL 环境定义, 并结合 Stable Baselines3 的预定义算法, 我们可以实现深度强化学习的训练与评测.
  • 文本生成算法中, 采样与解码的基本原理: Top-K, Top-P, Temperature, Beam Search

    (Transformer) Decoder-Only 架构作为现今的主流因果语言模型架构, 其通过自回归的方式生成文本, 其中的每一步生成都是在从分词表大小的概率分布中采样下一 Token, 而如何采样下一 Token 则依赖 “解码策略” (Decoding Strategy), 不同的解码策略会显著影响生成序列的质量 多样性 以及连贯性, 因此选择合适而正确的解码策略至关重要. 本文深入探讨了 4 种常见的解码策略 (Top-K, Top-P, Temperature, Beam Search) 的算法原理.
  • 机器翻译技术调研: ByteDance-Seed/Seed-X-PPO-7B, 超越 Gemini-2.5-Pro 的开源翻译小模型背后的训练管线与技术细节

    字节跳动 Seed 团队针对文本翻译面临的复杂语言现象 (如俚语, 习语, 谚语, 网络用语等) 处理难题, 以及开源与闭源模型性能鸿沟、数据与训练效率矛盾三大核心问题,提出 7B 参数多语言翻译 LLM 家族 Seed-X。Seed 团队发现, 单语数据的质量与多样性、平行数据的多轮优化、以及翻译过程中的推理能力(CoT)是提升多语言翻译性能的关键;而自动评估指标(如 BLEURT)与人类判断存在偏差,所以需结合人类偏好与无参考对偶奖励(DuPO)评估翻译质量;多平行数据易导致模型过拟合,盲目扩大语言方向反而损害泛化能力。为了解决现有问题, Seed-X 提出了 4 个创新方法论: 包括 1. 设计 “通用→多语言主导→仅平行语料” 三阶段预训练,结合 6 万亿 token 高质量单语数据与迭代优化的双语数据,夯实多语言基础; 2. 将 Chain-of-Thought(CoT)推理融入翻译 SFT,让模型掌握复杂语言现象的语义解析与文化适配逻辑; 3. 提出人类偏好 + DuPO 对偶奖励的 RL 策略,解决翻译质量评估主观性问题; 4. 首次实现 7B 参数开源模型在自动与人类评估中比肩 GPT-4o、Gemini-2.5 等闭源超大规模模型,为开源翻译模型建立更高性能基线.
  • Paper 追踪: Where to show Demos in Your Prompt: A Positional Bias of In-Context Learning (上下文学习中示例在提示中的位置会影响生成性能)

    来自美国马里兰大学的一项研究揭示的 DPP 偏差 (Demo’s Position in Prompt bias) 表明: 在提示词中嵌入的示例(demos)其位置会显著影响大语言模型的生成性能与稳定性。具体而言,当示例在提示词中的位置(如位于系统提示或用户提示的开头、结尾)发生变化时,模型的准确率可能出现高达 20% 的波动,近半数的预测结果甚至会发生翻转,而这种影响并非由示例内容本身导致,纯粹源于位置差异,这一现象即被称为 DPP 偏差。这一发现揭示了大语言模型在上下文学习过程中对示例位置的敏感性,为提示词工程的优化提供了全新方向,即需将示例位置纳入提示词设计的核心考量因素,而非仅关注示例内容、顺序等传统要素。
  • Paper 追踪: Attention is NOT all you need: Pure Attention Loses Rank Doubly Exponentially with Depth (深层自注意力网络的灾难性秩退化)

    自 2017 年 Transformer 提出以来,基于自注意力机制的模型已成为自然语言处理(NLP)、计算机视觉(CV)、语音识别等领域的核心架构。其成功被广泛归因于自注意力对长距离依赖的建模能力,但学界对其内在工作机制的理解仍不充分。该 Paper 聚焦一个关键问题:纯自注意力网络(仅堆叠自注意力层,移除跳跃连接和 MLP)的表达能力为何会随深度急剧下降? 这一问题的本质是探索自注意力机制的 “归纳偏置”—— 即 Transformer 模型在没有外部约束(如跳跃连接、MLP)时,天然倾向于学习何种模式。此前相关研究多关注单个自注意力矩阵的秩特性或优化问题,而本文首次系统性分析了 “深层纯自注意力网络的输出是否会退化”,并试图解释:为何完整的 Transformer(含跳跃连接和 MLP)能避免这种退化?
  • 从 0 开始, 手搓一个 Transformer (Roformer) Encoder

    Transformer 架构凭借其强大的注意力机制 (Attention)[1],彻底改变了自然语言处理(NLP)领域的格局。与依赖序列顺序处理的 RNN 或受限于局部感受野的 CNN 不同,自注意力机制让模型能动态捕捉序列中任意位置的依赖关系,同时支持高效并行计算。本文将秉持 “从零开始” 的实践理念,逐步拆解 Transformer Encoder 的核心组件 —— 从自注意力机制的数学原理与代码实现,到位置编码(如 RoPE)如何注入序列位置信息,再到前馈神经网络的特征变换逻辑,最终手把手构建一个可运行的 Transformer Encoder,帮助读者深入理解这一经典架构的底层逻辑与工程实现细节.
  • LRU 缓存算法原理与实现

    缓存的本质是用有限空间存储高频访问的数据,减少对低速存储 (如磁盘、数据库) 或计算 (如自注意力$QK$投影计算) 的依赖. 但缓存空间有限,当新数据需要加入时,必须淘汰部分旧数据, 这就涉及缓存淘汰策略. 而 LRU (Least Recently Used) 缓存算法的核心是优先淘汰最近最少使用的数据,通过高效管理缓存空间,确保常用数据留存,提升系统性能。它在操作系统、数据库、Web 服务等场景中应用广泛,其巧妙之处在于平衡了缓存命中率与操作效率. LRU 的设计是基于一个假设: 时间局部性原理, 该假设认为, 如果一个数据最近被访问过,那么未来被访问的概率更高。反之,长期未被访问的数据,未来被用到的可能性低,优先淘汰.
  • 技术调研 DEBATE: Devil's Advocate-Based Assessment and Text Evaluation

    随着自然语言生成(NLG)模型的普及,系统地评估机器生成文本的质量变得日益重要。近期研究引入了基于大型语言模型(LLM)的评估器,它们作为无参考指标发挥作用,展现出熟练处理新任务的能力。然而,这些模型通常依赖单代理方法,我们认为这对其性能造成了固有的限制。这是因为 LLM 代理的响应中存在偏见,包括对特定文本结构或内容的偏好。在本研究中,研究者们提出了 DEBATE —— 一个基于多代理评分系统的 NLG 评估框架,该系统融入了 “魔鬼代言人” 的概念。在这个框架中,一个代理被赋予批评其他代理论点的任务,这有可能解决 LLM 代理回答中的偏见问题。DEBATE 在两个 NLG 元评估基准(SummEval 和 TopicalChat)上显著优于以往的最先进方法。我们还发现,代理之间辩论的充分性以及代理的角色特征会影响评估器的性能.
  • 论文精读 Re³: Generating Longer Stories With Recursive Reprompting and Revision

    自动文本生成的早期研究长期聚焦于相对较短的文本单元. 不论是机器翻译中的句子、问答系统中的答案,还是早期故事生成中的简短段落,其核心挑战主要围绕局部流畅性、语法正确性和语义准确性。然而,当生成目标从五句话或一两个段落 扩展到数千词的短篇小说时,问题的性质发生了根本性的变化. 随着文本长度的增加,一系列新的、更高层次的挑战浮出水面,其中最核心的便是全局连贯性: 一个由数千词构成的故事不再仅仅局限于每个句子或每个段落的流畅, 更需要关注的是这些局部单元如何共同构建一个有机统一的整体. 这包括一个贯穿全文的主线, 角色人设的内在逻辑, 世界观的一致性等, 如何让生成式模型在数千个时间步 (token) 跨度上保持对高级叙事结构的记忆和遵循, 这成为了当前 NLP 领域的重要难题…
  • 机器学习数学基础: 理解对数几率 (Logit 函数)

    在机器学习和概率统计学中,$logit$ 是一个与概率、逻辑回归密切相关的概念,其核心是将概率值映射到实数域,以便进行线性建模和数学运算. 在深度学习语境中, $logit$ 则通常指神经网络模型的输出. $logit$ 也称为对数几率, 是对二分类概率的一种变换, 用于将取值范围为 $[0, 1]$ 的概率 $p$ 映射到 $(- \infty, + \infty)$ 的实数域.
  • 技术调研 GROVE 框架: A Retrieval-augmented Complex Story Generation Framework with A Forest of Evidence

    现有条件故事生成(尤其是复杂情节生成)领域存在以下核心问题和挑战:1. 基于大语言模型(LLMs)的方法虽能生成流畅、符合指令的故事,但难以平衡情节复杂性与创造性。若通过详细提示强制控制情节,会限制故事的创造性;若提示过于简单,又无法生成复杂情节; 2. 现有研究多聚焦于提升可控性(如遵循结局、角色设定)和逻辑连贯性(如融入常识知识),但很少专门探索如何生成复杂情节。例如,基于 BART 或 GPT-2 的模型主要优化对细粒度指令的遵循,而常识知识融入方法侧重合理性,均未针对 “情节复杂性” 设计机制; 3. 现有 LLM 提示方法(如 ICL、CoT)多依赖手动选择的少样本示例,缺乏自动获取相关人类故事作为灵感的机制;且优化方式多为 “分步解构任务”(如先推理再生成),而非对完整故事进行迭代深化,难以挖掘深层背景信息; 4. 生成的故事常存在逻辑断层(如角色动机不明、情节突兀),但现有方法缺乏系统性机制来识别并补充这些模糊点,导致故事可信度和丰富度不足; 而 GROVE (检索增强证据森林故事生成) 框架针对上述问题, 提出了一套解决方案, 主要解决了 3 个问题: 1. 在不限制创造性的前提下,通过外部知识增强情节复杂性; 2. 自动识别并补充故事中的模糊点,提升叙事可信度; 3. 平衡 “遵循目标条件” 与 “拓展多元情节” 的矛盾;
  • 论文精读 STORYTELLER: An Enhanced Plot-Planning Framework for Coherent and Cohesive Story Generation

    自动故事生成是 NLP 技术的一个重要前沿,为创建个性化内容、探索创意和增强互动体验提供了新的可能性。然而,现有的故事生成方法难以保持叙述连贯性和逻辑一致性。这种脱节影响了整体的讲故事体验,强调了实质性改进的必要性。受人类认知过程的启发,研究团队引入了 Storyteller ,这是一种新颖的方法,可以系统地提高自动生成的故事的连贯性和一致性。 Storyteller 引入了一个基于语言学基础的主谓宾(SVO)三元组的情节节点结构,它捕捉了基本的故事事件,并确保了一致的逻辑流程。与以前的方法不同,Storyteller 集成了两个动态模块,故事线和叙事实体知识图(NEKG),它们与故事生成过程不断交互。这种整合产生了结构合理,有凝聚力和身临其境的叙述。大量的实验表明,Storyteller 显着优于现有的方法,实现了84.33%的平均胜率。
  • 深入理解 DPO: PPO 的对比学习平替

    DPO (Direct Preference Optimization,直接偏好优化) 是一种对比学习方法,其通过对每条提示提供两条不同的答案,并给出这两个答案的偏好偏序,让模型输出更接近优质答案,同时更远离劣质答案。其目标是提高优质答案相对于错误答案的相对对数概率。它利用成对的偏好数据集,通过一个巧妙的损失函数,直接调整大语言模型的概率分布,使其提高生成优质答案的概率,降低生成劣质答案的概率。这本质上是在进行一种隐式的奖励建模和优化。
  • 可控文本生成技术概述, 与 CTRL 方法论(模型)

    传统文本生成(如 GPT 系列)依赖大规模语料训练,生成内容具有随机性,难以满足工业级应用的精确需求。而可控文本生成(Controllable Text Generation)指通过预设约束条件或引导信号,使 AI 模型生成符合特定要求的文本内容。这些 “可控” 维度包括但不限于:主题(科技新闻, 医学报告等), 风格(正式或口语化, 幽默或严肃), 格式(诗歌, 电邮, 代码等), 语义属性(情感倾向, 信息量, 逻辑结构等).
  • 基于 LLM 的内容自动化 Tagging 实践

    在推荐算法和搜索引擎优化等应用场景中,为内容添加标签(Tagging)是一项重要的基础工作。传统的标签分配方式通常依赖人工标注或基于关键词匹配的简单算法,前者成本高、效率低,后者则难以理解内容的语义信息。随着大语言模型(LLM)的发展,利用其强大的语义理解能力进行内容标签自动分配成为可能。但是, 当前使用 LLM 解决自动 Tagging 问题时,存在生成标签与实际标签难以精确对应的局限性。例如在标签格式匹配层面,LLM 可能因对空格、大小写等细节处理不当导致无法精准匹配原标签 ID,如将 “Secret relationship” 标签生成为 “secretrelationship”,因缺失空格且未保留首字母大写,与系统中预设的标签格式存在差异;在符号或格式规范的遵循上,LLM 也可能未能严格按照原标签的既定格式生成,像 “Rebirth/Reborn” 标签可能被简化为 “Rebirth”,忽略了原标签中 “/” 符号的保留,这类细节偏差会直接影响标签匹配的准确性,导致自动 Tagging 结果与实际需求出现偏差, 进而导致自动 Tagging 服务在生产环境下的可用性风险。
  • 论文精读 LongStory: Coherent, Complete and Length Controlled Long story Generation

    在自然语言处理领域,长故事生成任务一直是极具挑战性的难题,尤其是长故事的生成。现有方法在处理长文本生成时暴露出诸多关键问题,具体可归纳为以下三个核心维度:1. 长度控制与上下文连贯性的矛盾: 现有语言模型受限于固定长度的上下文窗口,难以生成可变长度的故事。例如,Longformer 通过滑动窗口结合全局和局部注意力试图解决长序列处理问题,但其最大生成长度仅为 1,024 tokens;GPT-4 等大型语言模型虽扩展了上下文窗口,但实际输出长度仍局限于几千 tokens。为突破这一限制,递归段落生成成为必然选择,但该过程存在严重的信息泄漏风险,导致前后段落连贯性下降。例如,递归生成中模型可能遗忘前文关键信息,出现情节断裂或逻辑矛盾。2. 故事完整性的缺失: 完整性指故事能够以恰当方式收尾的能力,这是现有模型普遍缺乏的关键能力。多数研究仅关注连贯性和重复率等指标,如 Plotmachine 通过动态情节状态跟踪生成故事,但未将完整性纳入评估体系。然而,完整性不仅是故事生成的核心质量指标,还对开放域生成和对话系统任务具有重要意义。现有模型在递归生成时往往陷入无限延续或突然结束,无法根据故事长度动态调整结构以实现自然收尾。3. 重复率与多样性的平衡难题: 递归生成场景下,语言模型倾向于重复相同内容,导致故事多样性不足。例如,Re3 等模型通过递归提示和修订生成较长故事,但未专门设计机制控制重复率,依赖固定训练数据集的模型(如 Plotmachine、EtriCA)在生成超出训练长度的故事时,重复问题尤为突出。传统评估指标(如 ROUGE、BLEU)基于 n-gram 匹配,无法有效衡量故事的创造性和多样性,亟需针对性的评估方法和解决方案。4. 现有方案的局限性: 现有方法主要分为两类:一类基于提示工程(如 GPT-3 的 prompt 调整),但无法优化模型内部结构;另一类采用递归生成(如 Plotmachine),但依赖固定段落数或简单结构标记(如、<body>、),难以应对数百至数万 tokens 的超长文本生成需求。此外,现有模型普遍缺乏对故事结构位置的精细化建模,无法有效区分不同段落(如开头、中间、结尾)的功能差异,导致长故事结构松散、层次不清。
  • 1
  • 2