Jul 9, 2025
自动故事生成是 NLP 技术的一个重要前沿,为创建个性化内容、探索创意和增强互动体验提供了新的可能性。然而,现有的故事生成方法难以保持叙述连贯性和逻辑一致性。这种脱节影响了整体的讲故事体验,强调了实质性改进的必要性。受人类认知过程的启发,研究团队引入了 Storyteller ,这是一种新颖的方法,可以系统地提高自动生成的故事的连贯性和一致性。 Storyteller 引入了一个基于语言学基础的主谓宾(SVO)三元组的情节节点结构,它捕捉了基本的故事事件,并确保了一致的逻辑流程。与以前的方法不同,Storyteller 集成了两个动态模块,故事线和叙事实体知识图(NEKG),它们与故事生成过程不断交互。这种整合产生了结构合理,有凝聚力和身临其境的叙述。大量的实验表明,Storyteller 显着优于现有的方法,实现了84.33%的平均胜率。
Jul 2, 2025
DPO (Direct Preference Optimization,直接偏好优化) 是一种对比学习方法,其通过对每条提示提供两条不同的答案,并给出这两个答案的偏好偏序,让模型输出更接近优质答案,同时更远离劣质答案。其目标是提高优质答案相对于错误答案的相对对数概率。它利用成对的偏好数据集,通过一个巧妙的损失函数,直接调整大语言模型的概率分布,使其提高生成优质答案的概率,降低生成劣质答案的概率。这本质上是在进行一种隐式的奖励建模和优化。
Jun 12, 2025
传统文本生成(如 GPT 系列)依赖大规模语料训练,生成内容具有随机性,难以满足工业级应用的精确需求。而可控文本生成(Controllable Text Generation)指通过预设约束条件或引导信号,使 AI 模型生成符合特定要求的文本内容。这些 “可控” 维度包括但不限于:主题(科技新闻, 医学报告等), 风格(正式或口语化, 幽默或严肃), 格式(诗歌, 电邮, 代码等), 语义属性(情感倾向, 信息量, 逻辑结构等).
Jun 7, 2025
在推荐算法和搜索引擎优化等应用场景中,为内容添加标签(Tagging)是一项重要的基础工作。传统的标签分配方式通常依赖人工标注或基于关键词匹配的简单算法,前者成本高、效率低,后者则难以理解内容的语义信息。随着大语言模型(LLM)的发展,利用其强大的语义理解能力进行内容标签自动分配成为可能。但是, 当前使用 LLM 解决自动 Tagging 问题时,存在生成标签与实际标签难以精确对应的局限性。例如在标签格式匹配层面,LLM 可能因对空格、大小写等细节处理不当导致无法精准匹配原标签 ID,如将 “Secret relationship” 标签生成为 “secretrelationship”,因缺失空格且未保留首字母大写,与系统中预设的标签格式存在差异;在符号或格式规范的遵循上,LLM 也可能未能严格按照原标签的既定格式生成,像 “Rebirth/Reborn” 标签可能被简化为 “Rebirth”,忽略了原标签中 “/” 符号的保留,这类细节偏差会直接影响标签匹配的准确性,导致自动 Tagging 结果与实际需求出现偏差, 进而导致自动 Tagging 服务在生产环境下的可用性风险。
Jun 4, 2025
在自然语言处理领域,长故事生成任务一直是极具挑战性的难题,尤其是长故事的生成。现有方法在处理长文本生成时暴露出诸多关键问题,具体可归纳为以下三个核心维度:1. 长度控制与上下文连贯性的矛盾: 现有语言模型受限于固定长度的上下文窗口,难以生成可变长度的故事。例如,Longformer 通过滑动窗口结合全局和局部注意力试图解决长序列处理问题,但其最大生成长度仅为 1,024 tokens;GPT-4 等大型语言模型虽扩展了上下文窗口,但实际输出长度仍局限于几千 tokens。为突破这一限制,递归段落生成成为必然选择,但该过程存在严重的信息泄漏风险,导致前后段落连贯性下降。例如,递归生成中模型可能遗忘前文关键信息,出现情节断裂或逻辑矛盾。2. 故事完整性的缺失: 完整性指故事能够以恰当方式收尾的能力,这是现有模型普遍缺乏的关键能力。多数研究仅关注连贯性和重复率等指标,如 Plotmachine 通过动态情节状态跟踪生成故事,但未将完整性纳入评估体系。然而,完整性不仅是故事生成的核心质量指标,还对开放域生成和对话系统任务具有重要意义。现有模型在递归生成时往往陷入无限延续或突然结束,无法根据故事长度动态调整结构以实现自然收尾。3. 重复率与多样性的平衡难题: 递归生成场景下,语言模型倾向于重复相同内容,导致故事多样性不足。例如,Re3 等模型通过递归提示和修订生成较长故事,但未专门设计机制控制重复率,依赖固定训练数据集的模型(如 Plotmachine、EtriCA)在生成超出训练长度的故事时,重复问题尤为突出。传统评估指标(如 ROUGE、BLEU)基于 n-gram 匹配,无法有效衡量故事的创造性和多样性,亟需针对性的评估方法和解决方案。4. 现有方案的局限性: 现有方法主要分为两类:一类基于提示工程(如 GPT-3 的 prompt 调整),但无法优化模型内部结构;另一类采用递归生成(如 Plotmachine),但依赖固定段落数或简单结构标记(如、<body>、),难以应对数百至数万 tokens 的超长文本生成需求。此外,现有模型普遍缺乏对故事结构位置的精细化建模,无法有效区分不同段落(如开头、中间、结尾)的功能差异,导致长故事结构松散、层次不清。
May 22, 2025
旋转位置编码(Rotary Position Embedding, RoPE)是一种新颖的位置编码方法,旨在更有效地将位置信息集成到 Transformer 模型中。它通过旋转查询(Query)和键(Key)向量来注入绝对位置信息,同时巧妙地在自注意力机制中实现了相对位置编码。RoPE 最初由 Jianlin Su 等人在论文 RoFormer: Enhanced Transformer with Rotary Position Embedding 中提出。文中详细阐述了 RoPE 的数学原理、实现方式以及其在各种自然语言处理任务中的优势。
May 8, 2025
深度学习模型,凭借其强大的特征学习和复杂模式识别能力,在诸多领域取得了显著成就。然而,这些模型的复杂性也使其在训练数据量不足或噪声干扰较大时,极易出现过拟合(Overfitting)现象。过拟合指的是模型在训练集上表现优异,但在未见过的测试集上性能显著下降,这表明模型学习到了训练数据中的噪声和特有模式,而非普适的规律。为了缓解过拟合,提升模型的泛化能力,正则化(Regularization)技术应运而生。正则化通过向模型的损失函数中引入额外的惩罚项,对模型的复杂度进行约束,引导模型学习更简单、更平滑的参数。在众多正则化方法中,L1 范数正则化(Lasso 回归)、L2 范数正则化(Ridge 回归)以及它们的组合 Elastic Net 正则化,是最为经典和广泛应用的权重正则化技术
Apr 30, 2025
BERT(Bidirectional Encoder Representations from Transformers)是一种基于 Transformer 的深度学习模型,由 Google 于 2018 年提出。其核心优势在于使用双向上下文来预训练模型,能够更好地理解和捕捉句子中的语境信息,从而在多种自然语言处理任务中取得了卓越的性能。与之前的模型不同,BERT 表示在所有层中都共同基于左右上下文,这使得它能够在处理输入序列时同时考虑到所有位置的上下文信息。
Apr 26, 2025
对比学习是一种无监督学习方法,其旨在习得一个嵌入空间。通过对正样本对(相似样本)和负样本对(不相似样本)的对比,使模型学习到数据的特征表示。其核心思想是将相似样本在特征空间中拉近,将不相似样本推远,从而让模型能够更好地理解和表示数据。这种方式无需依赖大量标注数据,能够有效利用数据的内在结构进行学习。对比学习在图像识别、自然语言处理、推荐系统等领域都有广泛应用,如提升图像分类的准确率、提高文本语义理解的深度以及优化推荐算法的精准度等。
Apr 22, 2025
逻辑回归(Logistic Regression)是一种用于解决二分类问题的统计模型,在机器学习中应用广泛。其核心思想是通过寻找一个合适的决策边界,将不同类别数据分开。逻辑回归模型的假设函数是 sigmoid 函数。Sigmoid 函数的表达式是 $\sigma(z) = \frac{1}{1 + e^{-z}}$, 其中 $z$ 是逻辑回归的线性组合部分 (即 $z=\theta^T x$, $\theta$ 是模型参数, $x$ 是输入特征). 这个函数具有独特的 $S$ 型曲线特征, 其输出值的范围被限制在 $(0, 1)$. 当 $z$ 趋向正无穷时, $\sigma(z)$ 趋近于 1; 当 $z$ 趋向负无穷时, $\sigma(z)$ 趋近于 0; 当 $z=0$ 时, $\sigma(z) = 0.5$. 这种性质使得它能够将线性回归的输出映射为概率值, 从而实现对样本类别的估计.
Apr 21, 2025
线性回归模型是数学/统计学/机器学习中的一类十分基础且重要的模型, 利用线性回归模型, 可以从一组输入变量 $x$ 的线性组合中计算输出变量 $y$.
Apr 20, 2025
皮亚诺公理是数学中用于定义自然数的五条公理,由意大利数学家朱塞佩·皮亚诺提出。它描述了自然数的性质和结构,为自然数的运算和推理奠定了基础。
Apr 19, 2025
推荐系统可以参考实时性, 个性化, 推荐方法, 数据源进行归纳.
Apr 16, 2025
变分自编码器(Variational Autoencoder, VAE)是一种基于神经网络的生成模型,结合了自编码器(Autoencoder)和变分推断(Variational Inference)的思想,旨在学习样本数据的潜在分布。
Apr 15, 2025
集合相似性算法是一种用于计算两个集合之间相似性的方法,它在数据处理和信息检索领域具有重要的应用价值, 特别在文本处理 (文本相似性), 推荐算法 (协同过滤), 生物信息学 (DNA相似性)有广泛的应用。
Apr 14, 2025
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的统计方法,用于评估一个词(或短语)在文档中的重要性. 它结合了两个指标: 词频 (Term Frequency, TF) 衡量一个词在文档中出现的频率, 逆文档频率 (Inverse Document Frequency, IDF) 衡量一个词在文档集合中的稀有性. TF-IDF 的核心思想是如果一个词在某个文档中出现的频率高, 但在其他文档中很少出现, 那么它对这个文档的区分能力更强.
Apr 11, 2025
词汇熵(Vocabulary Entropy)是信息论中的一个概念,用于衡量一个词汇分布的“不确定性”或“多样性”。它可以帮助我们了解词汇在某个语料库中的分布是否均匀。如果词汇分布非常均匀,熵值会较高;如果某些词汇出现得非常频繁,而其他词汇很少出现,熵值会较低。
Apr 11, 2025
Bidirectional 是一种神经网络的结构特性,表示网络在处理序列数据时,同时考虑正向和反向的上下文信息。这种结构通常用于循环神经网络(RNN)及其变体(如 LSTM 和 GRU)中,以提高模型对序列数据的理解能力。