LLMs 凭借大规模参数可编码海量知识, 在各类任务中表现优异, 但存在两大核心局限: 1. 知识固化与更新困难, 参数化知识无法实时跟进世界变化, 且针对特定领域的知识不足, 通过后训练更新知识的成本极高; 2. 知识溯源和可解释性差, LLM 生成内容的知识来源不明, 无法追溯具体文本片段, 不利于需要可信度验证的场景. 为解决上述问题, 检索增强语言模型 (RALMs) 成为一个重要的研究方向, 而 RAPTOR (Recursive Abstractive Processing for Tree-Organized Retrieval)是一种基于递归树结构的检索增强框架, 其核心贡献在于用 “递归聚类 - 摘要 - 树结构” 重构了长文本的检索范式,从 “单粒度短块检索” 升级为 “多尺度语义检索”,解决了传统 RALMs 无法整合长文档语篇结构的技术难点.

Paper: RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval

RALMs 的研究背景

RALMs 的发展围绕着检索器(Retriever), 阅读器(Reader), 端到端训练三大组件展开, 关键进展如下:

组件 核心技术演进 代表工作
检索器 从传统 term 匹配(TF-IDF、BM25)转向深度学习密集检索(Dense Retrieval) DPR (Dense Passage Retrieval)$^{[1]}$、ColBERT (Context Late Interaction)$^{[2]}$、SBERT (句子级嵌入)$^{[3]}$
阅读器 从单块处理转向多块融合,提升长文本理解能力 FiD (Fusion-in-Decoder,独立编码多块后融合)$^{[5]}$、RETRO (跨块注意力+块级检索)$^{[5]}$
端到端训练 联合优化检索器与阅读器,减少组件间误差传递 RAG(Retrieval-Augmented Generation)、Atlas(编码器-解码器 + 检索器联合微调)$^{[6]}$、REALM (掩码LM微调检索)$^{[7]}$
分层检索 尝试通过文档-段落两级检索提升效率,但未解决语义关联问题 DHR (Dense Hierarchical Retrieval)$^{[8]}$、HHR (Hybrid Hierarchical Retrieval)$^{[9]}$
递归摘要 用递归摘要捕捉长文本主题,但依赖相邻块分组,忽略远距离语义关联 Wu et al. (2021) (递归摘要书籍)$^{[10]}$、LlamaIndex (保留中间节点但按相邻块分组)$^{[11]}$

RALMs 已有研究的局限性

尽管 RALMs 已取得显著进展,传统方案仍存在长文档多尺度信息整合能力不足的关键痛点,具体表现为:

  1. 检索单元局限: 短连续块无法捕捉语篇结构

    传统检索仅获取短且连续的文本块, 无法整合长文档中分散的语义关联, 例如面对主题型问题如 “灰姑娘如何获得幸福结局?”, 需整合 “仙女教母帮助 -> 参加舞会 -> 丢失水晶鞋 -> 王子寻找 -> 最终团聚” 等多片段信息, 而单块信息只能覆盖其中某一环节, 导致 LLM 无法形成完整推理链.

  2. 语义分割缺陷: 连续分组忽略远距关联

    现有分层检索或递归摘要方案多基于文本位置相邻性分组 (如按章节、段落顺序)$^{[10]}$,而非语义相似度, 可能将语义相关但位置遥远的块(如同一主题的不同章节内容)拆分到不同组,导致摘要丢失全局主题. 连续分割可能切断句子级语义连贯性(如将一个完整事件拆分为两个块),导致检索片段上下文缺失,甚至产生误导(如技术文档中仅检索到结论而无前提假设).

  3. 长上下文模型的性能瓶颈: 部分 LLM(如 LongT5、Longformer)支持超长上下文(如 16k+ token),但存在两大问题:

    1. 性能衰减: 随着上下文长度增加,模型对远距离信息的利用率显著下降$^{[8]}$,尤其当关键信息嵌入长文本中时,推理准确率骤降.

    2. 成本过高: 长上下文处理的计算复杂度(时间、显存)呈线性甚至超线性增长,无法大规模应用于海量长文档(如书籍、论文库).

RAPTOR 算法

RAPTOR 的核心思路是通过递归聚类 - 摘要 - 嵌入构建多尺度树结构,将长文档编码为 “叶子节点(细粒度文本块)→中间节点(局部摘要)→根节点(全局主题)” 的分层表示, 在推理时灵活检索不同抽象程度的节点, 从而解决短块检索的局限性. 具体创新如下:

  1. 递归构建树:

    RAPTOR 的树结构构建分为叶子节点初始化 -> 递归聚类 - 摘要 - 嵌入 -> 达成终止条件三步, 核心是语义驱动的分组, 而非位置驱动的分组.

    1. 叶子节点初始化: 将 corpus 分割为 100 token 左右的块(确保句子完整性,不截断句子),用 SBERT(multi-qa-mpnet-base-cos-v1)生成每个块的密集嵌入,形成树的叶子节点(每个叶子 = 文本块 + 嵌入).

    2. 递归聚类 - 摘要 - 嵌入: 这是 RAPTOR 的核心策略

      1. 降维与软聚类: 用 UMAP (Uniform Manifold Approximation and Projection) 降低嵌入维度, 解决高维空间距离度量失效的问题; 再用高斯混合模型 (GMM) 软聚类, 允许一个节点属于多个簇, 实现一个语句适配多主题.

      2. 聚类数优化: 用贝叶斯信息准则 (BIC) 选择最优聚类数, 以平衡 “簇内语义一致性” 与 “模型复杂度”, 避免过聚类或欠聚类.

      3. 簇摘要生成: 对每个簇的文本块, 引用 GPT-3.5-Turbo 生成摘要.

      4. 父节点嵌入: 用 SBERT 对簇摘要生成嵌入, 作为上一层父节点, 重复上述过程直到无法聚类 (通常形成 3-5 层树)

    3. 达成终止条件: 当某一层节点数过少, 或簇的文本长度超过 LLM 窗口限制, 停止递归, 最顶层节点即根节点.

  2. 灵活的查询策略:

    RAPTOR 设计了两种查询策略, 通过多尺度节点联合检索解决传统单块检索的局限 |策略|核心逻辑|优势| |–|–|–| 树遍历, Tree Traversal|从根节点开始,逐层计算节点与 query 的余弦相似度,选择 top-k 节点并向下遍历其子节点,直到叶子节点,最终拼接所有选中节点文本。|先全局后局部, 确保主题一致性 折叠树, Collapsed Tree|将所有层节点 “扁平化” 为单一集合,计算所有节点与 query 的相似度,按相似度排序选择节点,直到总 token 数达到模型上下文限制(如 GPT-4 用 2000 token,UnifiedQA 用 400 token)。|灵活选择最优粒度,避免固定层比例

    实验表明,折叠树策略性能更优(如 QASPER 数据集上 2000 token 折叠树的 F1 比树遍历高 5%-10%),因为其可根据 query 自动选择 “高抽象度节点(主题)” 或 “低抽象度节点(细节)”,而无需固定层间比例。

  3. 聚类机制创新:

    1. 软聚类: 不同于 K-Means 硬分配, 允许节点属于多个簇, 充分考虑文本的多主题特性.

    2. UMAP 降维 + 两级聚类: 先通过 UMAP 将高维嵌入 (如 768 维) 降维到低维空间 (如 50 维), 再全局聚类 -> 局部聚类, 确保不同尺度的语义关联不丢.

    3. 动态簇大小控制: 若局部簇的文本长度超过 LLM 摘要 token 限制(如 GPT-3.5-turbo 的上下文),则递归对该簇再次聚类,确保摘要质量.

实验

RAPTOR 的实验围绕是否比传统检索更优, 是否超越现有 SOTA, 以及树结构的有效性三大目标展开,覆盖 3 个典型长文本 QA 数据集、3 种主流 LLM,验证了其在多场景下的优势.

  • 测试集:

    数据集 文本类型 任务形式 核心挑战 评价指标
    NarrativeQA 书籍与电影 自由文本问答 整合整本书的多片段信息 ROUGE-L, BLEU-1/4, METEOR
    QASPER NLP 论文 抽取式问答 跨章节整合学术内容 Answer F1
    QuALITY 中等长度文本 多选择问答 长文本中的细粒度推理 准确率
  • 基线:

    • 检索器: SBERT (句子级密集检索), BM25 (传统 Term 匹配), DPR (段落级密集检索)

    • LLM 阅读器: UnifiedQA-3B (开源 QA 专用模型), GPT-3 (闭源中等规模模型), GPT-4 (闭源大型模型)

    • SOTA 基线: CoLT5 XL (长文本 Transformer), CoLISA (对比学习多选择 QA), 递归书籍摘要$^{[10]}$

所有实验确保检索上下文 Token 数一致, 排除上下文长度差异对性能的影响. RAPTOR 与基线共享相同的检索器, 单独验证树结构的增益.

核心实验结果如下:

  • RAPTOR 对传统检索的增益: SBERT+RAPTOR 的 ROUGE-L 达 30.87%,比 SBERT 无 RAPTOR(29.26%)高 1.61%;DPR+RAPTOR 的 METEOR 达 19.05%,比 DPR 无 RAPTOR(18.44%)高 0.61%; SBERT+RAPTOR 的 Answer F1 达 36.70%,比 SBERT 无 RAPTOR(36.23%)高 0.47%;BM25+RAPTOR 比 BM25 无 RAPTOR 高 0.53%; SBERT+RAPTOR 的准确率达 56.6%,比 SBERT 无 RAPTOR(54.9%)高 1.7%;DPR+RAPTOR 比 DPR 无 RAPTOR 高 1.6%; RAPTOR 与任何检索器结合,均能显著提升性能,验证了树结构的有效性.

  • RAPTOR 在不同模型上的通用性: RAPTOR 在开源(UnifiedQA)、闭源(GPT-3、GPT-4)模型上均表现优异,且模型规模越大,增益越明显.

    数据集 LLM 检索器 F1/准确率 RAPTOR 增益 (对比 DPR)
    QASPER GPT-4 RAPTOR 55.7% +2.7%
    QASPER GPT-3 RAPTOR 53.1% +1.8%
    QASPER UnifiedQA RAPTOR 36.6% +4.5%
    QASPER GPT-3 RAPTOR 62.4% +2.0%
    QASPER UnifiedQA RAPTOR 56.6% +2.7%

此外, 团队还进行了消融实验以验证各模块的有效性:

  • 聚类机制消融: 对比 “RAPTOR 语义聚类” 与 “相邻块分组(Recency-based Tree)”,前者在 QuALITY 的准确率达 56.6%,后者为 55.8%,验证语义聚类更能捕捉关联.

  • 分层贡献分析: 全树检索(所有层)比单一层检索性能高 10%-15%(如 QuALITY Story 1 中,3 层检索准确率 73.68%,单层检索最高 57.9%);且非叶节点贡献显著(如 NarrativeQA 中 DPR 检索 57.36% 的节点来自非叶层),证明多尺度信息的价值.

参考文献

[1] Vladimir Karpukhin, Barlas Oğuz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, Wen-tau Yih. Dense Passage Retrieval for Open-Domain Question Answering. arXiv preprint, 2020.

[2] Omar Khattab, Matei Zaharia. ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT. arXiv preprint, 2020.

[3] Nils Reimers, Iryna Gurevych. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv preprint, 2019.

[4] Gautier Izacard, Edouard Grave. Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics, 2021.

[5] Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George van den Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego de Las Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack W. Rae, Erich Elsen, Laurent Sifre. Improving language models by retrieving from trillions of tokens. arXiv preprint, 2022.

[6] Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, Edouard Grave. Atlas: Few-shot Learning with Retrieval Augmented Language Models. arXiv preprint, 2022.

[7] Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, Ming-Wei Chang. REALM: Retrieval-Augmented Language Model Pre-Training. arXiv preprint, 2020.

[8] Ye Liu, Kazuma Hashimoto, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Philip S. Yu. Dense Hierarchical Retrieval for Open-Domain Question Answering. arXiv preprint, 2021.

[9] Manoj Ghuhan Arivazhagan, Lan Liu, Peng Qi, Xinchi Chen, William Yang Wang, Zhiheng Huang. Hybrid Hierarchical Retrieval for Open-Domain Question Answering. Findings of the Association for Computational Linguistics, 2023.

[10] Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nisan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano. Recursively Summarizing Books with Human Feedback. arXiv preprint, 2021.

[11] Liu et al. LlamaIndex. Github, 2022.