阿里通义等提出Chronos：慢思考RAG技术助力新闻时间线总结

在数字化时代，新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战，阿里巴巴通义实验室与上海交通大学的中断者提出了一种基于Agent的新闻时间线摘要新框架——C

魔搭ModelScope社区

331人浏览 · 2025-02-05 19:22:23

魔搭ModelScope社区 · 2025-02-05 19:22:23 发布

00.背景

论文：

https://arxiv.org/abs/2501.00888

Github：

https://github.com/Alibaba-NLP/CHRONOS

演示：

https://modelscope.cn/studios/vickywu1022/CHRONOS

在数字化时代，新闻信息的指数级增长使得从海量文本中提取和整理历史事件的时间线变得至关重要。为了应对这一挑战，阿里巴巴通义实验室与上海交通大学的中断者提出了一种基于Agent的新闻时间线摘要新框架——CH RONOS，源自希腊神话中的时间之神柯罗诺斯，该框架通过迭代多轮的自我提问方式，结合检索增强生成技术，从互联网上检索相关事件信息，并生成时间顺序的新闻摘要，为新闻时间线摘要生成提供了一种全新的解决方案。

例如，对于新闻“国足1-0巴林”，CHRONOS能够汇总海量新闻，呈现事件的来龙去脉。

https://live.csdn.net/v/461808

对于覆盖时间更长的新闻“中国探月工程”，CHRONOS也能聚焦焦点事件，呈现时间线发展，使用户能够一目了然。

以下是论文内容的详细介绍：

01.任务介绍

时间线总结（Timeline Summarization，TLS）任务是一个自然语言处理领域的经典技术挑战，它的目的是从大量文本数据中提取关键事件，并按顺序排列，提供针对某一主题或领域历史发展的格式报表。例如，在新闻领域，时间线总结可以帮助用户快速了解一个新闻的来龙去脉。该任务不仅要求识别出重要的事件，还需要理解事件之间的时间和因果关系，从而生成一个连贯、丰富的时间线摘要。

根据可搜索事件的来源，可以将TLS任务阐释为封闭域（close-domain）和开放域（open-domain）两个设定：在封闭域TLS任务中，时间线是从一组预定义的、与特定主题或领域相关的新闻文章中创建的，而开放域指TLS互联网上直接搜索和检索新闻文章来生成时间线的过程。过去的工作主要集中于解决封闭域上时间线生成问题，而开放域TLS则需要强大的信息搜索和筛选能力，以及在没有全局观点的情况下识别和事件之间建立联系的能力，为此任务提出了新的要求和挑战。

02.CHRONOS方法

为了应对上述挑战，研究团队提出了CHRONOS框架，通过迭代提问进行相关事件搜索，生成准确、有效全面的时间线摘要，能够地解决开放域和封闭域两个设定下的TLS任务。

1. 动机

时间线生成的核心存在于建立事件之间的时间和因果关系。每个新闻事件都可以被表示为一个不同的节点，任务的目标是建立这些节点之间的边，以展示它们的相关性，并最终形成一个独立图，从主题新闻的节点形成一个开始。因此，通过一个检索机制来检索的新闻文章，可以有效建立这些相关边、事件之间的联系。

2. 概述

CHRONOS利用大模型的能力，通过模拟人类信息检索的过程，即通过提出问题、基于检索结果进一步提出新的问题，最终收集有关相关事件的全面信息并总结为时间线。

添加图片注释，不超过 140 字（可选）

CHRONOS包括以下几个模块：

自我提问（Self-Questioning）：首先搜索粗略的新闻背景信息，然后迭代地提出问题，以搜索更多相关新闻。
问题改写（Question Rewriting）：将复杂或表现不佳的问题分解为更具体、更容易检索的查询。
时间线生成（Timeline Generation）：通过合并每一轮检索生成的时间线来总结一个突出重要事件的时间线

3. 自我询问

3.1 粒度分布

在自我提问的初级阶段，CHRONOS使用目标新闻的标题作为自我进行搜索，以收集与目标新闻最直接相关的信息。这些信息构成了新闻背景（News Context），为提问者打下初步基础。

3.2 问答示例选择

在粗粒度背景调研之后，CHRONOS 利用大模型的上下文学习能力，通过小型样本提示来指导模型生成有关目标新闻的问题。

为了评估问题样本质量，引入了相关信息量（Chrono-Informativeness，CI）的概念，用于缓解模型提出的问题检索与参考时间线分区事件的能力，即高CI值的问题更有可能引导检索到与目标新闻事件相关的文章的，用检索生成的时间线和参考时间线中包含日期的F1分数进行格式化。

基于问题集相邻信息量的目标，构建一个“新闻问题”的样本池，用于指导新目标新闻的问题生成。对于每一个新的目标新闻，通过余弦相似性动态搜索与目标新闻最相似的样本，确保样本的血管相关性和时间信息的准确性。

3.3 迭代询问

CHRONOS通过连续迭代思考，逐步深入探索事件的细节。每一轮迭代都基于前一轮的搜索结果，以发现新的问题和信息，直到满足时间线中事件数量或达到最大迭代次数。

3.4 问题改写

改写（查询重写）是检索增强生成中常用的优化方法。在CHRONOS框架中，我们通过对初始提问阶段产生的宽泛或复杂问题改写为2-3个更容易检索的子问题，能够生成更具体、更进一步的查询，从而提高搜索引擎的检索效果。我们同样在提示中加入少量样本，指导大模型进行有效改写，将复杂转化为更具体的查询，同时保持问题的原始查询。

3.5 时间线生成

CHRONOS通过两阶段生成完整的时间线汇总：生成（Generation）和合并（Merging）。

生成：通过分析每一轮检索到的新闻文章来识别关键事件和详细信息。利用大模型的理解和生成能力，提取每个事件的发生日期和相关细节，并为每个事件撰写简洁的描述。这些事件和描述被组织成概要的时间线，按照时间顺序排列，为后续的同步阶段提供基础。
合并：将多轮检索生成的初步时间线整合成一个连贯的最终摘要。这个过程涉及寻找不同时间线上的事件、解决任何日期或描述上的冲突，并选择最重要和重要性的事件。

03.开放传输层安全协议

为了评估 TLS 系统，研究团队收集了由专业作者撰写的关于近期新闻事件的线索，构建了一个名为 Open-TLS 的新数据集。与封闭的以往域的数据集相比，Open-TLS 不仅在数据集规模和内容上更加多样化，覆盖政治、经济、社会、体育和科学技术等多个领域，而且在时效性上更具优势，为开放域 TLS 任务提供了一个更全面和更紧密时间的基础。

04.实验结果

1.实验设定

实验基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分别构建CHRONOS系统，体育开放域和封闭域两个设定下TLS的性能表现。使用的评估指标主要有：

具体：（1）Concat F1：通过将所有日期摘要连接起来计算ROUGE，以评估整体的一致性；（2）同意F1：仅使用匹配日期的摘要计算ROUGE，以评估特定日期的准确性；（3）Align F1：在计算ROUGE之前，先根据近似性和最新接近性对预测摘要和参考摘要进行一致性，评估后期的一致性。
Date F1：缓慢生成时间线中日期与参考时间线中真实日期匹配程度。

2. 开放域TLS

在开放域 TLS 的实验中，CHRONOS 与几个基线方法进行了比较，包括直接搜索目标新闻（DIRECT）和重写目标新闻以创建检索查询（REWRITE）。相比之下，CHRONOS 通过迭代自我提问和搜索文章相关新闻的方法，显着提高了事件总结的质量和日期记录的准确性，在所有指标上都参考了相关方法。

3. 封闭域TLS

在封闭域TLS的实验中，CHRONOS与该标志性工作进行了比较，包括：（1）基于事件聚合方法的CLUST（Gholipour Ghalandari and. Ifrim, 2020）；（2）基于事件图模型EGC（Li et al., 2021）和（3）利用大模型事件进行地震的LLM-TLS（Hu et al., 2024）。在Crisis和T17这两个经典数据集上的比较结果显示，CHRONOS达到了与这些工作类似的表现，在两个数据集的AR-2指标上取得了SOTA效果，证明了其在不同类型事件和时间跨度上的强大性能和预期。

4.运行时间分析

CHRONOS的另一个优势体现在效率方面。与同样基于大模型、但需要处理新闻库中所有文章的LLM-TLS方法相比，它通过搜索增强机制关注最相关的文章，显着减少了处理时间。这种效率的提升设置在实际应用中更加实用，尤其是在需要快速响应的场景中。

05.案例研究

深入分析模型在处理具体新闻事件时的表现，通过选择典型的新闻事件，如苹果公司的重大产品发布，能够观察CHRONOS如何通过浅入深的自我思考和信息检索来生成时间线。在案例研究中，CHRONOS展示了其能够准确提取关键事件和日期的能力，同时也揭示了在某些情况下可能需要改进的地方，例如对某些事件的遗漏或日期幻觉。

06.结语

CHRONOS框架通过结合大型语言模型的迭代自我思考和检索增强生成技术，为时间线汇总任务提供了一种新颖且有效的解决方案。这种方法的核心在于模拟人类的信息检索过程，通过不断地提出和回答新问题来逐步深入理解事件，最终生成一个全面且连贯的时间线摘要。

实验结果已经充分证明了CHRONOS在复杂事件搜索和构建时间线方面的能力，展示了该框架在实际新闻时间线生成应用中的应用潜力和准确性。同时，这种迭代思考的搜索生成方法是否泛化到通用任务上的能力也值得未来进一步研究。

参考：

[1] Demian Gholipour Ghalandari 和 Georgiana Ifrim。2020 年。研究新闻时间线摘要的最新进展。在计算语言学协会第 58 届年会论文集，第 1322-1334 页，在线。计算语言学协会。

[2] Manling Li、Tengfei Ma、Mo Yu、Lingfei Wu、Tian Gao、Heng Ji 和 Kathleen McKeown。2021 年。基于时间感知最优传输的事件图压缩的时间线摘要。2021 年自然语言处理经验方法会议论文集，第 6443–6456 页，在线和多米尼加共和国蓬塔卡纳。计算语言学协会。

[3] Qisheng Hu、Geonsik Moon 和 Hwee Tou Ng。2024 年。从时刻到里程碑：利用大型语言模型的增量时间线摘要。第 62 届计算语言学协会年会论文集（第 1 卷：长篇论文），第 7232–7246 页，泰国曼谷。计算语言学协会。

点击链接阅读原文，即可体验~新闻时间线生成

欢迎加入ModelScope魔搭中文开源社区

ModelScope旨在打造下一代开源的模型即服务共享平台，为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品，让模型应用更简单！

更多推荐

MiniMax-M1开源：支持百万级上下文窗口的混合MoE推理模型！

01.前言 MiniMax最新发布了全球首个开源大规模混合架构的推理模型——MiniMax-M1！ M1在面向生产力的复杂工作场景，包括软件工程、长上下文与工具使用上表现优异，超过国内的闭源模型，接近海外的最领先模型，同时又有业内最高的性价比。 M1支持目前业内最高的100万上下文的输入，与Gemini 2.5 Pro 一致，以及业内最长的8万Token的推理输出，长于Gemini 2.5的 6