大型语言模型与文本摘要
- 基于大型语言模型的抽取式摘要
- 基于大型语言模型的零样本跨语言摘要
- 基于大型语言模型的问答式摘要
- 通过摘要任务评估大型语言模型的事实一致性
- 基于大型语言模型的摘要事实一致性评估器
- 未来方向
- 大型语言模型的自我偏好
- 基于大型语言模型生成提示
- 基于大型语言模型的文本编辑
基于大型语言模型的抽取式摘要
Extractive Summarization via ChatGPT for Faithful Summary Generation
抽取式摘要是自然语言处理中的一项重要任务,它旨在通过直接提取句子将长文档压缩成更短的版本。最近引入的ChatGPT由于其在广泛的下游任务上的卓越性能而引起了NLP社区的极大兴趣。然而,对事实性和可靠性的担忧阻碍了其在摘要系统中的实际应用。本文首先全面评估了ChatGPT在提取摘要上的性能,并将其与传统的微调方法在各种基准数据集上进行了比较。我们的实验分析表明,ChatGPT的提取摘要性能在ROUGE分数方面仍然不如现有的监督系统。此外,我们还探讨了上下文学习和思维链推理在提高其性能方面的有效性。此外,我们发现使用ChatGPT的提取-生成管道在摘要忠实度方面比抽象基线产生了显著的性能改进。这些观察结果突出了使用两阶段方法增强ChatGPT忠实文本摘要任务能力的潜在方向。
基于大型语言模型的零样本跨语言摘要
Zero-Shot Cross-Lingual Summarization via Large Language Models
给定源语言的文档,跨语言摘要(CLS)旨在生成不同目标语言的摘要。近年来,诸如GPT-3.5、ChatGPT和GPT-4等大型语言模型(Large Language Models, LLM)的出现引起了计算语言学界的广泛关注。然而,LLM在CLS上的性能尚不清楚。在本报告中,我们经验性地使用各种提示来指导法学硕士从不同的范式(即端到端和管道)执行零样本CLS,并对生成的摘要进行初步评估。我们发现ChatGPT和GPT-4最初倾向于生成带有详细信息的冗长摘要。这两个LLM可以在交互式提示的帮助下进一步平衡信息和简明性,显著提高其CLS性能。在三个广泛使用的CLS数据集上的实验结果表明,GPT-4达到了最先进的零样本呢CLS性能,与经过微调的mBART-50相比具有竞争力。此外,我们还发现一些多语言和双语LLM(即BLOOMZ, ChatGLM-6B, Vicuna-13B和ChatYuan)具有有限的零样本CLS能力。由于CLS的复合性质,要求模型同时进行摘要和翻译,因此以零样本的方式完成这项任务对LLM来说甚至是一个挑战。因此,我们真诚地希望并建议未来的LLM研究可以使用CLS作为测试平台。
基于大型语言模型的问答式摘要
Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization
几十年来,文本摘要一直是自然语言处理(NLP)中的一个关键问题。它旨在将冗长的文档压缩成更短的版本,同时保留最重要的信息。人们提出了多种文本摘要方法,包括抽取摘要和抽象摘要。像GPT3和ChatGPT这样的大型语言模型(llm)的出现最近引起了人们对使用这些模型进行文本摘要任务的极大兴趣。近期研究(Goyal et al., 2022; Zhang et al., 2023)已经表明法学硕士生成的新闻摘要已经与人类相当。然而,法学硕士在更实际的应用(如基于方面或基于查询的摘要)中的性能还没有得到充分的研究。为了填补这一空白,我们在四个广泛使用的基准数据集上对ChatGPT的性能进行了评估,这些数据集包括来自Reddit帖子、新闻文章、对话会议和故事的不同摘要。我们的实验表明,在Rouge分数方面,ChatGPT的性能与传统的微调方法相当。此外,我们强调了ChatGPT生成的摘要和人类参考文献之间的一些独特差异,为ChatGPT在各种文本摘要任务中的超级能力提供了有价值的见解。我们的研究结果为这一领域提出了新的方向,我们计划进行进一步的研究,通过广泛的人类评估来系统地检查chatgpt生成的摘要的特征。
通过摘要任务评估大型语言模型的事实一致性
Evaluating the Factual Consistency of Large Language Models Through Summarization
虽然大型语言模型(LLM)已被证明对各种各样的任务都是有效的,但它们也会产生幻觉信息。为了衡量LLM是否更喜欢其输入的事实一致的延续,我们提出了一个新的基准,称为FIB(事实不一致基准),它专注于总结任务。具体来说,我们的基准测试涉及比较LLM分配给输入新闻文章的事实一致的摘要和事实不一致的摘要的分数。对于事实一致的摘要,我们使用人工编写的参考摘要,我们手动验证这些摘要是否与事实一致。为了生成事实不一致的摘要,我们从一组我们手工标注为事实不一致的摘要模型中生成摘要。然后,根据模型的准确性来衡量模型的事实一致性,即它为事实一致的摘要分配更高分数的文档比例。为了验证FIB的有效性,我们评估了来自6个不同模型族(包括BLOOM和OPT)的23个大型语言模型,从1B到176B参数不等。我们发现,现有的法学硕士通常给事实一致的摘要比事实不一致的摘要分配更高的分数。然而,如果在文档中逐字出现事实不一致的摘要,那么llm会给这些事实不一致的摘要分配比事实一致的摘要更高的分数。我们在基准测试中验证了设计选择,包括评分方法和干扰摘要的来源。我们的代码和基准数据可以在https://github.com/r-three/fib上找到。
基于大型语言模型的摘要事实一致性评估器
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization
预训练的语言模型大大提高了文本摘要的性能。现有方法的一个主要问题是,大多数生成的摘要实际上与它们的源文档并不一致。为了缓解这个问题,许多努力都集中在基于自然语言推理、问答和句法依赖等开发有效的事实性评估指标上。然而,这些方法受到高计算复杂度或多组件管道引入的不确定性的限制,导致仅部分符合人类的判断。近年来,大型语言模型(LLM)不仅在文本生成方面表现出色,而且在语言理解方面也表现出色。在本文中,我们通过在粗粒度和细粒度评估任务(包括二进制蕴意推理、摘要排名和一致性评级)上检查ChatGPT在零射击设置下评估事实不一致性的能力。实验结果表明,ChatGPT总体上优于之前的评估指标,表明其在事实不一致性评估方面具有很大的潜力。然而,仔细检查ChatGPT的输出就会发现某些限制,包括它对词汇更相似的候选项的偏好、错误的推理以及对指令的理解不足。
未来方向
大型语言模型的自我偏好
大型语言模型倾向于给模型生成的事实不一致的摘要分配更高的分数,也即更偏好自身生成的摘要。
基于大型语言模型生成提示
例如对摘要进行评估,提出修改意见。DailyMail上的新闻进行摘要,并提出修改Prompt。
基于大型语言模型的文本编辑
利用大型语言模型对其他模型生成的文本针对性地进行编辑,以满足用户特定的需求。