大型语言模型与文本摘要

大型语言模型与文本摘要

  • 基于大型语言模型的抽取式摘要
  • 基于大型语言模型的零样本跨语言摘要
  • 基于大型语言模型的问答式摘要
  • 通过摘要任务评估大型语言模型的事实一致性
  • 基于大型语言模型的摘要事实一致性评估器
  • 未来方向
    • 大型语言模型的自我偏好
    • 基于大型语言模型生成提示
    • 基于大型语言模型的文本编辑

基于大型语言模型的抽取式摘要

Extractive Summarization via ChatGPT for Faithful Summary Generation

抽取式摘要是自然语言处理中的一项重要任务,它旨在通过直接提取句子将长文档压缩成更短的版本。最近引入的ChatGPT由于其在广泛的下游任务上的卓越性能而引起了NLP社区的极大兴趣。然而,对事实性和可靠性的担忧阻碍了其在摘要系统中的实际应用。本文首先全面评估了ChatGPT在提取摘要上的性能,并将其与传统的微调方法在各种基准数据集上进行了比较。我们的实验分析表明,ChatGPT的提取摘要性能在ROUGE分数方面仍然不如现有的监督系统。此外,我们还探讨了上下文学习和思维链推理在提高其性能方面的有效性。此外,我们发现使用ChatGPT的提取-生成管道在摘要忠实度方面比抽象基线产生了显著的性能改进。这些观察结果突出了使用两阶段方法增强ChatGPT忠实文本摘要任务能力的潜在方向。

基于大型语言模型的零样本跨语言摘要

Zero-Shot Cross-Lingual Summarization via Large Language Models

给定源语言的文档,跨语言摘要(CLS)旨在生成不同目标语言的摘要。近年来,诸如GPT-3.5、ChatGPT和GPT-4等大型语言模型(Large Language Models, LLM)的出现引起了计算语言学界的广泛关注。然而,LLM在CLS上的性能尚不清楚。在本报告中,我们经验性地使用各种提示来指导法学硕士从不同的范式(即端到端和管道)执行零样本CLS,并对生成的摘要进行初步评估。我们发现ChatGPT和GPT-4最初倾向于生成带有详细信息的冗长摘要。这两个LLM可以在交互式提示的帮助下进一步平衡信息和简明性,显著提高其CLS性能。在三个广泛使用的CLS数据集上的实验结果表明,GPT-4达到了最先进的零样本呢CLS性能,与经过微调的mBART-50相比具有竞争力。此外,我们还发现一些多语言和双语LLM(即BLOOMZ, ChatGLM-6B, Vicuna-13B和ChatYuan)具有有限的零样本CLS能力。由于CLS的复合性质,要求模型同时进行摘要和翻译,因此以零样本的方式完成这项任务对LLM来说甚至是一个挑战。因此,我们真诚地希望并建议未来的LLM研究可以使用CLS作为测试平台。

在这里插入图片描述

基于大型语言模型的问答式摘要

Exploring the Limits of ChatGPT for Query or Aspect-based Text Summarization

几十年来,文本摘要一直是自然语言处理(NLP)中的一个关键问题。它旨在将冗长的文档压缩成更短的版本,同时保留最重要的信息。人们提出了多种文本摘要方法,包括抽取摘要和抽象摘要。像GPT3和ChatGPT这样的大型语言模型(llm)的出现最近引起了人们对使用这些模型进行文本摘要任务的极大兴趣。近期研究(Goyal et al., 2022; Zhang et al., 2023)已经表明法学硕士生成的新闻摘要已经与人类相当。然而,法学硕士在更实际的应用(如基于方面或基于查询的摘要)中的性能还没有得到充分的研究。为了填补这一空白,我们在四个广泛使用的基准数据集上对ChatGPT的性能进行了评估,这些数据集包括来自Reddit帖子、新闻文章、对话会议和故事的不同摘要。我们的实验表明,在Rouge分数方面,ChatGPT的性能与传统的微调方法相当。此外,我们强调了ChatGPT生成的摘要和人类参考文献之间的一些独特差异,为ChatGPT在各种文本摘要任务中的超级能力提供了有价值的见解。我们的研究结果为这一领域提出了新的方向,我们计划进行进一步的研究,通过广泛的人类评估来系统地检查chatgpt生成的摘要的特征。

在这里插入图片描述

通过摘要任务评估大型语言模型的事实一致性

Evaluating the Factual Consistency of Large Language Models Through Summarization

虽然大型语言模型(LLM)已被证明对各种各样的任务都是有效的,但它们也会产生幻觉信息。为了衡量LLM是否更喜欢其输入的事实一致的延续,我们提出了一个新的基准,称为FIB(事实不一致基准),它专注于总结任务。具体来说,我们的基准测试涉及比较LLM分配给输入新闻文章的事实一致的摘要和事实不一致的摘要的分数。对于事实一致的摘要,我们使用人工编写的参考摘要,我们手动验证这些摘要是否与事实一致。为了生成事实不一致的摘要,我们从一组我们手工标注为事实不一致的摘要模型中生成摘要。然后,根据模型的准确性来衡量模型的事实一致性,即它为事实一致的摘要分配更高分数的文档比例。为了验证FIB的有效性,我们评估了来自6个不同模型族(包括BLOOM和OPT)的23个大型语言模型,从1B到176B参数不等。我们发现,现有的法学硕士通常给事实一致的摘要比事实不一致的摘要分配更高的分数。然而,如果在文档中逐字出现事实不一致的摘要,那么llm会给这些事实不一致的摘要分配比事实一致的摘要更高的分数。我们在基准测试中验证了设计选择,包括评分方法和干扰摘要的来源。我们的代码和基准数据可以在https://github.com/r-three/fib上找到。

基于大型语言模型的摘要事实一致性评估器

ChatGPT as a Factual Inconsistency Evaluator for Text Summarization

预训练的语言模型大大提高了文本摘要的性能。现有方法的一个主要问题是,大多数生成的摘要实际上与它们的源文档并不一致。为了缓解这个问题,许多努力都集中在基于自然语言推理、问答和句法依赖等开发有效的事实性评估指标上。然而,这些方法受到高计算复杂度或多组件管道引入的不确定性的限制,导致仅部分符合人类的判断。近年来,大型语言模型(LLM)不仅在文本生成方面表现出色,而且在语言理解方面也表现出色。在本文中,我们通过在粗粒度和细粒度评估任务(包括二进制蕴意推理、摘要排名和一致性评级)上检查ChatGPT在零射击设置下评估事实不一致性的能力。实验结果表明,ChatGPT总体上优于之前的评估指标,表明其在事实不一致性评估方面具有很大的潜力。然而,仔细检查ChatGPT的输出就会发现某些限制,包括它对词汇更相似的候选项的偏好、错误的推理以及对指令的理解不足。

在这里插入图片描述

未来方向

大型语言模型的自我偏好

大型语言模型倾向于给模型生成的事实不一致的摘要分配更高的分数,也即更偏好自身生成的摘要。

在这里插入图片描述

基于大型语言模型生成提示

例如对摘要进行评估,提出修改意见。DailyMail上的新闻进行摘要,并提出修改Prompt。

在这里插入图片描述

基于大型语言模型的文本编辑

利用大型语言模型对其他模型生成的文本针对性地进行编辑,以满足用户特定的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14625.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT玩起来真是上头,AI广泛应用元年体验AI之美

概述 ChatGPT是由人工智能研究实验室OpenAI在2022年11月30日发布的全新聊天机器人模型,一款人工智能技术驱动的自然语言处理工具。它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流&#xf…

推荐一款idea神级代码插件【Bito-ChatGPT】而且免费!- 第9篇

历史文章(文章累计460) 《国内最全的Spring Boot系列之一》 《国内最全的Spring Boot系列之二》 《国内最全的Spring Boot系列之三》 《国内最全的Spring Boot系列之四》 《国内最全的Spring Boot系列之五》 《国内最全的Spring Boot系列之六》 文…

ChatGPT - 获取简短的书籍摘要的Prompt

文章目录 Prompt例子 Prompt “总结[书籍名称],并给我列出最重要的学习和观点。”例子

小米AX6000开启SSH后的高级用法

买的是RA72版本的AX6000,售价599,高通的CPU。 看看高颜值和唬人的外观,图示如下: 关于AX6000开启SSH的方法有很多介绍的,这里关键讲几点: 先升级RA72对应的固件,降级到41版本。 附上:miwifi_ra72_firmware_59812_1.0.41.bin 版本固件地址: http://cdn.cnbj1.fds.a…

为什么我觉得这次的chatGPT是真的智能AI

写在前面 openAI在2022年11月推出了chatGPT(全称Chat Generative Pre-trained Transformer【聊天生成型預訓練變換模型】维基百科)说的直白一点就是一个目前为止,这个星球上可以见到的最智能的机器人,他可以完成一些人类认知范围内…

第四届中国计算机教育大会“人工智能与大模型论坛”将于4月22日厦门召开

2023 年 ChatGPT 全球爆红,瞬间在国内引起了对大语言模型的热议。全球头部科技大厂再次站上了同一个赛道,很多 AI 领域的创业者、创投机构行动了起来,开启了大语言模型“军备竞赛”。人工智能与大模型技术的发展,离不开高校与产业…

chatgpt赋能python:Python培训:成为一名高薪Python工程师

Python培训:成为一名高薪Python工程师 Python已成为当今最流行的编程语言之一,它广泛应用于人工智能、机器学习、数据科学和Web开发等各个领域。许多公司都在寻找经验丰富的Python工程师来开发他们的产品。如果你想成为一名高薪Python工程师&#xff0c…

记一次和ChatGPT一起排查线上问题

某日现场技术支持找到了我,问我有个数据上报的功能,记录的都是上报失败,让我排查一下。我第一印象当然是甩锅,啊不对问一下情况,准备排查问题。 先交代一下基础情况:功能就是我们将我们系统的数据上报到对方…

AI 2.0时代,再看消费物联网十年

本文是「光锥智能」的「十年系列」之二,对前沿科技影响千行百业数字化和智能化的复盘和展望,第一篇《中国芯片投资十年》获得了业界科技、财经、创投和芯片垂类媒体的广泛关注。 【划重点】 从消费互联网、移动互联网到万物智联,正是一个“…

月薪13K!国企小哥抛弃“铁饭碗”转行测试,亲身经历告诉你选高薪or稳定

对于很多程序员来说,国企or大厂一直都是一个两难的抉择,该选择稳定还是高薪,许多小伙伴都在这个问题犯了难。 可他却用自己的努力和实际行动做出了最好的选择,为自己的职业道路画上了浓墨重彩的一笔。 话不多说,一起…

36张图,一次性补全网络基础知识

点击上方 前端Q,关注公众号 回复加群,加入前端Q技术交流群 转自:网络工程师笔记 OSI和TCP/IP是很基础但又非常重要的知识,很多知识点都是以它们为基础去串联的,作为底层,掌握得越透彻,理解上层时…

基于LLM的生成式AI正在快速变革RPA人机交互

如果问RPA对程序开发以及自动化有哪些贡献,其中一个答案便是它改变了人机交互(HCI,human-computer interaction)。 在传统工作流自动化工具中,软件开发人员不得不生成一个操作列表,使用内部应用程序编程接…

大模型时代来临,基于LLM的生成式AI正在快速变革RPA人机交互

从“人RPA”到“人生成式AIRPA”,LLM如何影响RPA人机交互?换个角度,从人机交互看LLM如何影响RPA影响程序开发与流程自动化人机交互的RPA,现在也要被LLM改变了LLM如何影响人机交互?生成式AI怎么改变RPA人机交互&#xf…

马斯克开造人形AI 变形金刚要成真?

当5个人形机器人迎面走来,你会下意识地期待它们具备怎样的能力。特斯拉最近公布的视频给出答案,它自研的机器人“擎天柱”(Optimus)能够探索环境,复刻人类动作,自主操纵物品。 特斯拉CEO埃隆马斯克对这些与…

chatgpt大模型赋能人形机器人之我见

我个人的看法(不涉及任何和他项目相关的细节或商业机密,仅仅是我个人的泛泛而谈): 1、从大趋势来说,人形机器人的灵活度和通用性确实非常的高,是有前景的。另外轮式足式也不是他独一例,像 ETH …

Python吞噬世界,GPT吞噬Python!ChatGPT 上线最强应用:分析数据、生成代码都精通

当地时间 7 月 7 日,OpenAI 在社交平台表示,将向所有 ChatGPT Plus 用户开放代码解析器(Code Interpreter)功能。消息一出便瞬间引发了开发者们的广泛关注,该功能被有的开发者认为是自 OpenAI 发布 GPT-4 以来最强大的…

【回答问题】ChatGPT上线了!给我推荐20个比较流行的ROS(Robot Operating System)算法模型

给我推荐20个比较流行的ros算法模型 很好,下面是20个比较流行的ROS(Robot Operating System)算法模型: 便携式机器人操作系统(PR2) 全向轮操作系统(TurtleBot) 机器人操作系统(ROS)用于机器人操作 基于空间相对导航的机器人操作系统(SLAM) 自适应机器人操作系统(ARoS) 自主…

【回答问题】ChatGPT上线了!给我推荐20个比较流行的自动驾驶算法模型

给我推荐20个比较流行的自动驾驶算法模型 当前比较流行的自动驾驶模型有: 卷积神经网络(CNN) 长短时记忆网络(LSTM) 自适应调和滤波器(ADF) 自适应估计滤波器(AEF) 线性预测滤波器(LPF) 线性卡尔曼滤波器(LKF) 高斯完全数据卡尔曼滤波器(EKF) 非线性最小二乘(…

ChatGPT 上线联网和插件功能;投资者看好新版搜索引擎

🚀 ChatGPT 上线联网和插件功能 OpenAI宣布将在这周推出联网和插件功能,位于Alpha和Beta通道的ChatGPT Plus用户都可使用70多个上线的插件。 更新意味着ChatGPT将利用最新的信息和资讯为使用者提供服务。 上线的ChatGPT插件种类涵盖了行程安排助理、代…

【回答问题】ChatGPT上线了!推荐30个以上比较好的命名实体识别模型

【回答问题】ChatGPT上线了!推荐30个以上比较好的命名实体识别模型以及github源码? 推荐30个以上比较好的命名实体识别模型 命名实体识别模型是指识别文本中提到的特定的人名、地名、机构名等命名实体的模型。推荐的命名实体识别模型有: BERT(Bidirectional Encoder Re…