Selective Generation for Language Models 语言模型的选择性生成

生成式语言模型(Generative Language Models, GLMs)在文本生成任务中取得了显著进展。然而,生成内容的“幻觉”现象,即生成内容与事实或真实语义不符的问题,仍是GLMs在实际应用中的一个重大挑战。为了解决这一问题,本文提出了一种新颖的选择性生成方法——神经选择性生成(NSeGen),并使用逻辑蕴含(entailment)来更好地控制生成内容的假阳性率(FDR),提高了模型的生成可靠性。

一、研究背景和挑战

1. 生成式语言模型的“幻觉”问题

生成式语言模型,如GPT-3和Alpaca-7B,虽然在生成自然语言内容上取得了突破,但生成内容的可信度一直令人担忧。尤其是在一些关键领域(如医疗诊断、法律咨询、新闻传播等),生成内容必须精准可靠,否则会产生严重后果。GLMs生成的“幻觉”指的是模型在缺乏真实信息支撑时生成错误内容,这种现象在生成模型中非常普遍。

传统上,解决这一问题的方式包括:

  • 校准(Calibration):调整模型输出的置信度,使生成内容与真实情况更吻合。但校准主要解决的是模型过度自信的问题,并不能从根本上控制生成内容的准确性。

  • 符合预测(Conformal Prediction):使用统计方法量化预测内容的置信区间。这种方法在回归或分类任务中有效,但在生成式任务中无法保证生成内容的语义正确性。

本文的创新点在于提出一种新的生成机制,利用逻辑蕴含关系来控制生成内容的正确性,避免传统方法仅依赖于表面词汇的精确匹配问题。

二、方法概述:逻辑蕴含与选择性生成

本文提出了一个新的选择性生成方法——NSeGen,其核心在于通过逻辑蕴含关系实现语义层面的准确性控制。以下是NSeGen的三个核心部分:

1. 逻辑蕴含与假阳性率控制

逻辑蕴含是一种语义层面的判断方法,通常用于自然语言推理任务。通过判断生成内容是否能在语义上蕴含真实答案,NSeGen能够在语义正确性上做出更精确的选择。本文提出了基于逻辑蕴含的假阳性率(FDR-E),即计算生成内容在语义上不符合真实答案的比例,从而避免生成错误内容。

2. 选择性生成的监督与半监督方法

为实现上述假阳性率控制,NSeGen设计了两种生成方式:

  • 监督选择性生成:该方法利用带有蕴含标签的标注数据来训练模型,使得生成的内容在语义上更符合真实答案。然而,标注逻辑蕴含标签成本较高,导致监督方法难以大规模应用。

  • 半监督选择性生成:为降低标注成本,NSeGen提出了半监督学习方法,即构建“蕴含集合”(entailment set)作为伪标签。该集合包含了语义上与真实答案一致的生成内容,用于替代部分标注数据。这种半监督方法能够在无标签数据的基础上实现更高的生成准确性和效率。

3. 神经选择性生成(Neuro-Selective Generation)

传统的选择性生成方法多依赖于单一的参数化模型,而NSeGen使用神经网络设计选择函数(neuro-selection functions),能在多特征的高维空间中灵活选择符合逻辑蕴含的生成内容。这种多参数组合提高了选择函数的精确性和生成内容的合理性。

三、实验设计与结果分析

1. 实验数据与模型

论文选用GPT-3.5和Alpaca-7B两个生成模型,数据集选用了Natural Questions开放问答数据集。具体实验包括了27,000条无标签数据和数千条带有逻辑蕴含标签的数据。为了验证NSeGen的有效性,论文设计了以下对比实验。

2. 假阳性率控制

在假阳性率控制方面,NSeGen表现出显著优势。在图2中,可以看到NSeGen在数据规模较大时依然保持了较低的假阳性率(FDR-E),与传统选择性生成方法相比,展示了更高的稳定性和生成效率。这些实验表明,NSeGen通过半监督学习构建的蕴含集合,能够有效减少标注需求的同时,显著提高生成内容的语义正确性。

3. 生成效率与语义准确性

NSeGen在生成复杂答案任务中的表现也远优于传统方法。通过表1和表2中的生成示例可以看到,NSeGen能够在复杂问答任务中生成符合真实语义的答案,避免依赖于精确匹配。例如,在回答“电影《玛丽·玛格达琳》中的耶稣是谁扮演的?”这一问题时,NSeGen生成了正确的“杰昆·菲尼克斯”,而其他方法可能拒答或生成错误答案。

4. 不同选择函数的对比

为了进一步分析神经选择性函数的优越性,实验进行了多特征神经选择函数和传统单一参数化选择函数的对比。多特征选择在无标签数据情况下表现出更高的生成准确性和效率,特别是在语义匹配任务中表现尤为明显。

四、方法优势与局限性

  • 优势 NSeGen在语义层面确保了生成内容的正确性,适用于对生成内容可靠性要求较高的场景(如医疗、法律等)。此外,半监督方法的引入降低了对标注数据的依赖,使得该方法具备更强的实际应用潜力。

  • 局限性 NSeGen依赖于i.i.d.样本的假设,而实际应用中未必能满足该条件。此外,逻辑蕴含标签的获取仍存在高成本问题,即便通过半监督学习减轻了这一问题,标注需求依然对实际推广构成了限制。

五、未来展望

未来研究可以继续优化NSeGen的半监督生成机制,进一步降低对蕴含标签的依赖。此外,将NSeGen推广到跨领域、多任务的生成应用中,甚至引入多模态信息(如图像、视频等),都有望进一步提升生成内容的语义准确性和丰富性。

总结

本文提出了一种基于逻辑蕴含的选择性生成框架,通过语义匹配而非精确匹配,在语义正确性上显著提升了生成内容的可信度。NSeGen结合了监督与半监督方法,在保证生成内容高准确性的同时有效控制了假阳性率,为生成式语言模型在关键领域的实际应用提供了新的可能。

论文下载

  • 论文地址:openreview.net/pdf?id=jHU3tpL5Of

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/462379.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot接入星火认知大模型

文章目录 准备工作整体思路接入大模型服务端和大模型连接客户端和服务端的连接测试 准备工作 到讯飞星火大模型上根据官方的提示申请tokens 申请成功后可以获得对应的secret,key还有之前创建的应用的appId,这些就是我们要用到的信息 搭建项目 整体思…

新老项目不同node版本,使用nvm控制node版本切换(mac、window)

window系统电脑的链接:https://blog.csdn.net/qq_40269801/article/details/136450961 以下是mac版本的操作方式: 1、打开终端 克隆 NVM 仓库: git clone https://github.com/nvm-sh/nvm.git ~/.nvm 2、运行安装脚本: cd ~/.n…

kafka如何获取 topic 主题的列表?

大家好,我是锋哥。今天分享关于【kafka如何获取 topic 主题的列表?】面试题?希望对大家有帮助; kafka如何获取 topic 主题的列表? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在Kafka中,可以…

半参数模型

4. 半参数模型 (Semi-parametric Model) 半参数模型结合了参数化和非参数化的方法。可以在整体上采用线性回归,但在局部允许非线性变化。这样做的目的是在保持模型的线性解释性的同时,捕捉细微的弧度趋势。 例如,可以定义: y …

spring 学习路线梳理(二)注解

1.通过注解的方式创建bean 1.1 定义dao层的接口和实现 public interface ILoginDao {public String login(); }Slf4j Repository public class LoginDaoImpl implements ILoginDao {public LoginDaoImpl(){System.out.println("spring create bean call");}Override…

【创建型】单例模式

单例模式使用的场景:需要频繁的进行创建和销毁的对象、创建对象时耗时过多或耗费资源过多(即:重量级对象),但又经常用到的对象、工具类对象、频繁访问数据库或文件的对象(比如数据源、session工厂等) 1. 饿汉式(静态常量&#xf…

怎么安装行星减速电机才是正确的

行星减速电机由于其高效、精密的传动能力,广泛应用于自动化设备、机器人、机床以及其他需要精准控制的领域。正确的安装行星减速电机对于确保设备的性能与延长使用寿命至关重要。 一、前期准备 在进行行星减速电机的安装之前,必须做好充分的前期准备工作…

代码随想录算法训练营第三十四天 | 01背包问题 416.分割等和子集

01背包问题—1(dp为二维数组): 文章链接 题目链接:卡码网 46 思路: 因为有物品和背包容量两个方面,因此我们使用二维数组保存递推的结果 ① dp数组及下标的含义: dp[i][j],其中 i 是第 i 个物品&#x…

什么品牌的护眼台灯比较好?五款护眼效果比较明显的护眼台灯

在当今信息爆炸的时代背景下,挑选一款真正符合个人需求的护眼台灯,确实是一项不小的挑战。市场上品牌众多、型号繁杂,功能特点各不相同,价格区间也相当广泛,许多消费者在选购时往往感到迷茫不已。当大家询问“什么品牌…

cv.dnn.blobFromImage参数详解

例如: image cv.imread(imgs/img.png) blob cv.dnn.blobFromImage(image, scalefactor1.0, size(224, 224), mean(0, 0, 0), swapRBTrue, cropFalse) print("原始图像形状:", image.shape) print("Blob数据形状:", blob.shape)1. image 含义…

消息队列-Rabbitmq(消息发送,消息接收)

将来我们开发业务功能的时候,肯定不会在控制台收发消息,而是应该基于编程的方式。由于RabbitMQ采用了AMQP协议,因此它具备跨语言的特性。任何语言只要遵循AMQP协议收发消息,都可以与RabbitMQ交互。并且RabbitMQ官方也提供了各种不…

电脑没有下载声卡驱动怎么办?电脑声卡驱动安装方法

在日常使用电脑的过程中,我们可能会遇到电脑没有声音的问题,这往往与声卡驱动缺失或损坏有关。声卡驱动是连接电脑硬件(声卡)与操作系统之间的桥梁,确保音频信号能够正常输入输出。那么,当电脑没有声卡驱动…

人工智能与数据安全:Facebook如何应对隐私挑战

在数字时代,数据隐私和安全成为了用户和企业关注的核心问题。作为全球最大的社交媒体平台之一,Facebook面临着日益严峻的隐私挑战。近年来,频繁发生的数据泄露事件和对用户隐私的质疑,使得Facebook在保护用户数据方面倍感压力。为…

使用RabbitMQ实现微服务间的异步消息传递

使用RabbitMQ实现微服务间的异步消息传递 RabbitMQ简介 安装RabbitMQ 在Ubuntu上安装RabbitMQ 在CentOS上安装RabbitMQ 配置RabbitMQ 创建微服务 生产者服务 安装依赖 生产者代码 消费者服务 消费者代码 运行微服务 消息模式 直接模式 生产者代码 消费者代码 扇出模式 生产…

【MySQL】MySQL安装以及各种报错处理

前言: 本节内容讲述在Ubuntu环境下怎么进行MySQL的安装。 以及一些安装过程中遇到的报错如何处理的问题。 ps:注意, 本篇文章不是图形化界面的MySQL安装教程哦。想要安装图形化界面的MySQL的友友们可以另寻资源了。 目录 更新软件包列表 安装M…

Servlet 3.0 注解开发

文章目录 Servlet3.0注解开发修改idea创建注解的servlet模板内容讲解 关于servlet3.0注解开发的疑问_配置路径省略了属性urlPatterns内容讲解内容小结 Servlet3.0注解开发 【1】问题 说明:之前我们都是使用web.xml进行servlet映射路径的配置。这样配置的弊端&…

FPGA时序分析和约束学习笔记(3、Timequest时序路径详解和优化)

FPGA时序分析和约束学习笔记(3、Timequest时序路径详解和优化) Timequest中Data Path分析 Data Arrival Path clock path:时钟信号到达源寄存器时钟端口的时间 data path:数据从源寄存器Q端口出发到达目标寄存器D端口的时间 D…

windows与windows文件共享

目录 基础设置主机共享文件端设置从机接受文件端设置 基础设置 1、先确保两台电脑直接能够ping通,这是文件共享的前提,如果ping不通就去查找对应的原因,一般都是防火墙的原因。 在ping通的情况下: 2、先找到高级共享设置 3、对专…

前端页面整屏滚动fullpage.js简单使用

官网CSS,JS地址 fullPage.js/dist/fullpage.min.js at master alvarotrigo/fullPage.js GitHub fullPage.js/dist/fullpage.min.css at master alvarotrigo/fullPage.js GitHub <!DOCTYPE html> <html lang"en"><head><meta charset"…

Rust整合Elasticsearch

Elasticsearch是什么 Lucene&#xff1a;Java实现的搜索引擎类库 易扩展高性能仅限Java开发不支持水平扩展 Elasticsearch&#xff1a;基于Lucene开发的分布式搜索和分析引擎 支持分布式、水平扩展提高RestfulAPI&#xff0c;可被任何语言调用 Elastic Stack是什么 ELK&a…