【CMU博士论文】结构化推理增强大语言模型(Part 0)

问题 :语言生成和推理领域的快速发展得益于围绕大型语言模型用户友好库的普及。这些解决方案通常依赖于Seq2Seq范式,将所有问题视为文本到文本的转换。尽管这种方法方便,但在实际部署中存在局限性:处理复杂问题时的脆弱性缺乏反馈机制以及内在的黑箱性质阻碍了模型的可解释性

这表明,传统的文本输入-文本输出解决方案可能无法利用对模型利益相关者显而易见的有益结构属性。在模型开发过程中整合结构需要仔细审视问题设置,但通常相对简单的实现可以带来显著的回报——一点结构就可以产生很大作用

重点:本文提出了通过在语言模型的设计和操作整合结构化元素来解决这些局限性的方法。

结构:被定义为数据的系统性、层次性或关系性组织和表示,以及在学习和推理过程中引入结构约束。

  • 训练阶段,提出了训练图辅助问答模型的技术,并发现有助于有效生成序列集的顺序
  • 推理阶段,提出了利用代码作为中间表示整合结构的技术。
  • 推理后阶段,我们介绍了整合记忆的方法,使模型能够利用反馈而无需额外训练

作者提出下一代AI系统将把大型语言模型视为强大的内核,在其上构建灵活的推理程序以增强复杂推理。

随着文本生成和推理的用户友好库的广泛普及,许多任务已成功地在seq2seq框架中实现,这不仅扩展到对话生成和摘要生成等自然适合这些范式的任务,还包括传统上与语言模型不相关的任务,如蛋白质序列预测、图生成、程序合成和结构化常识推理。

尽管通常不建议将任务适配到现有工具 [Paszke et al., 2017, Wolf et al., 2019],但这些库的易用性和可访问性有时会导致忽视使用这些现成解决方案所带来的固有权衡和局限性。

1.1.1 现有大型语言模型设置的局限性

反馈对于根据用户偏好定制模型输出和改善整体用户体验至关重要。然而,目前的Seq2Seq模型并不是为了接收直接反馈而设计的,这使得用户很难影响或指导模型的输出[Kreutzer等人,2018,Jaques等人,2019]。接下来我们将详细阐述这些挑战。

1 提供反馈的能力
提供反馈的能力将实现更具互动性和用户驱动的结果,从而实现更好的定制和改进的整体性能。例如,在对话系统中,在纽约市寻找意大利餐馆的用户可能希望澄清或更正Seq2Seq模型提供的信息。如果模型给出了一个不正确的位置,用户就很难给出反馈并引导模型找到想要的答案。更糟糕的是,如果没有保留反馈的能力,模型将继续重复同样的错误

已经提出了几种方法来解决这个问题,例如从人类反馈中强化学习[Kreutzer等人,2018,Jaques等人,2019],用于序列预测的actor-critic算法[Bahdanau等人,2016],以及监督学习[Stiennon等人,2020,Ouyang等人,2022b]。然而,这些方法通常需要额外的训练或大量的数据,使得它们不太适合少量的学习或数据可用性有限的场景。尽管取得了这些进展,但在开发实用和有效的Seq2Seq模型在少镜头学习背景下的反馈机制方面仍有很大的研究差距。在本文中,我们的目标是研究这一差距,并探索新的方法,可以在不需要重新训练的情况下有效地纳入用户反馈,从而提高Seq2Seq模型在数据可用性有限的现实应用中的性能和适应性。

2 不匹配表示导致的脆性
Seq2Seq模型面临的一个主要挑战是它们在处理明显偏离文本数据的输入或输出时的脆弱性。当应用于非常规任务或领域时,这种限制可能导致性能不佳,这些任务或领域需要与训练期间遇到的表示不同[Lake等人,2017,Ratner等人,2017]。开发能够处理不同和不匹配表示的模型不仅可以提高它们的泛化能力,还可以扩展它们对更广泛任务的适用性

例如,在大量英语文本语料库上训练的Seq2Seq模型可能不适合处理特定于领域的语言的输入或输出,例如数学方程或计算机代码。在处理不匹配表示方面解决这一差距对于创建更通用和健壮的Seq2Seq模型至关重要,这些模型可以适应各种现实世界的场景和任务[Graber等人,2018]。

3 未能利用数据中固有的结构
普通Seq2Seq模型的一个重大限制是,它们倾向于将输入和输出数据视为非结构化序列,往往忽略了可以用来增强模型理解和生成能力的任何底层结构或模式[Bastings等人,2017]。将领域特定的知识、结构或约束合并到模型体系结构或训练过程中,将支持更准确、有效和一致的输出生成,从而在专门的任务或领域中获得更好的性能。

类人文本生成和推理的关键能力

支持下一个令牌预测目标简单的一个常见论点是,它与人类处理和生成语言的方式相似[Heilbron et al., 2022]。然而,人类推理表现出的细微差别是当前模型难以复制的。以下几个例子突出了这些局限性:

  1. 生成多个候选项:人类经常创建和评估多个选项,这是标准LLM输出中不固有的过程。
  2. 迭代生成: 在像写作这样的任务中,人类参与评审和改进的迭代过程,而不是由法学硕士完成的一次性生成。
  3. 语境和世界知识:人类的交流依赖于超越直接文本数据的更广泛的知识和语境信息。
  4. 工具使用: 人们使用各种工具来完成任务。最重要的是,人们意识到什么时候需要一个特定的工具。
  5. 问题重构:人们经常重新表述问题并重新尝试。
  6. 优先处理简单的任务:一个常见的人类解决问题的策略是先处理问题的简单部分。

这些示例有一个共同的主题:需要超越简单的输入/输出关系。法学硕士提供了非凡的能力,但为了解决所有的任务,它们需要用更复杂的推理过程来增强。这种需求反映在少量提示技术的兴起中,其中使用搜索、自我改进和工具使用等策略来增强这些模型。这些技术中的许多都隐含地引入了结构元素,下面将对此进行解释。

1.1.2 注入结构:本文的贡献

某些问题可能提供一种固有的结构,可以用于可解释性或有效性。例如,在解决常识性推理问题时,将结果附加在捕获相关关系和依赖关系的知识图上可能是有用的[Han等人,2020]。解决这一差距并开发将结构信息纳入Seq2Seq模型的方法,有可能显著提高其在广泛领域和任务中的性能和适用性[Zhang等人,2019a,c]。

结构在人工智能领域是一个模棱两可的术语,有多种解释[Newell et al., 1972, Russell, 2010]。为了本文的目的,我们采用了一个广泛的结构视角,不仅包括其在组织训练数据中的使用[Bengio等人,2013,Schmidhuber, 2015],还包括其在整个模型开发和部署生命周期中的作用,从增强训练和推理结果[Vaswani等人,2017,Devlin等人,2019,Lake等人,2017],到提高最终结果有效性的推理后调整[Nye等人,2021b, Dohan等人,2022]。

定义1 (结构)。在结构增强生成与推理的背景下,期限结构是指:
在这里插入图片描述
图1.1:本论文提案概述:本论文的目标是在模型开发和部署管道中集成结构。

a. 以系统、分层或关系的方式组织和表示数据、知识或信息[Pearl等人,2000;Bengio等人,2013;Hovy等人,2013]。这有助于捕捉不同元素之间的潜在关系和依赖关系,使人工智能系统更容易理解、生成和使用自然语言进行推理。例如,组织知识图来表示领域中实体之间的关系。
b. 利用数据问题域中存在的固有结构优化结果[Bahdanau等人,2014,Vaswani等人,2017,Battaglia等人,2018]。这包括使用数据或知识的结构属性来改进推理、决策或生成,以及增强人工智能系统的效率、可解释性或可扩展性。例如,使用解析树的结构来指导生成语法正确的句子。

注意,这个定义超越了关注数据排列的传统结构定义,并在定义中包含了过程。因此,我们对结构的定义既包括数据的结构,也包括过程本身。
在这里插入图片描述
图1.2:本文四个部分的示例:(a)在数据中注入结构进行微调,(b)结构增强建模,©在推理过程中利用结构,以及(d) LLM的推理后增强。

1.2 论文概述

本文探讨了结构在当代语言生成和推理模型中的重要意义。全文共分为四个部分:

第一部分:在数据中注入结构用于调优,涵盖三个章节,探索大型语言模型(llm)在各种任务中的高级应用。

  • 第2章研究了使用llm (NAACL 2021)生成文档的事件级时间图。它提出了使用llm自动生成文档事件级时间图的第一个研究,并证明了该方法的有效性。
  • 第3章介绍了SETAUG,一种有效利用序不变性和基数性的条件集生成新算法(EMNLP 2022)。通过在增强数据上训练序列到序列模型,该方法在多个基准数据集上取得了显著的改进。

第二部分:结构辅助建模 深入研究了结构增强的生成和推理。

  • 第5章重点介绍了文本风格迁移(ACL 2020),并提出了在没有并行数据的情况下有效和可解释的风格迁移技术。两个步骤的过程提高了性能和可解释性。
  • 第6章研究了使用图的结构化情景推理(ACL 2021, EMNLP 2021)。提出了一种分层混合专家模型,该模型可以有效地学习输入噪声图的条件,以提高推理能力。

第4章提出了一种使用llm和程序轨迹数据集(DL4C 2022接受的初步数据集版本)的程序中有针对性的算法优化方法。这项工作正在进行中,旨在改进编程任务的优化过程。

第三部分:在推理过程中利用结构探讨了图生成、结构化常识推理程序辅助语言模型的方法。

  • 第7章介绍了COCOGEN,这是一种使用大型语言模型进行结构化常识推理的新方法(EMNLP 2022)。它将结构化的常识性推理任务视为代码生成任务,允许预先训练的代码LMs作为结构化的常识性推理器执行得更好。
  • 第8章介绍了程序辅助语言模型(PAL)方法,它利用大型语言模型来理解和分解问题,同时将解决步骤外包给运行时(ICML 2023)。这种方法可以提高算术和符号推理任务的性能

第四部分:llm的推理后增强 研究了两章,重点是通过用户交互和迭代改进来增强大型语言模型(llm)。第9章介绍了MEMPROMPT,这是一种将GPT-3与用户反馈记忆相结合的方法,可提高跨不同任务的准确性(EMNLP 2022, NAACL 2022)。通过将GPT-3与不断增长的误解记录和用户反馈相结合,系统可以根据过去的用户反馈为新的查询生成增强的提示。MEMPROMPT的一种变体,称为FB-NET,利用对结构化生成的微调模型输出中的fx错误的反馈,并在naacl2022上被接受。

第10章介绍了SELF-REFINE,这是一个通过生成多方面反馈迭代精炼LLM输出的框架,在各种任务中展示了比直接生成的显著改进。拟议的工作旨在通过整合规划方法来扩展自我完善。

在这里插入图片描述
图1.1 作者的成果

关注微信公众号,获取更多资讯内容:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/379535.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

成为CMake砖家(5): VSCode CMake Tools 插件基本使用

大家好,我是白鱼。 之前提到过,白鱼的主力 编辑器/IDE 是 VSCode, 也提到过使用 CMake Language Support 搭配 dotnet 执行 CMakeLists.txt 语法高亮。 对于阅读 CMakeLists.txt 脚本, 这足够了。 而在 C/C 开发过程中&#xff…

【Django】网上蛋糕项目商城-注册,登录,修改用户信息,退出功能

概念 通过以上多篇文章的讲解,对该项目的功能已经实现了很多,本文将对该项目的用户注册,登录,修改用户信息,以及退出等功能的实现。 注册功能实现 点击head.html头部页面的注册按钮,触发超链接跳转至use…

开源模型应用落地-FastAPI-助力模型交互-进阶篇(三)

一、前言 FastAPI 的高级用法可以为开发人员带来许多好处。它能帮助实现更复杂的路由逻辑和参数处理,使应用程序能够处理各种不同的请求场景,提高应用程序的灵活性和可扩展性。 在数据验证和转换方面,高级用法提供了更精细和准确的控制&#…

离散数学,汉密尔顿图判定的实际问题,平面图,平面图的判定,欧拉公式,对偶图,五色定理的证明

目录 1.汉密尔顿图判定的实际问题 判断是否是汉密尔顿图 思考:下图中哪些是汉密尔顿图 例子 2.平面图 平面图的基本概念 并非所有的图都能嵌入平面 平面图的面与次数 欧拉公式 欧拉公式的证明 3.平面图的判定 同胚 kuratowski定理 ​4.对偶图 四…

从0到1搭建数据中台(4):neo4j初识及安装使用

在数据中台中,neo4j作为图数据库,可以用于数据血缘关系的存储 图数据库的其他用于主要用于知识图谱,人物关系的搭建,描述实体,关系,以及实体属性 安装 在官网 https://neo4j.com/ 下载安装包 neo4j-co…

TikTok内嵌跨境商城全开源_搭建教程/前端uniapp+后端源码

多语言跨境电商外贸商城 TikTok内嵌商城,商家入驻一键铺货一键提货 全开源完美运营,接在tiktok里面的商城内嵌,也可单独分开出来当独立站运营 二十一种语言,可以做很多国家的市场,支持商家入驻,多店铺等等…

基于Python+Django+MySQL的心理咨询预约系统

心理咨询预约系统 DjangoMySQL 基于PythonDjangoMySQL的心理咨询预约系统 项目主要依赖Django3.2,MySQL 支持随机验证码生成与登录验证 简介 基于PythonDjangoMySQL的心理咨询预约系统通过连接数据库获取数据,登录新增随机数字验证码验证。具体可以看…

[Python库](4) time库

1.time库简介 time库可以进行时间相关的处理,如访问当前日期和时间,输出不同格式的时间以及等待指定的时间等。time不需要下载,直接导入就可以用( 因为它是Python自带的 )。更多功能可以看另一篇文章[Python库](3) Arrow库。 2.使用 2.1.返…

大数据之数据抽取架构演变过程

架构演变之Flink架构的演变过程 一、 起初搭建整个大数据平台是基于CDH这一套资源管理和整合的CM资源管理器搭建的 整个平台包括了: HDFS,YARN,HIVE,zoozie,FLINK,Spark,Zookeeper等组件搭建而成, 刚开始搭建的时候&am…

如何通过企业微信会话存档保护企业利益?

赵总: 张经理,最近行业内频发数据泄露事件,我们的客户资料和内部沟通记录安全吗? 张经理: 赵总,我们已经采取了一系列措施来加强数据安全。特别是针对企业微信的沟通记录,我们最近引入了安企神软件,它能很…

实践致知第16享:设置Word中某一页横着的效果及操作

一、背景需求 小姑电话说:现在有个word文档,里面有个表格太长(如下图所示),希望这一个设置成横的,其余页还是保持竖的! 二、解决方案 1、将鼠标放置在该页的最前面闪烁,然后选择“页面”》“↘…

记录些MySQL题集(16)

MySQL 存储过程与触发器 一、初识MySQL的存储过程 Stored Procedure存储过程是数据库系统中一个十分重要的功能,使用存储过程可以大幅度缩短大SQL的响应时间,同时也可以提高数据库编程的灵活性。 存储过程是一组为了完成特定功能的SQL语句集合&#x…

C语言 ——— 实用调试技巧(Visual Studio)

目录 Debug 和 Release 的区别 F10 --- 逐过程调试 & F11 --- 逐语句调试 F9 --- 新建/切换断点 & F5 --- 开始调试 shift F5 & ctrl F5 Debug 和 Release 的区别 Debug:通常为调试版本,它包含调试信息,并且不作任何优化…

vscode通过ssh链接远程服务器上的docker

目录 1 编译docker image1.1 编译镜像1.2 启动镜像 2 在docker container中启动ssh服务2.1 确认是否安装ssh server2.2 修改配置文件2.3 启动ssh服务 3 生成ssh key4 添加ssh公钥到docker container中5 vscode安装插件Remote - SSH6 在vscode中配置 1 编译docker image 一般来…

使用 XPath 定位 HTML 中的 img 标签

引言 随着互联网内容的日益丰富,网页数据的自动化处理变得愈发重要。图片作为网页中的重要组成部分,其获取和处理在许多应用场景中都显得至关重要。例如,在社交媒体分析、内容聚合平台、数据抓取工具等领域,图片的自动下载和处理…

ICP配准两个obj三维物体+关键点处形成立体小球球 +TRF算法(含有在ICP配准情境下的算法对应代码)

import os import shutil import numpy as np import cv2 import face_alignment import vtk from scipy.spatial import cKDTree from scipy.optimize import least_squaresdef load_obj(file_path):vertices = []faces = []with open

如何学习Hadoop:糙快猛的大数据之路(利用GPT 学习)

目录 引言Hadoop是什么?学习Hadoop的"糙快猛"之道1. 不要追求完美,先动手再说2. 从简单的MapReduce开始3. 利用大模型加速学习4. 循序渐进,建立知识体系 构建您的Hadoop技能树1. 夯实基础:Linux和Java2. 深入理解HDFS3.…

2024算力基础设施安全架构设计与思考(免费下载)

算网安全体系是将数据中心集群、算力枢纽、一体化大数据中心三个层级的安全需求进行工程化解耦,从国家安全角度统筹设计,通过安全 服务化方式,依托威胁情报和指挥协同通道将三层四级安全体系串联贯通,达成一体化大数据安全目标。 …

Ubuntu 24.04 LTS 桌面安装MT4或MT5 (MetaTrader)教程

运行脚本即可在 Ubuntu 24.04 LTS Noble Linux 上轻松安装 MetaTrader 5 或 4 应用程序,使用 WineHQ 进行外汇交易。 MetaTrader 4 (MT4) 或 MetaTrader 5 是用于交易外汇对和商品的流行平台。它支持各种外汇经纪商、内置价格分析工具以及通过专家顾问 (EA) 进行自…

html2canvas + jspdf 纯前端HTML导出PDF的实现与问题

前言 这几天接到一个需求,富文本编辑器的内容不仅要展示出来,还要实现展示的内容导出pdf文件。一开始导出pdf的功能是由后端来做的,然后发现对于宽度太大的图片,导出的pdf文件里部分图片内容被遮盖了,但在前端是正常显…