Aligning Large Language Models with Human: A Survey

本文也是LLM相关的综述文章,针对《Aligning Large Language Models with Human: A Survey》的翻译。

对齐人类与大语言模型:综述

  • 摘要
  • 1 引言
  • 2 对齐数据收集
    • 2.1 来自人类的指令
      • 2.1.1 NLP基准
      • 2.1.2 人工构造指令
    • 2.2 来自强大LLM的指令
      • 2.2.1 自指令
      • 2.2.2 多轮指令
      • 2.2.3 多语言指令
    • 2.3 指令数据管理
  • 3 对齐训练
    • 3.1 在线人类偏好训练
    • 3.2 离线人类偏好训练
      • 3.2.1 基于排序的方法
      • 3.2.2 基于语言的方法
    • 3.3 参数有效训练
  • 4 对齐评估
    • 4.1 评估基准
      • 4.1.1 封闭式基准
      • 4.1.2 开放式基准
    • 4.2 评价范式
      • 4.2.1 基于人类的评估
      • 4.2.2 基于LLM的评估
  • 5 挑战与未来方向
  • 6 结论

摘要

在大量文本语料库上训练的大型语言模型(LLM)已成为一系列自然语言处理(NLP)任务的领先解决方案。尽管这些模型具有显著的性能,但它们容易受到某些限制,如误解人类指令、生成潜在的偏见内容或事实上不正确(产生幻觉)的信息。因此,将LLM与人类期望相结合已成为研究界关注的一个活跃领域。本调查全面概述了这些对齐技术,包括以下方面。(1) 数据收集:有效收集LLM对齐的高质量指令的方法,包括使用NLP基准、人工注释和利用强大的LLM。(2) 训练方法:详细审查LLM调整所采用的主流训练方法。我们的探索包括监督微调,在线和离线人类偏好训练,以及参数有效的训练机制。(3) 模型评估:评估这些与人类一致的LLM有效性的方法,为其评估提供了多方面的方法。最后,我们整理和提炼了我们的发现,为该领域未来的几个有前景的研究途径提供了线索。因此,对于任何致力于理解和推进LLM调整以更好地适应以人为本的任务和期望的人来说,这项调查都是一项宝贵的资源。收集最新论文的相关GitHub链接可在https://github.com/GaryYufei/AlignLLMHhumanSurvey。

1 引言

在这里插入图片描述

2 对齐数据收集

2.1 来自人类的指令

2.1.1 NLP基准

2.1.2 人工构造指令

2.2 来自强大LLM的指令

2.2.1 自指令

2.2.2 多轮指令

2.2.3 多语言指令

2.3 指令数据管理

3 对齐训练

3.1 在线人类偏好训练

3.2 离线人类偏好训练

3.2.1 基于排序的方法

3.2.2 基于语言的方法

3.3 参数有效训练

4 对齐评估

4.1 评估基准

4.1.1 封闭式基准

4.1.2 开放式基准

4.2 评价范式

4.2.1 基于人类的评估

4.2.2 基于LLM的评估

5 挑战与未来方向

LLM对齐的发展仍处于初级阶段,因此还有很大的改进空间。在本节中,我们在表1中总结了将LLM与人类相结合的现有重要研究工作。下面,我们将讨论其中的一些挑战以及相应的未来研究方向。
在这里插入图片描述

6 结论

本次综述对LLM对齐技术的最新进展进行了最新综述。我们将这些研究工作总结为对齐指令收集、对齐训练和对齐评估。最后,我们指出了LLM对齐的几个有前景的未来方向。我们希望这项调查能够提供有见地的视角,并激励进一步研究如何改善LLM的一致性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/79677.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

离散 Hopfield 神经网络的分类与matlab实现

1 案例背景 1.1离散 Hopfield 神经网络学习规则 离散型 Hopfield神经网络的结构、工作方式,稳定性等问题在第9章中已经进行了详细的介绍,此处不再赘述。本节将详细介绍离散Hopfield神经网络权系数矩阵的设计方法。设计权系数矩阵的目的是: ①保证系统在异步工作时的稳…

6.s081/6.1810(Fall 2022)Lab5: Copy-on-Write Fork for xv6

前言 本来往年这里还有个Lazy Allocation的,今年不知道为啥直接给跳过去了。. 其他篇章 环境搭建 Lab1: Utilities Lab2: System calls Lab3: Page tables Lab4: Traps Lab5: Copy-on-Write Fork for xv6 参考链接 官网链接 xv6手册链接,这个挺重要…

开发运营监控

DevOps 监控使管理员能够实时了解生产环境中的元素,并有助于确保应用程序平稳运行,同时提供最高的业务价值,对于采用 DevOps 文化和方法的公司来说,这一点至关重要。 什么是开发运营监控 DevOps 通过持续开发、集成、测试、监控…

vscode 第一个文件夹在上一层文件夹同行,怎么处理

我的是这样的 打开终端特别麻烦 解决方法就是 打开vscode里边的首选项 进入设置 把Compact Folders下边对勾给勾掉

Java Set集合:HashSet和TreeSet类

Set 集合类似于一个罐子,程序可以依次把多个对象“丢进”Set 集合,而 Set 集合通常不能记住元素的添加顺序。也就是说 Set 集合中的对象不按特定的方式排序,只是简单地把对象加入集合。Set 集合中不能包含重复的对象,并且最多只允…

谈谈DNS是什么?它的作用以及工作流程

作者:Insist-- 个人主页:insist--个人主页 作者会持续更新网络知识和python基础知识,期待你的关注 目录 一、DNS是什么? 二、DNS的作用 三、DNS查询流程 1、查看浏览器缓存 2、查看系统缓存 3、查看路由器缓存 4、查看ISP …

【JavaEE】深入了解Spring中Bean的可见范围(作用域)以及前世今生(生命周期)

【JavaEE】Spring的开发要点总结(4) 文章目录 【JavaEE】Spring的开发要点总结(4)1. Bean的作用域1.1 一个例子感受作用域的存在1.2 通过例子说明作用域的定义1.3 六种不同的作用域1.3.1 singleton单例模式(默认作用域…

【C++】C++11 新特性总结 | C++ 常见设计模式总结(秋招篇)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言介绍几种C11新特性介绍一下自动类型推导auto和decltype关键字的用法举例讲一下范围基于的for循环介绍一下列表初始化讲一下右值引用,和左值引用的区…

51单片机(普中HC6800-EM3 V3.0)实验例程软件分析 实验三 LED流水灯

目录 前言 一、原理图及知识点介绍 二、代码分析 知识点五:#include 中的库函数解析 _crol_,_irol_,_lrol_ _cror_,_iror_,_lror_ _nop_ _testbit_ 前言 第一个实验:51单片机(普中HC6800-EM3 V3.0…

数据结构——红黑树基础(博文笔记)

数据结构在查找这一章里介绍过这些数据结构:BST,AVL,RBT,B和B。 除去RBT,其他的数据结构之前的学过,都是在BST的基础上进行微小的限制。 1.比如AVL是要求任意节点的左右子树深度之差绝对值不大于1,由此引出…

H263压缩码流如何分解为一个一个单元并查询到其宽高?

H263码流尺寸规格有限,只有以下几种: H263码流有四个分层: 1、图像层 2、块组 3、宏块 4、块 下面分别介绍: 具体介绍如下,5.1.3中红色框选部分就是压缩码流的宽高指示: 图像层 上面就是H263的图像层&am…

P1156 垃圾陷阱(背包变形)

垃圾陷阱 题目描述 卡门――农夫约翰极其珍视的一条 Holsteins 奶牛――已经落了到 “垃圾井” 中。“垃圾井” 是农夫们扔垃圾的地方,它的深度为 D D D( 2 ≤ D ≤ 100 2 \le D \le 100 2≤D≤100)英尺。 卡门想把垃圾堆起来&#xff0c…

智慧水利整体解决方案[43页PPT]

导读:原文《智慧水利整体解决方案[43页PPT]》(获取来源见文尾),本文精选其中精华及架构部分,逻辑清晰、内容完整,为快速形成售前方案提供参考。 完整版领取方式 完整版领取方式: 如需获取完整的…

概念解析 | 生成式与判别式模型在低级图像恢复与点云重建中的角力:一场较量与可能性探索

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:生成式模型与判别式模型在低级图像恢复/点云重建任务中的优劣与特性。 生成式与判别式模型在低级图像恢复与点云重建中的角力:一场较量与可能性探索 1. 背景介绍 机器学习…

elasticSearch常见的面试题

常见的面试问题 描述使用场景 es集群架构3个节点,根据不同的服务创建不同的索引,根据日期和环境,平均每天递增60*2,大约60Gb的数据。 调优技巧 原文参考:干货 | BAT等一线大厂 Elasticsearch面试题解读 - 掘金 设计阶…

C++QT教程2——创建QT项目

文章目录 2 创建Qt项目2.1 使用向导创建2.2 手动创建2.3 .pro文件2.4 一个最简单的Qt应用程序main入口函数中(main.cpp)arnold_widget.h函数arnold_widget.cpp 参考文章 2 创建Qt项目 2.1 使用向导创建 打开Qt Creator 界面选择 New Project或者选择菜…

SAP MM学习笔记15-物料调达中的Master数据(2)-品目Master

SAP中做一个购买发注的时候,涉及到以下Master数据: 1,仕入先Master(供应商):跟谁买 2,品目Master(物料):买什么 3,购买情报:什么价…

Python selenium对应的浏览器chromedriver版本不一致

1、chrome和chromedriver版本不一致导致的,我们只需要升级下chromedriver的版本即可 浏览器版本查看 //打开google浏览器直接访问,查看浏览器版本 chrome://version/ 查看chromedriver的版本 //查看驱动版本 chromedriver chromedriver下载 可看到浏…

Zebec Protocol ,不止于 Web3 世界的 “Paypal”

Paypal是传统支付领域的巨头企业,在北美支付市场占有率约为77%以上。从具体的业务数据看,在8月初,Paypal公布的2023年第二季度财报显示,PayPal第二季度净营收为73亿美元,净利润为10.29亿美元。虽然Paypal的净利润相交去…

按轨迹运行(纯跟踪)

文章目录 import numpy as np import math import matplotlib.pyplot as pltk = 0.1 # 前视距离系数 Lfc = 2.0 # 前视距离 Kp = 1.0 # 速度P控制器系数 dt = 0.1 # 时间间隔,单位:s L = 2.9 # 车辆轴距,单位:mdef plot_arrow(x, y, yaw, length=5, width=1):dx = len…