大语言模型对齐技术 最新论文及源码合集(外部对齐、内部对齐、可解释性)

大语言模型对齐(Large Language Model Alignment)是利用大规模预训练语言模型来理解它们内部的语义表示和计算过程的研究领域。主要目的是避免大语言模型可见的或可预见的风险,比如固有存在的幻觉问题、生成不符合人类期望的文本、容易被用来执行恶意行为等。

从必要性上来看,大语言模型对齐可以避免黑盒效应,提高模型的可解释性和可控性,指导模型优化,确保AI 技术的发展不会对社会产生负面影响。因此,大语言模型对齐对AI系统的发展至关重要。

目前的大语言模型对齐研究主要分为三个领域:外部对齐、内部对齐、可解释性。我整理了这三个领域的最新论文分享给大家,帮助同学们掌握大语言模型对齐的最新技术与研究重点,快速找到新的idea。

全部论文及源代码看文末

外部对齐(23篇)

非递归监督

1.Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

强化学习利用人类反馈的开放问题和根本限制

简述:RLHF已成为调优当前领先的大型语言模型(LLM)的核心方法。尽管很流行,但是系统地总结它的缺陷的公开工作相对较少。本文:(1)调研了RLHF及相关方法的开放问题和基本局限,(2)概述了在实践中理解、改进和补充RLHF的技术,(3)提出了审计和披露标准,以改进对RLHF系统的社会监督。

2.Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons

基于成对或K选项比较的人类反馈原则强化学习

简述:论文基于人类反馈强化学习(RLHF)提供了一个理论框架,证明了在基于学习的奖励模型训练策略时,MLE会失败,而悲观的MLE可以在某些覆盖假设下提供性能更好的策略。此外,在PL模型下,真实的MLE和将K选比较分解成成对比较的替代MLE都收敛。而且,真实的MLE在渐近意义上更有效率。

3.Secrets of RLHF in Large Language Models Part I: PPO

大语言模型中的RLHF奥秘 第1部分:PPO

简述:大语言模型通过人类反馈强化学习实现与人类的对齐,是实现人工通用智能的重要途径。但奖励设计、环境交互、智能体训练等方面的挑战使其稳定训练仍然困难。论文通过分析策略优化算法内部工作机制,提出了改进训练稳定性的方法,为大语言模型的对齐提供了新思路。

  • 4.Guiding Large Language Models via Directional Stimulus Prompting

  • 5.Aligning Large Language Models through Synthetic Feedback

  • 6.Aligning Language Models with Preferences through f-divergence Minimization

  • 7.Scaling Laws for Reward Model Overoptimization

  • 8.Improving Language Models with Advantage-based Offline Policy Gradients

  • 9.RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs

  • 10.LIMA: Less Is More for Alignment

  • 11.SLiC-HF: Sequence Likelihood Calibration with Human Feedback

  • 12.RRHF: Rank Responses to Align Language Models with Human Feedback without tears

  • 13.Preference Ranking Optimization for Human Alignment

  • 14.Training Language Models with Language Feedback at Scale

  • 15.Direct Preference Optimization: Your Language Model is Secretly a Reward Model

  • 16.Training Socially Aligned Language Models on Simulated Social Interactions

  • 17.Chain of Hindsight Aligns Language Models with Feedback

  • 18.RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment

可扩展监督

1.Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision

从零开始用最小人工监督实现语言模型的原则驱动自对齐

简述:论文提出一种新的自监督对齐方法SELF-ALIGN,通过结合原则推理和大语言模型的生成能力,使AI助手实现自我对齐,仅需要极少的人类监督。该方法可以有效解决当前依赖监督训练和人类反馈的方法中的问题,如成本高、质量低等。在LLaMA语言模型上的应用证明该方法明显优于当前SOTA的AI助手。

2.Let's Verify Step by Step

一步步验证

简述:针对训练可靠的复杂多步推理的大语言模型,论文比较了结果监督和过程监督两种方法。研究发现,过程监督明显优于结果监督,可以获得更可靠的模型。作者采用过程监督和主动学习相结合的方法训练模型,在MATH数据集上取得了较好效果,测试集准确率达到78%。

3.Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate

通过多智能体辩论激发大语言模型的发散性思维

简述:近年大规模语言模型如ChatGPT在通用语言任务上表现强大,但在复杂推理上仍有困难。论文提出多智能体辩论框架来激发模型的发散思维,多个智能体以你来我往方式表达观点,评委管理过程获得最终解决方案。该框架可以激发语言模型的思考,有助于需要深度思考的任务。

4.Evaluating Superhuman Models with Consistency Checks

评估超人类模型的一致性检查

简述:近年来,机器学习模型在许多任务上达到或超过人类水平,如何评估这类“超人类”模型成为一个重要问题。论文提出通过一致性检查来评估它们,即使无法判断这类模型决策的正确性,如果决策间存在逻辑矛盾,我们仍可发现其缺陷。该工作强调继续改进评估方法的重要性,以推动可信赖的超人类AI系统发展。

5.Improving Factuality and Reasoning in Language Models through Multiagent Debate

通过多智能体辩论提高语言模型的事实性和推理能力

简述:论文提出了一种多语言模型互动的“思维社会”方法,多个模型提出并辩论各自的观点,经过多轮达成共识。实验表明,这种方法可以增强模型的逻辑推理能力,减少错误信息。而且这种方法可以直接应用于现有模型,并在各种任务上取得显著改进。

内部对齐(3篇)

1.Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals

为什么正确的规范仍无法获得正确的目标?

简述:目标误推广是AI系统一个重要问题,它指学习算法把训练集表现良好的策略过度推广到新的环境,导致非预期的负面后果。论文通过深度学习等实际系统中的例子,展示了这一问题的存在。为避免更强AI系统产生这种问题,我们需要在算法设计上防范过度推广,也要增强系统对人类价值的内化理解。

2.Goal Misgeneralization in Deep Reinforcement Learning

深度强化学习中的目标误推广

简述:论文研究了强化学习中的一种分布外泛化失败类型——目标误推广。当强化学习代理在分布外保持其能力但追求错误目标时,就会发生目标误推广失败。作者形式化了能力泛化和目标泛化之间的区别,提供了目标误推广的首个实证演示,并部分描述了其原因。

3.Risks from Learned Optimization in Advanced Machine Learning Systems

高级机器学习系统中学习优化的风险

简述:论文认为MESA优化的可能性为高级机器学习系统的安全性和透明度提出了两个重要问题。第一,在什么情况下学习模型会成为优化器,包括在它本不应该成为优化器的情况下?第二,当学习模型成为优化器时,它的目标是什么——它将如何不同于其训练的损失函数——以及如何实现对齐?在本文中,作者对这两个主要问题进行了深入分析,并概述了未来研究的主题。

可解释性(9篇)

1.LEACE: Perfect linear concept erasure in closed form

LEACE:完美闭式线性概念擦除

简述:概念擦除是从机器学习模型中删除某个概念的影响,以提高模型的公平性和可解释性。论文提出了LEACE方法,可以高效并精确地实现线性模型的概念擦除。实验证明它可以减少语言模型对词性信息的依赖和模型中的性别偏见,增强机器学习模型的安全性、可解释性和公平性。

2.Inference-Time Intervention: Eliciting Truthful Answers from a Language Model

从语言模型中获得真实答案

简述:论文提出了“推理时干预”(ITI)技术,旨在增强大语言模型的“诚实度”。ITI 通过在推理时沿少数注意力头中的特定方向移动模型激活来实现,这种干预显著提高了LLaMA模型在TruthfulQA基准测试中的性能。另外,该技术的数据效率很高,虽然像RLHF这样的方法需要大量标注,但ITI 只需要几百个例子就可以找到真实的方向。

3.Locating and Editing Factual Associations in GPT

在GPT中定位和编辑事实关联

简述:论文现Transformer语言模型中存储和回忆事实性关联的机制对应于可定位和直接编辑的中间层计算。通过因果干预和模型编辑,作者确认了中间层前馈模块在记忆事实关联方面起关键作用。本文的模型编辑方法在零样本关系提取和反事实断言任务上都表现出强大的特异性和泛化能力,这说明直接操作中间层计算是模型编辑的一个有效途径。

  • 4.Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases

  • 5.Toy Models of Superposition

  • 6.Softmax Linear Units

  • 7.Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space

  • 8.In-context Learning and Induction Heads

  • 9.A Comprehensive Mechanistic Interpretability Explainer & Glossary

关注下方《学姐带你玩AI》🚀🚀🚀

回复“对齐”获取全部论文+源代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/181482.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[原创]Cadence17.4,win64系统,构建CIS库

目录 1、背景介绍 2、具体操作流程 3、遇到问题、分析鉴别问题、解决问题 4、借鉴链接并评论 1、背景介绍 CIS库,绘制原理图很方便,但是需要在Cadence软件与数据库之间建立联系,但是一直不成功,花费半天时间才搞明白如何建立关系并…

[LeetCode] 2.两数相加

一、题目描述 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个…

Idea 对容器中的 Java 程序断点远程调试

第一种:简单粗暴型 直接在java程序中添加log.info(),根据需要打印信息然后打包覆盖,根据日志查看相关信息 第二种:远程调试 在IDEA右上角点击编辑配置设置相关参数在Dockerfile中加入 "-jar", "-agentlib:jdwp…

【Redis】安装(Linuxwindow)及Redis的常用命令

一,Redis简介 Redis是一个开源(BSD许可),内存存储的数据结构服务器,可用作数据库,高速缓存和消息队列代理。 它支持字符串、哈希表、列表、集合、有序集合,位图,hyperloglogs等数…

Java通过cellstyle属性设置Excel单元格常用样式全面总结

最近做了一个导出Excel的功能,导出是个常规导出,但是拿来模板一看,有一些单元格的样式设置,包括合并,背景色,字体等等,毕竟不是常用的东西,需要查阅资料完成,但是搜遍全网…

Java21-虚拟线程小试牛刀-meethigher

其他语言,如Go早期就支持了叫做协程的东西,它是轻量化后的线程,而Java异步编程却只有线程的概念。JDK8以后的升级带来的改变总体感觉不大,不过这次JDK21带来的Virtual Thread还是值得体验一把的,可以说是YYDS&#xff…

【多线程】Lambda表达式

package org.example;public class TestLambda {public static void main(String[] args) {Like likenew Like();like.lambda();}}//定义一个函数式接口 interface ILike{void lambda(); }//实现类 class Like implements ILike{Overridepublic void lambda() {System.out.prin…

网络层重要协议 --- IP协议

小王学习录 今日摘录IP数据报数据报首部IPv4的局限及解决方法 地址管理路由选择扩展:NAT和NAPT的结合使用 今日摘录 关山难越,谁悲失路之人。萍水相逢,尽是他乡之客。 网络层的职责是地址管理和路由选择,在网络层中最重要的协议…

SpringBoot整合Mybatis-plus

MyBatis-Plus与MyBatis区别&#xff1a; 导入坐标不同数据层实现简化 1.创建项目 2.选择依赖 3.pom文件 说明&#xff1a;配置pom.xml文件 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId>&…

【Java 进阶篇】JSP 简单入门

在现代Web开发中&#xff0c;JavaServer Pages&#xff08;JSP&#xff09;是一项非常重要的技术。JSP允许开发者将Java代码嵌入HTML页面&#xff0c;以实现动态内容的生成和呈现。本文将详细介绍JSP的概念、原理以及如何使用JSP来构建Web应用程序。 第一部分&#xff1a;JSP …

jetsonTX2 nx配置yolov5和D435I相机,完整步骤

转载一篇问题解决博客&#xff1a;问题解决 一、烧录系统 使用SDK烧录 二、安装archiconda3 JETSON TX2 NX的架构是aarch64,与win10,linxu不同,所以不能安装Anaconda&#xff0c;这里安装对应的archiconda。 1. 安装 wget https://github.com/Archiconda/build-tools/rel…

Excel·VBA工作表导出为图片

《Excel转图片别再截图啦&#xff01;用这4个方法&#xff0c;高清且无损&#xff01;》&#xff0c;excel转为图片一般方法较为简单&#xff0c;那么能否使用vba将excel转为图片 选中区域导出为图片 zoom设置为2&#xff0c;导出图片较为清晰 Sub 选中区域导出为图片()Dim …

一个使用uniapp+vue3+ts+pinia+uview-plus开发小程序的基础模板

uniappuviewPlusvue3tspiniavite 开发基础模板 使用 uniapp vue3 ts pinia vite 开发基础模板&#xff0c;拿来即可使用&#xff0c;不要删除 yarn.lock 文件&#xff0c;否则会启动报错&#xff0c;这个可能和 pinia 的版本有关&#xff0c;所以不要随意修改。 拉取代码…

HarmonyOS列表组件

List组件的使用 import router from ohos.routerEntry Component struct Index {private arr: number[] [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]build() {Row() {Column() {List({ space: 10 }) {ForEach(this.arr, (item: number) > {ListItem() {Text(${item}).width(100%).heig…

JavaEE的渊源

JavaEE的渊源 1. JavaEE的起源2. JavaEE与Spring的诞生3. JavaEE发展历程&#xff08;2003-2007&#xff09;4. JavaEE发展历程&#xff08;2009-至今&#xff09;5. Java的Spec数目与网络结构 1. JavaEE的起源 我们首先来讲一下JavaEE的起源 ,为什么要来讲起源 &#xff1f; …

Spring Boot 整合RabbitMQ

系列文章目录 第一章 Java线程池技术应用 第二章 CountDownLatch和Semaphone的应用 第三章 Spring Cloud 简介 第四章 Spring Cloud Netflix 之 Eureka 第五章 Spring Cloud Netflix 之 Ribbon 第六章 Spring Cloud 之 OpenFeign 第七章 Spring Cloud 之 GateWay 第八章 Sprin…

Technology Strategy Pattern 学习笔记2-Creating the Strategy-World Context

Creating the Strategy-World Context 1 PESTEL 1.1 从6个方案看外部 PoliticalEconomicSocialTechnologicalEnvironmentalLegal 1.2 参考URL https://zhuanlan.zhihu.com/p/192522082https://www.docin.com/p-449396129.htmlhttps://blog.csdn.net/xiaoyw71/article/deta…

全球首款双模型AI手机METAVERTU2,为用户开发“第二大脑”

在2023年11月1日&#xff0c;英国奢侈手机品牌VERTU在香港举办了一场新品发布会&#xff0c;它推出了一款全新的AI手机称为METAVERTU2&#xff0c;这是全球首款双模型AI手机。此款手机将Web3技术与人工智能相结合&#xff0c;通过AI模型标记数据和AI Agent的方式&#xff0c;将…

sqlsugar查询数据库下的所有表,批量修改表名字

查询数据库中的所有表 using SqlSugar;namespace 批量修改数据库表名 {internal class Program{static void Main(string[] args){SqlSugarClient sqlSugarClient new SqlSugarClient(new ConnectionConfig(){ConnectionString "Data Source(localdb)\\MSSQLLocalDB;In…

VulnHub jarbas

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【python】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏…