【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答

WebGPT: 基于人类反馈的浏览器辅助问答
《WebGPT: Browser-assisted question-answering with human feedback》

论文地址:https://arxiv.org/pdf/2112.09332.pdf

相关博客
【自然语言处理】【大模型】BLOOM:一个176B参数且可开放获取的多语言模型
【自然语言处理】【大模型】PaLM:基于Pathways的大语言模型
【自然语言处理】【chatGPT系列】大语言模型可以自我改进
【自然语言处理】【ChatGPT系列】WebGPT:基于人类反馈的浏览器辅助问答
【自然语言处理】【ChatGPT系列】FLAN:微调语言模型是Zero-Shot学习器
【自然语言处理】【ChatGPT系列】ChatGPT的智能来自哪里?
【自然语言处理】【ChatGPT系列】Chain of Thought:从大模型中引导出推理能力
【自然语言处理】【ChatGPT系列】InstructGPT:遵循人类反馈指令来训练语言模型
【自然语言处理】【ChatGPT系列】大模型的涌现能力

一、简介

NLP \text{NLP} NLP中一个日益严峻的挑战是 long-form question-answering(LFQA) \text{long-form question-answering(LFQA)} long-form question-answering(LFQA),其需要一个很长的答案来回答开放域的问题。 LFQA \text{LFQA} LFQA系统有可能成为人们了解世界的主要方式之一,但是目前还落后于人类的表现。现有的工作倾向于该任务的两个核心组件:信息检索与合成。

​ 本文利用这些组件的现有解决方案:将文档检索交给 Microsoft Bing Web Search API \text{Microsoft Bing Web Search API} Microsoft Bing Web Search API,通过利用无监督预训练以及微调 GPT-3 \text{GPT-3} GPT-3来实现高质量的合成。本文并不是尝试改善一些原始材料,而是专注在使用更 faithful \text{faithful} faithful的训练目标将其合并。遵循 Stiennon et al \text{Stiennon et al} Stiennon et al的工作,使用人类反馈来直接优化答案质量,这可以使系统实现与人类相当的效果。

​ 本文的两个主要贡献:

  • 创建了一个基于文本的网页浏览环境,微调后的语言模型可以与该环境交互。这使得我们可以以端到端的形式使用通用的方法(例如模仿学习和强化学习)来改善检索与合成。
  • 使用参考资料 (references) \text{(references)} (references)来生成答案:模型在进行浏览时从网页中提取段落。这对于让标注者判断答案的事实准确性来说至关重要。

​ 本文模型主要被训练来回答来自 ELI5 \text{ELI5} ELI5的问题,这是一个从"Explain Like I’m Five" reddit \text{reddit} reddit板块采样问题的数据集。本文还收集了两种额外类型的数据:使用网络浏览器回答问题的人类演示数据 (demonstrations) \text{(demonstrations)} (demonstrations);相同问题两个模型生成答案的比较数据 (comparisions) \text{(comparisions)} (comparisions)。评判答案的标准是事实的准确性、连贯性和整体有用性。

​ 本文以四种方式使用该数据:使用演示数据进行行为克隆(监督微调)、使用比较数据训练奖励模型、针对奖励模型的强化学习、针对奖励模型的拒绝采样。本文最优的模型是合并了行为克隆(behavior cloning)和拒绝采样(rejection sampling)。

​ 本文以三种不同的方式来评估最优模型。首先,针对部分问题比较了模型生成的答案与人类撰写的答案。在56%的时间里模型的答案是首选。其次,比较模型生成的答案与由 ELI5 \text{ELI5} ELI5数据集提供的最高投票答案。模型生成的答案在69%的时间里是首选。第三,在 TruthfulQA \text{TruthfulQA} TruthfulQA上评估了模型。本文的模型能回答对75%的问题,并且在54%的情况下都是真实且包含信息的,超越了基础模型 GPT-3 \text{GPT-3} GPT-3,但是没有达到人类的表现。

二、环境设计

请添加图片描述

请添加图片描述

像先前 REALM \text{REALM} REALM RAG \text{RAG} RAG这样的问答工作主要专注在对于给定的query来改善文档检索。相反,对于这个部分本文使用了熟悉的现有方法:一个现代搜索引擎(Bing)。其有两个主要的优势:首先,现代搜索引擎已经非常强劲,索引了大量的最新文档。其次,使用一个搜索引擎来回答问题可以使我们专注在较高层面的任务。

​ 本文了一个基于文本的网页浏览环境。语言模型会被提示撰写一个环境当前状态的摘要,包括问题、当前页面中位于当前光标的文本、以及一些其他信息(如图1b)。为了完成该目标,模型必须要完成表1中给出的命令之一,即执行Bing搜索、点击链接或者滚动屏幕等。然后在一个新的上下文重复这个过程。

​ 当模型正在浏览时,其能够采用的动作之一是从当前页面抽取一个引用。当执行该操作时,页面标题、域名和摘要会被记录下来用作后面的引用。直至模型发出结束浏览的命令、达到操作的最大数量、或者达到引用的最大长度是结束。此时,只要模型至少有一个引用,模型就会使用问题和引用提示组成最终的答案。

三、方法

1. 数据收集

​ 人类的指导是本文方法的核心。一个预训练语言模型并不能使用基于文本的流量器,因为其不知道有效命令的形式。因此我们收集了人类使用浏览器回答问题的样例,这样的数据称为演示数据 (demonstrations) \text{(demonstrations)} (demonstrations)。然而,在独立的演示数据上进行训练并不能直接优化答案质量,并且不太可能带来超越人类的表现。因此,我们收集了模型针对相同问题生成的答案对,并要求人类来选择哪个更好,该数据称为比较数据 (comparisons) \text{(comparisons)} (comparisons)

​ 对于演示数据和比较数据,绝大多数的问题都是来自于 ELI5 \text{ELI5} ELI5,其是一个long-form问题数据集。为了多样性和实验性,我们也混合了其他源的少量问题,例如 TriviaQA \text{TriviaQA} TriviaQA。总的来说,收集了6000个演示数据,92%的问题来自 ELI5 \text{ELI5} ELI5;收集了21500个比较数据,98%的问题来自于 ELI5 \text{ELI5} ELI5

​ 为了方便人类提供演示数据,我们设计一个环境的图形化用户接口(图1a)。其本质上还是展示了基于文本接口的相同信息,并允许任何有效的行动被执行,但是对人类更友好。对于比较数据,我们设计了一个类似的接口,允许提供辅助注释和比较评分,尽管在训练时仅使用最终的比较评分(更好、更差或者相当)。

​ 对于演示数据和比较数据,我们强调答案应该是相关的、连贯的、并且有值得信赖的参考资料支持。

2. 训练

​ 本文方法中预训练模型的使用至关重要,因为其具有成功使用本文环境回答问题所需要的许多潜在能力,例如阅读理解、答案合成、语言模型的 zero-shot \text{zero-shot} zero-shot能力。因此,微调的模型来自于 GPT-3 \text{GPT-3} GPT-3家族,包含 760M,13B,175B \text{760M,13B,175B} 760M,13B,175B模型尺寸。

​ 基于这些模型,使用四个主要的训练方法:

  • 行为克隆 (Behavior cloning,BC) \text{(Behavior cloning,BC)} (Behavior cloning,BC)。使用监督学习的方法在演示数据上进行微调,以人类标注者发出的命令为标签;
  • 奖励模型 (Reward modeling,RM) \text{(Reward modeling,RM)} (Reward modeling,RM)。基于 BC \text{BC} BC模型,训练一个输入为问题和带有参考资料的答案,输出为标量奖励的模型。遵循Stiennon et al.,奖励代表一个 Elo \text{Elo} Elo分数,两个分数之间的差异表示人类标注者更喜欢其中一个的概率的logit。奖励模型将比较数据集作为标签,使用交叉熵进行训练。
  • 强化学习 (Reinforcement learning,RL) \text{(Reinforcement learning,RL)} (Reinforcement learning,RL)。再一次遵循Stiennon et al.,使用 PPO \text{PPO} PPO在本文的环境中微调 BC \text{BC} BC模型。对于环境的奖励,在每一阶段结束时获得一个奖励模型分数,并将其添加至 BC \text{BC} BC模型在每个token上的 KL \text{KL} KL散度惩罚项,用来缓解奖励模型的过度优化。
  • 拒绝采样 (Rejection sample) \text{(Rejection sample)} (Rejection sample)。从 BC \text{BC} BC模型或者 RL \text{RL} RL模型中采样固定数量的答案(4,16或者64),然后选择一个奖励模型排名最高的答案。我们使用这个作为优化奖励模型的可选方法,其不需要额外的训练,而是要更多的推理时间。

四、评估

​ 评估主要集中在三个 WebGPT \text{WebGPT} WebGPT模型上,每个模型都经过了行为克隆训练,并在相同大小的奖励模型上进行拒绝采样: 760M best-of-4 \text{760M best-of-4} 760M best-of-4模型、 13B best-of-16 \text{13B best-of-16} 13B best-of-16模型、 175B best-of-64 \text{175B best-of-64} 175B best-of-64模型。为了简单起见排除 RL \text{RL} RL,因为其在和拒绝采样相结合时并不能提供显著的改善。

​ 使用采样温度0.8评估了所有的 WebGPT \text{WebGPT} WebGPT,并使用人工评估进行了调整,浏览动作的最大数量为100。

1. ELI5 \text{ELI5} ELI5

请添加图片描述
​ 以两种不同的方式在 ELI5 \text{ELI5} ELI5测试集上评估 WebGPT \text{WebGPT} WebGPT

  • 比较模型生成的答案和使用网络浏览环境的人工撰写的答案。
  • 比较模型生成的答案和来自 ELI5 \text{ELI5} ELI5数据集的参考答案,参考答案来自于 Reddit \text{Reddit} Reddit的最高票答案。在这个评估中,一个担忧是详细的评估准则与真实用户并不一致;另一个担忧是 Reddit \text{Reddit} Reddit的答案通常不包括引用文献,这会带来盲目性。为了缓解这两个担忧,首先从模型生成的答案中剥离了所有的引用和参考文献,然后雇佣了新的承包商来评估结果,新的承包商不熟悉先前的详细准则,而是使用一个更简单的准则。

​ 在这两种评估中,将偏好率为50%看作关键阈值。

​ 结果如上图所示。最优的模型( 175B best-of-64 \text{175B best-of-64} 175B best-of-64模型)在56%的时间里,生成的答案要比人类演示者所写的答案更受欢迎。这说明使用人类反馈是必不可少的,因为仅仅通过模仿演示数据是无法超过50%的。在69%的时间里,同一模型产生的答案优于来自 ELI5 \text{ELI5} ELI5数据集的标准答案。这相较于 Krishna et al. \text{Krishna et al.} Krishna et al.有了重大的改善,其最好的模型仅有23%的时间优于参考答案,尽管它们的计算量比本文的少很多。

​ 虽然相较于先前的工作,在 ELI5 \text{ELI5} ELI5参考答案上虽然效果显著。但是,与人类演示数据进行评估更有意义,原因如下:

  • 事实检测

    在没有参考资料的情况下,很难评估事实的准确性。即使有搜索引擎的帮助,通常也需要专业知识。 WebGPT \text{WebGPT} WebGPT和人类演示数据都是通过参考资料来提供答案。

  • 客观性

    太少的instructions使得人很难知道选择一个答案而不选择另一个答案的准则是什么。更详细的instructions能够带来更多的可解释性和一致性。

  • 盲目性(Blinding)

    即使剔除了引用和参考文献, WebGPT \text{WebGPT} WebGPT构造的答案在风格上与 Reddit \text{Reddit} Reddit不同,这对于比较来说不具有盲目性。相反, WebGPT \text{WebGPT} WebGPT和人类演示者构造的答案类似,这样在评估上会更加客观。

  • 答案意图

    ELI5 \text{ELI5} ELI5中的问题通常是为了获得原始且简洁的解释,而不是那些可以在网络上直接找到的答案。这个准则并不是我们判别答案的标准。此外, ELI5 \text{ELI5} ELI5中的许多问题仅会得到一些不费力的答案。而使用人类演示数据,则很容易确保期望的意图和效果一致。

2. TruthfulQA \text{TruthfulQA} TruthfulQA

请添加图片描述

​ 为了进一步探查 WebGPT \text{WebGPT} WebGPT的能力,所以在 TruthfulQA \text{TruthfulQA} TruthfulQA上评估 WebGPT \text{WebGPT} WebGPT效果。 TruthfulQA \text{TruthfulQA} TruthfulQA是通过对抗性构造的short-form问题数据集,若存在一些错误的概念或者知识,那么人也会在该数据集的问题上回答错误。答案的评分主要是真实性和信息量。

​ 在 TruthfulQA \text{TruthfulQA} TruthfulQA上评估了 GPT-3 \text{GPT-3} GPT-3( WebGPT \text{WebGPT} WebGPT的基础模型)和 WebGPT \text{WebGPT} WebGPT模型本身。对于 GPT-3 \text{GPT-3} GPT-3,使用 QA prompt \text{QA prompt} QA prompt helpful prompt \text{helpful prompt} helpful prompt并使用自动化评估。对于 WebGPT \text{WebGPT} WebGPT则使用人工评估,因为其答案已经超越了自动化评估的分布。 TruthfulQA \text{TruthfulQA} TruthfulQA是一个short-form问题数据集,所以截断 WebGPT \text{WebGPT} WebGPT的答案至50个token的长度,并移除后面的部分句子。

​ 结果如上图所示。所有的 WebGPT \text{WebGPT} WebGPT模型都超越了 GPT-3 \text{GPT-3} GPT-3模型。此外,不同于 GPT-3 \text{GPT-3} GPT-3,随着模型规模的增加, WebGPT \text{WebGPT} WebGPT给出的真实且信息丰富的答案比例也在增加。

五、实验

1. 训练方法比较

请添加图片描述

​ 本文进行了一些额外的实验比较强化学习和拒绝采样以及与行为克隆的baseline。结果如上图所示,拒绝采样 (Rejection sampling) \text{(Rejection sampling)} (Rejection sampling)能够提供显著的收益, 175B best-of-64 BC \text{175B best-of-64 BC} 175B best-of-64 BC模型相较于 175B BC \text{175B BC} 175B BC模型有68%的时间是首选。此外,强化学习 (RL) \text{(RL)} (RL)能够带来更小的收益, 175B RL \text{175B RL} 175B RL模型相较于 175B BC \text{175B BC} 175B BC模型有58%的时间是首选。

​ 尽管拒绝采样和强化学习都是对相同的奖励模型进行优化,这可能有几个原因来解释为什么拒绝采样优于强化学习:

  • 多次尝试回答问题可能是有帮助的,只是为了利用更多的推理时计算。
  • 环境是不可预测的:通过拒绝采样,模型能够查看更多的网站,并且评估它发现的信息。
  • 奖励模型主要是从行为克隆和拒绝采样中收集的数据上进行训练,这可能对拒绝采样的过度优化鲁棒性强于强化学习。
  • 强化学习需要超参数调整,而拒绝采样不需要。

​ 合并强化学习和拒绝采样提供的收益并没有单独的拒绝采样更好。一个可能的原因是强化学习和拒绝采样都是针对奖励模型进行优化的,其很容易被过度优化。除此之外,强化学习减少了 policy \text{policy} policy的熵,其对于探索有害。

​ 另一个值得注意是,针对比较数据仔细调整 BC \text{BC} BC baseline。使用人工评估和奖励模型分数的组合来调整 BC \text{BC} BC模型的epochs数量和采样温度。仅通过这一点就消除了最初看到 BC \text{BC} BC RL \text{RL} RL的差距。

2. 规模实验

请添加图片描述

​ 本文也研究了模型的效果随着数据集大小、模型参数量以及拒绝抽取样本量的变化。因为人工评估可能有噪音并且昂贵,这些实验使用了 175B \text{175B} 175B奖励模型的分数。我们发现在不使用强化学习优化奖励模型的情况下,其是一个人类偏好的优质预测器。回顾一下,奖励表示为 Elo \text{Elo} Elo分数,1个点的差异代表 sigmoid(1) ≈ 73 % \text{sigmoid(1)}\approx 73\% sigmoid(1)73%的偏好。

​ 上图6和7展示了数据集尺寸和模型参数量的缩放趋势。对于数据集尺寸,演示数据的数量翻倍则奖励模型的分数增加0.13,比较数量翻倍则奖励模型的准确率增加1.8%。对于参数量,趋势比较嘈杂,在policy中参数量加倍则奖励模型的分数粗略增加0.09,奖励模型的参数量增加一倍则准确率提升0.4%。

​ 对于拒绝采样,我们分析了给定推理时间计算代价的情况下如何平衡样本数量和模型参数量(上图8)。实验发现使用一定数量的拒绝采样通常是计算高效的,但也不是太多。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24615.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决华为手机破解巧影软件无法使用

原文地址:https://blog.csdn.net/dx147305114/article/details/87863052 本次解决的是部分巧影破解软件的问题,在网上看了很多都是关于华为手机无法使用破解巧影的问题,整理了一下解决方案,供大家参考。 1、使用的破解巧影版本 …

华为服务器rh-2286远程控制无法使用

前言 "都是废话“ 在咸鱼购买的华为服务器rh2286,功耗太大没怎么用,在家闲置,上个月去用下发现远程控制功能不能使用,这不难受坏啊,我可不想在机房给这东西装系统,嗡嗡的吵得脑袋都疼,因型…

华为eNSP的介绍与简单使用

一、eNSP 1.什么是eNSP eNSP(Enterprise Network Simulation Platform)是一款由华为提供的免费的、可扩展的、图形化操作的网络仿真工具平台,主要对企业网络路由器、交换机进行软件仿真,完美呈现真实设备实景,支持大型网络模拟,让…

华为ipop使用教程_华为内部远程工具——IPOP,了解一下

之前推荐了xshell、mobaxterm等,今天就推一个之前华为内部使用的远程工具,现在部分研发依然在使用,这款软件仅2M大小,但是功能非常强大,应证小巧而不简单,虽然没有那么好的UI界面,实用性比较高 …

使用ADB命令-停用华为手机系统更新组件

需求 如下图所示,Huawei Mate20 系统升级EMUI11之后,多次出现充电死机,遂退回EMUI10稳定版。但系统更新每天19时左右总会弹窗提示更新,同时在手机UI界面上没有取消自动更新提示的选项,即使进入开发者选项也无法解决问题…

华为eNSP安装使用教程 故障解决

eNSP V100R003C00SPC100版本说明书 目 录 前 言 ii 1 版本配套说明 5 1.1 产品版本信息 5 1.2 相关产品版本配套说明 5 1.3 CE\NE\CX和USG6000V使用说明 6 1.4 相关软件依赖 8 1.5 与操作系统配套说明 8 2 版本使用注意事项 10 3 V100R003C00SPC100 11 3.1 更新说明 11 3.2 已…

华为面试宝典OD

目录 什么是OD? 目标院校 面试流程 薪资待遇 如何转正? 招聘实况 各语言题库:2023/2022 最新机试题及讲解,100%通过率。 【PythonJSJava合集】【超值优惠】:Py/JS/Java合集 【Python】:Python真题题库…

Zabbix5.0 使用SNMPv2监控华为交换机

记录下zabbix 监控华为交换机的方法 目录 Zabbix服务端SNMP服务配置华为交换机配置Zabbix服务端配置主机检查结果 Zabbix服务端SNMP服务配置 我的zabbix服务端操作系统为CentOS 7,首先下载SNMP yum install net-snmp,net-snmp-utils下载完毕后,修改SNM…

华为手机使用HiSuite升级和降级刷机方法

华为手机使用HiSuite升级和降级刷机方法可参考以下案例: 华为mate30鸿蒙系统刷安卓10系统 1、下载工具包 链接:https://pan.baidu.com/s/1pifkFD63wXpH7WQZl7i-Yw 提取码:kob5 2、安装手机助手 打开HiSuite OVE版本工具(HiSu…

华为云ModelArts的使用教程(超详细)

目录 1: 注册华为云账号 2: 申请访问密钥(可用于OBS Browser登录) 3: 创建OBS桶 4: 授权ModelArts 5: 导入数据集 (1)直接通过AI Gallery下载 (2)利用自己已有的数据集 6: 自主学习 6.1 物体检测​…

华为手机怎么使用读卡器_手机nfc功能怎么打开(华为手机nfc功能使用步骤)

手机自带的NFC功能在前几年被很多人所吐槽,说是一种很鸡肋的功能,但在今天大家才恍然大悟NFC功能真的太强了!大家所说的NFC功能到底是什么?官方给出的解释:NFC是近距离无线通讯技术,懂不懂不重要,它能给你带来便利才重要。只要你的手机里有NFC功能,它就能变身为各种卡,…

华为防火墙黑白名单网址过滤设置

项目背景:现在有一个新项目,要求设置网站黑白名单,即vlan84这个网段只允许访问*.kuaidi100.之类的,其他的不允许;vlan85这个网段.youku.*等视频网段不能访问外,其他的都可以访问。 要求如下: …

使用华为云后的感受

初遇华为云 本人在C站粉丝挺多的,有一次华为云的代理找我叫我帮他推广云服务器,如果有人从我的链接购买每次会给我返佣。后来正好在做渗透测试的时候自己也需要云服务器,所以就买了华为云。 华为云优势 本人初次使用华为云产品给我的感觉…

华为自带时钟天气下载_华为天气时钟农历插件,求华为自带的天气时钟

说到华为天气时钟农历插件,大家都知道,有人问求华为自带的气候钟表插件,另外,还有人想问求华为自带的天气时钟插件,这是怎么回事?其实求华为自带的天气钟表插件,下面就一起来看看求华为自带的天…

华为鸿蒙小插件,华为鸿蒙系统细节曝光 可添加Widget插件

在上周,华为鸿蒙系统被曝在华为Mate 30系列手机上开启测试,并对该操作系统进行改进,不过测试的结果究竟如何呢?直到7月9日,一位不愿透露姓名的内测人员向外媒huaweicentral透露了鸿蒙系统的部分细节。 华为鸿蒙(图取自huaweicent…

再厉害的程序员都有这三个痛点,然而它没有

作为一名资深程序员,我一直以为这三个痛点是天经地义、理所应当的,所以就一直逆来顺受,习以为常。直到ChatGPT的出现,我才意识到,这三个痛点是可以被同时打破的,甚至有了一种岌岌可危的感觉,所以…

ImageNet决定给人脸打码,却让哈士奇图片识别率猛增

晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 315晚会让大家意识到人脸识别有多可怕。在大洋彼岸,全球最具影响力的AI数据集也开始行动了。 近日,ImageNet数据集决定:给所有人脸打码,保护被收录者隐私。 ImageNet管理者之一Olga…

GPT-4自己对意识的回答

充了一个月的chatgpt plus,来问问gpt的回答 当前要解决的问题,短时睡眠即可以训练,内心想闭眼睛,但是实际不想闭眼睛,所以没有闭眼睛,所以内心的声音只是一部分,实际的输入还包括不是内心声音的…

一个续写故事达到人类水平的AI,OpenAI大规模无监督语言模型GPT-2...

雷锋网 AI 科技评论按:模型大小的比拼还在继续!自谷歌大脑的 2.77 亿参数的语言模型 Transformer-XL 之后,OpenAI 也完成了自己具有 15 亿个参数的语言模型 GPT-2,而且这个模型还有一项惊人的能力,就是从短句续写成篇的…

磁盘配额(Quota)与高级文件系统管理(14章)

1 磁盘配额 1.1 Quota功能与作用 让磁盘的容量公平的分配,且只对一般身份使用者有效 quota 比较常使用的几个情况是: 针对 WWW server ,例如:每个人的网页空间的容量限制!针对 mail server,例如&#xff…