无需人工标注,自生成指令框架打破ChatGPT等LLM的成本瓶颈

来源:机器之心

当前,大型语言模型的性能已经达到了很高的水平,除了进一步挖掘其潜力,我们还应该关注到模型背后的人工标注成本。

ChatGPT 是今年年底 AI 圈的新晋顶流,人们惊叹于它强大的问答语言能力和掌握的编程知识。但越是强大的模型,其背后的技术要求也就越高。

ChatGPT 是在 GPT 3.5 系列模型的基础上,引入「人工标注数据 + 强化学习」(RLHF)来不断微调预训练语言模型,旨在让大型语言模型(LLM)学会理解人类的命令,并学会根据给定的 prompt 给出最优的答案。

这种技术思路是当前语言模型的发展趋势。这类模型虽然很有发展前景的,但模型训练和微调所需的成本非常高。

根据 OpenAI 目前公开的信息,ChatGPT 的训练过程共分为三个阶段:

3f97c1cb6ecb1734f4c14e0971e53ea3.png

首先,第一个阶段是类似于 GPT 3.5 的有监督策略模型,这个基础模型很难理解人类不同类型指令中蕴含的意图,也很难判断生成内容的质量高低。研究人员从 prompt 数据集中随机抽取了一些样例,然后让专业的标注人员根据指定 prompt 给出高质量的答案。这个人工过程获得的 prompt 及其相应高质量答案被用于微调初始的有监督策略模型,使其具备基本的 prompt 理解能力,并初步提高生成答案的质量。

第二阶段研究团队抽取模型根据给定 prompt 生成的多个输出,然后让人类研究员对这些输出进行排序,再用排序数据训练奖励模型(reward model,RM)。ChatGPT 采取 pair-wise loss 来训练 RM。

第三阶段研究团队采用强化学习来增强预训练模型的能力,利用上一阶段学好的 RM 模型来更新预训练模型参数。

我们可以发现,在 ChatGPT 训练的三个阶段中,只有第三阶段不需要使用人工标注数据,而第一第二阶段都需要大量的人工标注。因此 ChatGPT 这类模型虽然性能很好,但是为了提高其遵循指令的能力,人工成本非常高。随着模型规模越来越大,能力范围越来越广,这个问题就会越发严重,最终成为阻碍模型发展的瓶颈。

一些研究尝试提出解决这一瓶颈的方法,比如华盛顿大学等机构近期联合发表了一篇论文《SELF-INSTRUCT: Aligning Language Model with Self Generated Instructions》,提出的新框架 SELF-INSTRUCT 通过引导模型自己的生成过程,提高了预训练语言模型的指令遵循能力。

f0095131a7c336b3fb59324faee4d974.png

论文地址:https://arxiv.org/pdf/2212.10560v1.pdf

SELF-INSTRUCT 是一种半自动化过程,使用来自模型本身的指令信号对预训练的 LM 进行指令调整。如下图所示,整个过程是一个迭代引导算法。

634bf4ce004951792dfb5b1082b93787.png

SELF-INSTRUCT 从有限的种子集开始,指导整个生成过程的手动编写指令。在第一阶段,模型被 prompt 成为新任务生成指令,该步骤是利用现有的指令集来创建更广泛的指令,以此来定义新任务。SELF-INSTRUCT 还为新生成的指令集创建输入输出实例,以用于监督指令调整。最后,SELF-INSTRUCT 还对低质量和重复指令进行修剪。整个过程是反复迭代执行的,最终模型能为大量任务生成指令。

为了验证新方法的有效性,该研究在 GPT-3 上应用 SELF-INSTRUCT 框架,最终产生大约 52k 条指令,82k 实例输入和目标输出。研究者观察到 GPT-3 在 SUPER-NATURALINSTRUCTIONS 数据集中的新任务上比原始模型获得了 33.1% 的绝对改进,与使用私人用户数据和人工标注训练的 InstructGPT_001 性能相当。

f7b7b20983f0fcb96711652dbbb5a067.png

为了进一步评估,该研究为新任务整理了一组专家编写的指令,并通过人工评估表明,使用 SELF-INSTRUCT 的 GPT-3 性能会大大优于现有使用公共指令数据集的模型,并且仅比 InstructGPT_001 落后 5%。 

f2de3006fce78b8c8727f6e7967c7756.png

SELF-INSTRUCT 提供了一种几乎不需要人工标注的方法,实现了预训练语言模型与指令对齐。已有多个工作在类似的方向上做出尝试,都收获了不错的结果,可以看出这类方法对于解决大型语言模型人工标注成本高的问题非常有效。这将让 ChatGPT 等 LLM 变得更强,走得更远。

参考链接:

https://zhuanlan.zhihu.com/p/589533490

https://openai.com/blog/chatgpt/

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 一位博士在华为的22年

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

23585d6fce195295861769a56fe8be49.jpeg

👆 长按识别,邀请您进群!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28318.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NLP之情感分析:基于python实现中文文本情感分析

NLP之情感分析:基于python编程(jieba库)实现中文文本情感分析(得到的是情感评分) 输出结果 1、测试对象 data1 今天上海的天气真好!我的心情非常高兴!如果去旅游的话我会非常兴奋!和你一起去旅游我会更加幸福! data2 …

详细介绍NLP对话系统

任务型对话系统 任务型对话系统主要应用于固定领域。任务型对话的广泛应用的方法有两种,一种是模块法,另一种是端到端的方法。 模块法是将对话响应视为模块,每个模块负责特定的任务,并将处理结果传送给下一个模块。 端到端的任务…

python实现中文情感分析与可视化

目录 一、导入原始数据 二、结巴分词/绘制词云图 三、计算情感值,情感分析 # 方法一、SnowNLP计算情感得分 # 方法二、使用字典计算情感得分 四、# 数据可视化展示 五、绘制相关系数热力图 一、导入原始数据 #导入模块 import pandas as pd import numpy as np …

《PlumGPT:让你的聊天更智能,更有趣》

《PlumGPT:让你的聊天更智能,更有趣!》 文章目录 《PlumGPT:让你的聊天更智能,更有趣!》前言一、入口地址二、开始注册三、开始验证四、进入首页五、功能点介绍1.Light mode2.Help3.My account4.Log out 六…

【句子互动转载】1. 对话系统趋势分析

作者:李佳芮_chatbot 链接:https://www.jianshu.com/p/89d621c9cffe 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 本章我会带领大家了解对话系统的趋势,以及为什么我们要搭建一个…

【四】情感对话 Improving Multi-turn Emotional Support Dialogue Generation with Lookahead Strategy Planning

【四】情感支撑对话论文最近进展 Emotion Support Conversation 今天给大家分享一篇在EMNLP 2022的关于情感对话的论文。主要思想是从策略安排的角度来有效地提供情感支撑,并且通过理解用户的状态达到更好的生成效果。 相关情感支撑论文综述整理指路 -> 点这里…

【一】情感对话 Towards Emotional Support Dialog Systems 论文阅读

【一】情感支撑对话论文最近进展 Emotion Support Conversation 今天给大家介绍一下Towards Emotional Support Dialog Systems这篇由黄老师团队发表在2021 ACL的数据集。 相关论文综述整理指路 -> 点这里 主要分成以下几个部分进行介绍: 研究背景实例介绍ES…

ChatGPT接口返回代码高亮显示的实现逻辑

官方API:POST https://api.openai.com/v1/chat/completions 我们在使用openai提供的接口时,返回的数据如果包含代码,会发现代码是没有样式的,它们一般是用包含的一段文本。 如图: 怎么样才能做到和官方一样的美观呢&…

还在crud?快来学习架构设计啦---微服务下的依赖管理(maven篇)

文章目录 一、前言二、实战2.1 创建父工程统一依赖的版本管理2.2 创建公共使用的 common工程2.3 创建子工程并引入父工程的依赖以及公共工程2.4 搭建启动环境2.5 启动程序开始验证 三、总结 一、前言 2023年口罩放开的第一年,大多数人都是想着重新开始,…

ChatGPT 4.0 —— Code Interpreter

📎产品销售数据集.csv 选取以上的数据集作为输入,对Code Interpreter 进行测试 1.输入指定数据集,要求给出该数据集的概貌 2.请分析销售的总金额和其他变量的关系 Python Script: # Import required libraries import matplotlib.pyplot a…

500行JavaScript代码在前端根据数据生成CAD工程剖面图

前言 ​ 用数据生成CAD图,一般采用的ObjectArx对CAD二次开发完成。ObjectARX是AutoDesk公司针对AutoCAD平台上的二次开发而推出的一个开发软件包,它提供了以C为基础的面向对象的开发环境及应用程序接口,能访问和创建AutoCAD图形数据库。而由…

SolidWorks+thonny esp32 电磁控制,程序算法搞起来了,我的结构-仿真-电磁-控制-算法的学习之路

来个自我介绍,本科是微电子制造专业,隶属于机电工程学院,所以机械,电子,控制,流体,材料,结构这些基础都有,而且水平不低。工作了13年,主要干机械,…

有趣的技术探索分享小合集

Chatgpt 现世仅两个月,已经达到了 1 亿月活跃用户,不但影响了世界范围内的知识工作者,还在各行各业掀起了科技创新的热潮。在信息大爆炸、新科技不断涌出的现阶段,拥有面向未来的科技趋势的重要的洞察力,并由此改变所处…

chatgpt赋能python:Python画圆柱体教程:从入门到实践

Python画圆柱体教程:从入门到实践 如果你正在寻找一种简单有效的Python绘图方法,那么画圆柱体是一个不错的选择。本文将介绍如何使用Python绘制圆柱体的过程,包括使用的库、代码示例以及最终结果。 介绍 圆柱体是一种很常见的几何形状&…

Altium Designer导入AutoCAD图纸

简介:本文主要介绍的是将Altium Designer导入AutoCAD图纸的操作方法。 一直采用Altium Designer绘制PCB边框,可是如果PCB的尺寸边框十分复杂,或者遇到Altium Designer无法设计的图形,比如椭圆的时候,我们不得不借助第三…

谷歌一雪前耻,全新PaLM 2反超GPT-4,办公全家桶炸裂升级,Bard史诗进化

【新智元导读】新版PaLM 2超强进化,办公全家桶Workspace全面升级,Bard全面增强、所有人可用……可以看出,这届I/O大会,谷歌是真的憋出不少大招。 谷歌I/O 2023大会,仿佛又给谷歌的支持者们打了一针强心剂。 此前&…

阿里巴巴取消 CTO 一职;近半数微软员工担心被 AI 抢饭碗;Flutter 3.10 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

Apple I 设计完成 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 4 月 11 日,在 1953 年的今天,安德鲁怀尔斯诞生。大约在 1637 年左右,法国学者费马提出了一个数学代数相关的定理&#xff0…

不跟风 ChatGPT,Google AI 2022 年都在忙什么?

作者 | Marian Croak 翻译&整理 | Carol 出品 | AI科技大本营 谷歌发布了2022年在AI领域取得的巨大突破,主要包括大语言模型 (LLM) 和文本生图两个领域。 相较多年前提出的“不作恶”口号,谷歌将今后发展人工智能的理念进一步提升至“负责任”…

Python基础语法 常见面试问题 技巧汇总

Python基础语法 & 常见面试问题 & 技巧汇总 文章目录 Python基础语法 & 常见面试问题 & 技巧汇总一、注释二、变量与常量三、输出1、格式化输出1)"~{}".format(a)2)%s,%.1f 2、转义字符 四、运算符1、幂运算 五、基本数据类型…