从BERT到ChatGPT,9大研究机构全面综述:「预训练基础模型」

来自:新智元

编辑:LRS

【导读】2023年了,还有人从头开始训模型吗?追踪一下从Bert以来的那些预训练模型。

ChatGPT在few-shot和zero-shot场景下展现出的惊人性能,让研究人员们更坚定「预训练」是一条正确的路线。

预训练基础模型(Pretrained Foundation Models, PFM)被认为是不同数据模式下各种下游任务的基础,即基于大规模数据,对 BERT、 GPT-3、 MAE、 DALLE-E 和 ChatGPT 等预训练基础模型进行训练,为下游应用提供了合理的参数初始化。

8e2ea2905eed036def5015858d42e8df.png

PFM 背后的预训练思想在大型模型的应用中起着重要作用,与以往采用卷积和递归模块进行特征提取的方法不同,生成预训练(GPT)方法采用 Transformer 作为特征提取器,在大型数据集上进行自回归训练。

随着 PFM 在各个领域获得巨大成功,近几年发表的论文中提出了大量的方法、数据集和评价指标,行业内需要一篇从BERT开始一直追踪到ChatGPT发展过程的全面综述。

最近,来自北航、密歇根州立大学、理海大学、南洋理工、杜克等国内外多所知名院校、企业的研究人员联合写了一篇关于预训练基础模型的综述,提供了在文本、图像和图(graph)等领域的最近的研究进展,以及目前和未来的挑战、机遇。

d449ea9d4744a52b68baa1f4743d2d02.png

论文链接:https://arxiv.org/pdf/2302.09419.pdf

研究人员首先回顾了自然语言处理、计算机视觉和图形学习的基本组成部分和现有的预训练;然后讨论了其他先进的 PFM 的其他数据模式和统一的 PFM 考虑数据质量和数量;以及PFM 基本原理的相关研究,包括模型效率和压缩、安全性和隐私性;最后,文中列出了几个关键的结论,包括未来的研究方向、挑战和开放的问题。

从BERT到ChatGPT

预训练基础模型(PFMs)是大数据时代构建人工智能系统的重要组成部分,其在自然语言处理(NLP)、计算机视觉(CV)和图学习(GL)三大人工智能领域得到广泛的研究和应用。

PFMs是通用模型,在各个领域内或跨领域任务中都很有效,在各种学习任务中学习特征表示方面表现出巨大的潜力,如文本分类、文本生成、图像分类、物体检测和图分类等。

PFMs在用大规模语料库训练多个任务并对类似的小规模任务进行微调方面表现出卓越的性能,使得启动快速数据处理成为可能。

PFMs和预训练

PFMs是基于预训练技术的,其目的是利用大量的数据和任务来训练一个通用模型,在不同的下游应用中可以很容易地进行微调。

预训练的想法起源于CV任务中的迁移学习,在认识到预训练在CV领域的有效性后,人们开始使用预训练技术来提高其他领域的模型性能。当把预训练技术应用于NLP领域时,经过良好训练的语言模型(LMs)可以捕捉到对下游任务有益的丰富知识,如长期依赖关系、层次关系等。

此外,预训练在NLP领域的显著优势是,训练数据可以来自任何未标记的文本语料库,也就是说,在预训练过程中存在着无限量的训练数据。

早期的预训练是一种静态方法,如NNLM和Word2vec,很难适应不同的语义环境;后来有研究人员提出了动态预训练技术,如BERT、XLNet等。

44ad6cd17342bad1c8c94e2869f57920.png

PFMs在NLP、CV和GL领域的历史和演变

基于预训练技术的PFMs使用大型语料库来学习通用语义表征,随着这些开创性工作的引入,各种PFMs已经出现,并被应用于下游的任务和应用。

一个显著的PFM应用案例就是最近爆火的ChatGPT。

bf4d9519507ef5e8282b244427a1ad66.png

ChatGPT是从生成式预训练Transformer,即GPT-3.5在文本和代码的混合语料训练后,再微调得到的;ChatGPT使用了来自人类反馈的强化学习(RLHF)技术,也是目前将大型LM与人类的意图相匹配的一种最有前景的方法。

ChatGPT的优越性能可能会导致每一类PFMs的训练范式转变的临界点,即应用指令对齐(instruction aligning)技术,包括强化学习(RL)、prompt tuning和思维链(chain-of-thought),并最终走向通用人工智能。

这篇文章中,研究人员主要回顾了文本、图像和图(graph)相关的PFM,也是一个相对成熟的研究分类方法。

a033b81f933d3a1006e626910b5a6357.png

对于文本来说,语言模型通过预测下一个单词或字符即可实现多种任务,例如,PFMs可用于机器翻译、问题回答系统、主题建模、情感分析等。

对于图像来说,类似于文本中的PFMs,使用大规模的数据集来训练一个适合多个CV任务的大模型。

对于图来说,相似的预训练思路也被用于获得PFMs,可用于诸多下游任务。

除了针对特定数据域的PFMs,文中还回顾并阐述了其他一些先进的PFMs,如针对语音、视频和跨域数据的PFMs,以及多模态PFMs。

此外,一个能够处理多模态的PFMs的大融合趋势正在出现,也就是所谓的统一(unified)PFMs;研究人员首先定义了统一PFMs的概念,然后回顾了近期研究中最先进的统一PFMs,包括OFA、UNIFIED-IO、FLAVA、BEiT-3等。

根据这三个领域现有的PFMs的特点,研究人员得出结论,PFMs有以下两大优势:

1. 只需要进行极少的微调就可以提高模型在下游任务上的表现;

2. PFMs已经在质量方面通过了考验。

与其从头开始建立一个模型来解决类似的问题,更好的选择是将PFMs应用于与任务相关的数据集。

PFMs的巨大前景激发了大量的相关工作来关注模型的效率、安全性和压缩等问题。

这篇综述的特点在于:

  • 研究人员跟踪了最新的研究成果,对PFM在NLP、CV和GL中的发展进行了扎实的总结,讨论并提供了关于这三个主要应用领域中通用的PFM设计和预训练方法的思考结果。

  • 总结了PFMs在其他多媒体领域的发展,如语音和视频,还进一步讨论了关于PFMs的更深层次的话题,包括统一的PFMs、模型效率和压缩,以及安全和隐私。

  • 通过对各种模态下不同任务的PFMs的回顾,讨论了在大数据时代对超大型模型未来研究的主要挑战和机遇,将引导开发新一代基于PFMs的协作和交互智能。

参考资料:

https://arxiv.org/abs/2302.09419


最后给大家推荐一下最近小编从最新的斯坦福NLP的公开课都放到了bilibili上了,都已做了中英翻译,大部分已经更新完毕了,给需要的小伙伴~

是最新的呦~

目录

  • 词向量

  • 神经分类器

  • 反向传播和神经网络

  • 句法结构

  • RNN

  • LSTM

  • 机器翻译、Seq2Seq和注意力机制

  • 自注意力和Transformer

  • Transformers和预训练

  • 问答

  • 自然语言生成

  • 指代消解

  • T5和大型预训练模型

  • 待更...

36ffcd746c1d4fefac3f5dee30f4defc.png

点击阅读原文直达b站~


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22573.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【AI项目实战】某语言模型-stable diffusion-vits-cqhttp 实现能对话能语音能绘画的Q群机器人

好久没写文章了,终于想起来我有个博客账号系列。。 项目已开源在github上。 文章已滤敏,一切涉及语言模型名字的内容都以某语言模型代替 提示:AI绘画部分建议6G显存以上。 cqhttp 用于接收群友消息,并回复消息。 某语言模型 基于…

微信PC端各个数据库文件结构与功能简述 - 根目录

异想之旅:本人原创博客完全手敲,绝对非搬运,全网不可能有重复;本人无团队,仅为技术爱好者进行分享,所有内容不牵扯广告。本人所有文章仅在CSDN、掘金和个人博客(一定是异想之旅域名)…

springboot+vue集成websocket实现聊天功能

1、添加pom依赖 <!-- websocket --> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId> </dependency> 2、创建一个config文件夹&#xff0c;在config文件夹中创建…

广州租房房价分析

利用八爪鱼爬链家网上广州市租房房源数据&#xff0c;网址为https://gz.lianjia.com/zufang/&#xff0c;爬取字段为价格、租赁方式、房型、楼层、面积、朝向、地铁、小区、位置、经度、纬度等&#xff0c;保存到E盘数据分析课程设计文件夹下&#xff0c;存为“gz_zufang.csv”…

房价数据分析

文章目录 一、数据预处理1、删除多余列2、缺失值、异常值处理 二、 数据探索分析1、DistanceKM与房价关系2、14岁及以下比重与房价关系3、自驾实际值与房价关系4、65岁及以上比重与房价关系5、人口占比与房价关系 三、机器学习预测房价1、模型选择2、模型调参 四、总结 一、数据…

北京二手房房价分析(建模篇)

数据科学俱乐部 中国数据科学家社区 本篇将继续上一篇数据分析用Python分析北京二手房房价之后进行数据挖掘建模预测&#xff0c;这两部分构成了一个简单的完整项目。结合两篇文章通过数据分析和挖掘的方法可以达到二手房屋价格预测的效果。 下面从特征工程开始讲述。 特征工程…

我国主要城市2023年房价数据

房价是一个城市发展程度的重要体现&#xff0c;一个城市的房价越高通常代表这个城市越发达&#xff0c;对于人口的吸引力越大&#xff01;因此&#xff0c;房价数据是我们在各项城市研究中都非常常用的数据&#xff01; 本次我们为大家带来的是我国主要城市的房价数据&#xf…

分析天津市房价的空间因素影响

所有代码与解析 # -*- coding: utf-8 -*- """ Created on Thu Mar 4 16:23:30 2021author: 89344 """import numpy as np import pandas as pd import matplotlib.pyplot as plt import warnings warnings.filterwarnings(ignore) from bokeh.…

Python爬取天津房价并进行可视化

Python爬取天津房价并进行可视化 步骤代码 步骤 1.爬取网页信息 2.解析网页信息&#xff0c;获取需要的数据&#xff0c;存入CSV文件中 3.读取CSV文件&#xff0c;对数据进行处理&#xff0c;包括剔除异常值&#xff0c;空值等&#xff0c;进行可视化 代码 import requests …

房价概况:2013年2月26日天津各区县房价一览

2013年2月26日全市新建商品房交易373套、面积37502.8平方米&#xff0c;平均价格每平方米10504元。其中&#xff0c;住宅335套、面积34159.8平方米&#xff0c;平均价格每平方米9844元。二手住宅交易275套、面积22696.8平方米&#xff0c;平均价格每平方米8579元。

Spring实战----Taco Cloud(墨西哥煎玉米卷在线订购系统)

记录一下根据《Spring实战&#xff08;第五版&#xff09;》(人民邮电出版社)所学习的过程 目录 项目初始化 开发WEB应用 使用数据库 使用Spring Data JPA进行持久化数据 使用Spring Security保护Spring 自定义用户验证 项目初始化 New一个Project&#xff0c;选择Sprin…

C/C++字符串

一.C风格的字符串 1. char a[6] { h,e,l,l,o,\0 }; printf("%s", a);//hello#include<iostream> #include<string> using namespace std; int main() {char a[6] { h,e,l,l,o,\0 };char b[5] { h,e,l,l,o};//空间至少大一位留出\0位置char c[6] { h,e…

Qt输入窗口部件编程(一) QComboBox和QFontComboBox

文章目录 前言1、 Qt常用的输入窗口控件2、QFontComboBox 和 QComboBox控件编程2.1 控件简介2.1.1 QComboBox组合框2.1.2 QFontComboBox字体组合框 2.2 例程功能设计2.3 例程执行效果2.4 生成项目2.5 代码编辑2.5.1 修改项目文件_qcombobox.pro2.5.2 修改 main.cpp2.5.3 修改 w…

Xmind8 乱码问题解决(查看文件字体并下载安装相应字体)

每台电脑引起Xmind软件出现乱码的原因也不一样&#xff0c;本文仅适用于解决字体缺少或者字体版本不对而引发的乱码问题。每台电脑缺少的字体包也不一样&#xff0c;要通过“工具”-》“提取样式”菜单&#xff0c;具体分析自己的Xmind文件需要什么字体&#xff0c;然后搜索对应…

idea主题 插件 乱码 快捷键

idea样式网站 http://www.easycolor.cc/ http://www.riaway.com/ idea 乱码情况 中文乱码问题分类&#xff1a; 1.编码普通中文乱码 2.properties文件中文乱码 3.console控制台中文乱码 4.搜索框中文乱码 5.svn注释中文乱码 解决方法&#xff1a; 1、编码普通中文乱码 ①s…

基于声学模型共享的零资源韩语识别系统

声学模型共享方法是极低资源小语种语音识别一种解决方案&#xff0c;能够实现不需要任何语音数据的语音识别。本文介绍清华大学语音与音频技术实验室的零资源韩语语音系统&#xff0c;其在不使用任何韩语语音数据的情况下&#xff0c;在Zeroth韩语数据集上的测试CER达到了27.33…

韩语在线翻译图片识别_图片怎么转表格excel

图片转表格excel&#xff0c;快来免费用 ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ 相信大部分小伙伴选择拍图识字 是因为强大的ocr识别功能 图片文字一键提取导出 但是&#xff0c;有多少人知道 拍图识字还可以成为你的私人翻译&#xff01;1 多语言转换 拍图识字首页点击拍照/…

韩译中难吗,如何做好韩语翻译

我们知道&#xff0c;韩语是韩国的官方语言&#xff0c;由于长期和中国文化的接触&#xff0c;历史上曾用汉字标记&#xff0c;并且将汉语融入其词汇&#xff0c;基于这一特点&#xff0c;韩译中难吗&#xff0c;如何做好韩语翻译? 据了解&#xff0c;中韩文化交流的历史可以追…

韩语在线翻译图片识别_3个OCR文字识别工具,最后一个许多人都不知道!

在日常生活和工作中,经常有需要录入一张图片或实物内容的文字信息的时候,对于少量内容,你或许可以轻松完成。可是一旦内容多,而你打字速度又不快的情况下,那可真的是一件非常枯燥又费力的事情。 而一般遇到这种情况,大家就可以利用OCR文字识别工具,只需简单对着物体拍张…

韩语在线翻译图片识别_如何用扫描全能王将图片转成文字?

扫描君有个写材料的朋友&#xff0c;每次需要摘录书或宣传册里的内容&#xff0c;他总是一个字一个字地敲&#xff0c;效率不高&#xff0c;还容易出错&#xff0c;自己也很痛苦&#xff01;&#xff01; 扫描君也有这样的亲身体会&#xff1a; 在微博、朋友圈里看到一些图片或…