语言建模的发展阶段以及大规模语言模型的背景介绍

语言本质上是一个由语法规则控制的复杂、精密的人类表达系统,开发能够理解和掌握语言的AI 算法是一个重大挑战。作为一种主要方法,语言建模在过去两十年中已被广泛研究,从统计语言模型发展到神经语言模型,用于语言理解和生成。从技术上讲,语言建模(LM)是提高机器语言智能的主要方法之一。语言模型旨在对单词序列的生成可能性进行建模,以预测未来词出现的概率。人们一般将 LM 的研究分为四个发展阶段。

  • 统计语言模型(SLM):基于 1990 年代兴起的统计学习方法开发的,其基本思想是基于马尔科夫假设的词预测模型,其根据最近的上下文预测下一个词。比如统计机器翻译(SMT)和说话人识别(ASR)领域中经常用 到的高斯混合模型(GMM)和隐马尔可夫模型(HMM)。
  • 神经语言模型(NLM):通过神经网络表征词序列的概率,例如循环神经网络(RNNs),长短时序记忆网络(LSTM)和门控循环网络 (GRU)。
  • 预训练语言模型(PLM): 大部分基于具有自注意机制的高度可并行化的 Transformer 架构,通过在大规模未标记语料库上进行预训练,然后进行优调以适配不同的下游任务。例如 BERT,BART,T5 等。

  • 大型语言模型(LLM):在 PLM 的基础上,增大模型参数,使得 LLM 出现 PLM 不具有的涌现能力,其同样采用预训练 + 微调的形式,不过这个范式逐渐向上下文学习(in-context-learning)转变。近年来 LLM 的发展历程如下图所示,其中就包括了最近热门的 chatGPT 和 GPT4。

最近,通过在大规模语料库上预训练Transformer 模型,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面表现出强大的能力。研究人员发现,模型规模越大,性能也会提高, 因此他们进一步将模型大小增加到更大的规模,研究了规模效应。有趣的是,当参数规模超过一定水平时,这些大型语言模型不仅能够显著提高性能,还展现了一些小型语言模型所没有的特殊能力。为了区分参数规模差异, 研究界为这些规模显著的 PLMs  创造了大型语言模型(LLM)这一术语。最近,学术界和工业界都取得了大量关于 LLMs 的研究进展,其中一个显著进展是 ChatGPT 的发布,引起了社会的广泛关注。LLMs 技术的进化对整个 AI 社区都产生了重要的影响,这将彻底改变本文开发和使用 AI 算法的方式。

通常,大型语言模型(LLM)是指包含数百亿(或更多)参数的语言模型,这些参数是在大量无标注文本数据上自监督学习方法训练的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。2019 年大模型呈现爆发式的增长,特别是 2022 年 11 月ChatGPT(Chat Generative Pre-trained Transformer)发布后,更是引起了全世界的广泛关注。具体来说,LLM 建立在Transformer 架构之上,其中多头注意力层堆叠在一个非常深的神经网络中。现有的LLM 主要采用与小语言模型类似的模型架构(即Transformer)和预训练目标(即语言建模)。作为主要区别, LLM   在很大程度上扩展了模型大小、预训练数据和总计算量(扩大倍数)。他们可以更好地理解自然语言,并根据给定的上下文(例如  prompt)生成高质量的文本。这种容量改进可以用标度律进行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根据标度律,某些能力(例如,上下文学习)是不可预测的,只有当模型大小超过某个水平时才能观察到。

ps: 欢迎扫码关注微信公众号^-^.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/135815.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

9.18 QT作业

mainwindow.h QT_BEGIN_NAMESPACE namespace Ui { class MainWindow; } QT_END_NAMESPACEclass MainWindow : public QMainWindow {Q_OBJECTpublic:MainWindow(QWidget *parent nullptr);~MainWindow();signals:void jump(); //自定义跳转信号函数private slots:vo…

Vue基础之模板语法介绍

前言 上篇我分享了关于Vue的入门,简单的入了个门。本篇文章将要分享的内容为Vue的模板语法。 一、插值 1.1、文本 1.2、html 1.3、属性 1.4、class、style绑定 1.5、表达式 在Vue的模板语法中,插值是一种常用的方式来动态地将数据渲染到视图中。Vue使用双…

Nano 编辑器中,怎样保存和退出

使用git 修改提交记录时,使用命令: git commit --amend 弹出了nano编辑器,第一次使用的时候不知道怎么保存退出,现在记录下: 1.修改完毕后使用Ctrl x,然后会弹出 点击Y后,界面会退回到如下 这时候点击E…

使用HTTP爬虫ip中的常见误区与解决方法

在使用HTTP爬虫进行网页抓取时,涉及到IP地址的处理,可能会存在一些常见的误区。以下是一些常见误区及解决方法: 1.使用个人IP进行大规模爬取:如果你使用个人住宅IP进行大规模爬取,可能会被目标网站视为恶意攻击&#x…

docker安装postgresql

docker安装postgresql 拉取镜像 sudo docker search postgres sudo docker pull postgres:12.7 sudo docker image list创建并运行容器 sudo docker run \ --name postgres12 \ -p 5433:5432 \ -e POSTGRES_USERpostgres \ -e POSTGRES_PASSWORD123456 \ -v /data/mydocker/…

CSS动效合集之实现气泡发散动画

前言 👏CSS动效合集之实现气泡发散动画,速速来Get吧~ 🥇文末分享源代码。记得点赞关注收藏! 1.实现效果 2.实现步骤 定义一个数组bubbles,用来存储气泡列表的基本新,w表示宽高,x表示绝对定位…

用Python判断是否为闰年并计算生肖年

1 问题 润平年以及生肖是新的一年到来我们应该了解的信息。那么如何利用python程序计算快速计算该年为什么年? 2 方法 利用if条件判断语句实现。 代码清单 1 year eval(input(请输入咨询的年份:))if (year % 4 0 and year %100 ! 0) or year % 400 0: print(…

win11将visual studio 2022的调试控制台改为windows terminal

一、前言 默认的调试控制台太丑了,字体也没有好看的,还是更喜欢windows terminal 二、修改 2.1 修改之前 2.2 修改步骤 打开windows terminal点这个向下的标志 选择settings按照下图1, 2, 3步骤依次操作即可 2.3 修改之后 总结 漂亮很多了

Layui快速入门之第十四节 分页

目录 一:基本用法 API 渲染 属性 二:自定义主题 三:自定义文本 四:自定义排版 五:完整显示 一:基本用法 分页组件 laypage 提供了前端的分页逻辑,使得我们可以很灵活处理不同量级的数…

星际争霸之小霸王之小蜜蜂(十三)--接着奏乐接着舞

系列文章目录 星际争霸之小霸王之小蜜蜂(十二)--猫有九条命 星际争霸之小霸王之小蜜蜂(十一)--杀杀杀 星际争霸之小霸王之小蜜蜂(十)--鼠道 星际争霸之小霸王之小蜜蜂(九)--狂鼠之…

STM32 ADC介绍和应用

目录 1.ADC是什么? 2.ADC的性能指标 3.ADC特性 4.ADC通道 5.ADC转换顺序 6.ADC触发方式 7.ADC转化时间 8.ADC转化模式 扫描模式 单次转换/连续转换 9.ADC实验 使用ADC读取烟雾传感器的值 代码实现思路: 1.ADC是什么? 全称&#…

buuctf web [极客大挑战 2019]Secret File

纯网页,看一下源码。 这一块源码中有个隐藏的超链接,点击后跳转到了新页面。 新页面的源码里,也有一处可以跳转的超链接。 点进新页面啥也没有了。 单看网页,什么也没有,尝试用burp抓包试试。 在/Archive_room.php跳…

【C刷题训练营】第四讲(打好基础很重要)

前言: 大家好,这是c语言刷题训练营的第四讲,打好基础便于对c语言语法与算法思维的提高,感谢你的来访与支持! 💥🎈个人主页:​​​​​​Dream_Chaser~ 🎈💥 ✨✨刷题专栏…

爬虫框架Scrapy学习笔记-1

前言 在现代互联网时代,网页数据获取和处理已经成为了重要的技能之一。无论是为了获取信息、做市场研究,还是进行数据分析,掌握网页爬取和数据处理技术都是非常有用的。本文将介绍从网页加载到数据存储的完整过程,包括网络请求、…

树结构构建,字典树快速生成。

表结构 查出list后&#xff0c;用工具类转换。工具类代码如下&#xff1a; 下面展示一些 内联代码片。 public static List<JSONObject> toTreeList(List tList, String oidkey, Stripspidkey) List<JSONObject> jsonObjectList JSONArray. parseArray (JSON.…

【逗老师的无线电】艾德克斯TTL串口转网口

最近手搓了一个可以用于艾德克斯ITECH电源或者电子负载的TTL串口转网口的模块&#xff0c;用上之后&#xff0c;上位机软件就可以配置以太网IP连接设备啦。就像这样。 一、ITECH TTL接口定义 二、整体逻辑 嗯&#xff0c;就这么简单。IT9000控制软件的Ethernet功能就是直接S…

ADB底层原理

介绍 adb的全称为Android Debug Bridge&#xff0c;就是起到调试桥的作用。通过adb我们可以在Eclipse/Android Studio中方便通过DDMS来调试Android程序&#xff0c;说白了就是debug工具。adb是android sdk里的一个工具, 用这个工具可以直接操作管理android模拟器或者真实的and…

springboot基础--实现默认登录页面

1、搭建项目 依赖中 多加入thymeleaf依赖 <dependencies><!--thymeleaf的依赖--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-thymeleaf</artifactId></dependency><!--we…

深度学习中安装了包但是依然导入(import)失败这一问题,例如pytorch环境下已经安装了scikit-learn但是import不了

在跑深度学习模型的时候我们要先搭建pytorch环境&#xff0c;这个环境跟windows环境是不同的&#xff0c;我们默认在windows中安装的包在当前的虚拟环境中读取不到&#xff0c;所以导致我们明明安装了包但是依然在实际的导入中(import)报错。解决办法就是我们去虚拟环境中安装包…

免费开箱即用微鳄售后工单管理系统

编者按&#xff1a;本文介绍基于天翎MyApps低代码平台开发的微鳄售后工单管理系统&#xff0c; 引入低代码平台可以帮助企业快速搭建和部署售后工单管理系统&#xff0c; 以工作流作为支撑&#xff0c;在线完成各环节数据审批&#xff0c;解决售后 工单 服务的全生命周期过程管…