语言模型发展史

语言模型发展史

news/2024/12/24 9:11:04/文章来源:https://blog.csdn.net/zengmingen/article/details/142567277

四个阶段

第一阶段：基于规则和统计的语言模型

由人工设计特征并使用统计方法对固定长度的文本窗口序列进行建模分析，这种建模方式也被称为N-gram语言模型。

优点：

1）采用极大似然估计, 参数易训练
2）完全包含了前n-1个词的全部信息
3）可解释性强, 直观易理解

缺点：

1）只能建模到前n-1个词
2）随着n的增大，参数空间呈指数增长
3）数据稀疏，难免会出现OOV问题
4）泛化能力差

第二阶段：神经网络语言模型

基于N-gram语言模型以上的问题，以及随着神经网络技术的发展，人们开始尝试使用神经网络来建立语言模型。

优点：

1）相比 n-gram 具有更好的泛化能力
2）降低了数据稀疏带来的问题

缺点：

1）对长序列的建模能力有限
2）可能会出现梯度消失等问题

第三阶段：预训练语言模型

基于Transformer的预训练模型：包括GPT、BERT、T5等。这些模型能够从大规模通用文本数据中学习大量的语言表示，并将这些知识运用到下游任务中，获得较好的效果。

预训练：在大规模数据集上事先训练神经网络模型，使其学习到通用的特征表示和知识

微调：在具体的下游任务中使用预训练好的模型进行迁移学习，以获取更好的泛化

优点：

更强大的泛化能力，丰富的语义表示，可以有效防止过拟合。

缺点：

计算资源需求大，可解释性差等

第四阶段：大语言模型

随着预训练模型Transformer参数的指数级提升，其语言模型性能也会线性上升。2020年，OpenAI发布了参数量高达1750亿的GPT-3，首次展示了大语言模型的性能。（Transformer+大量参数）

Meta公司的LLaMA-13B模型以及谷歌公司的PaLM-540B

国内如百度推出的文心一言ERNIE系列、清华大学团队推出的GLM等等

优点：

像“人类”一样智能，具备了能与人类沟通聊天的能力，甚至具备了使用插件进行自动信息检索的能力
缺点：

参数量大，算力要求高、训练时间长、可能生成部分有害的、有偏见的内容等等

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/437824.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Spring（学习笔记）

Spring（学习笔记）

<context:annotation-config/>是 Spring 配置文件中的一个标签，用于开启注解配置功能。这个标签可以让 Spring 容器识别并处理使用注解定义的 bean。例如，可以使用 Autowired 注解自动装配 bean，或者使用 Component 注解将类标记为 bea…

阅读更多...

虚拟机三种网络模式详解

虚拟机三种网络模式详解

在电脑里开一台虚拟机，是再常见不过的操作了。无论是用虚拟机玩只有旧版本系统能运行的游戏，还是用来学习Linux、跑跑应用程序都是很好的。而这其中，虚拟机网络是绝对绕不过去的。本篇文章通俗易懂的介绍了常见的虚拟网络提供的三种网络链接模…

阅读更多...

鸿蒙OpenHarmony

鸿蒙OpenHarmony

开源鸿蒙系统编译指南 Ubuntu编译环境配置第一步：Shell 改 Bash第二步：安装Git和安装pip3工具第三步：远程仓配置第四步：拉取代码第五步：安装编译环境第六步：本地编译源码 Windows开发环境配置第一步&#x…

阅读更多...

dubbo微服务

dubbo微服务

一.启动nacos和redis 1.虚拟机查看是否开启nacos和redis docker ps2.查看是否安装nacos和redis docker ps -a3.启动nacos和redis docker start nacos docker start redis-6379 docker ps二.创建三个idea的maven项目 1.第一个项目dubboapidemo 2.1.1向pom.xml里添加依赖 …

阅读更多...

x-cmd pkg | qrencode - 命令行生成二维码，小白也能轻松上手!

x-cmd pkg | qrencode - 命令行生成二维码，小白也能轻松上手!

目录简介首次用户功能特点竞品和相关项目进一步阅读简介 qrencode 是一个用于生成二维码的命令行工具。它可以将文本、URL、电话号码等信息转换为二维码图像。生成的二维码图像可以保存为图片文件，方便在电子文档、网页、移动应用等各种场景中使用。它支持的二维…

阅读更多...

深入理解 Solidity 中的支付与转账：安全高效的资金管理攻略

深入理解 Solidity 中的支付与转账：安全高效的资金管理攻略

在 Solidity 中，支付和转账是非常常见的操作，尤其是在涉及资金的合约中，比如拍卖、众筹、托管等。Solidity 提供了几种不同的方式来处理 Ether 转账，包括 transfer、send 和 call，每种方式的安全性、灵活性和复杂度各有…

阅读更多...

SKD4(note上)

SKD4(note上)

微软提供了图形的界面API，叫GDI 如果你想画某个窗口，你必须拿到此窗口的HDC #include <windows.h> #include<tchar.h> #include <stdio.h> #include <strsafe.h> #include <string>/*鼠标消息 * 键盘消息 * Onkeydown * …

阅读更多...

STM32 软件触发ADC采集

STM32 软件触发ADC采集

0.91寸OLED屏幕大小的音频频谱，炫酷！ STM32另一个很少人知道的的功能——时钟监测晶振与软件的关系（深度理解） STM32单片机一种另类的IO初始化方法 ADC是一个十分重要的功能，几乎任何一款单片机都会包含这个功能&a…

阅读更多...

阿里云 SAE Web：百毫秒高弹性的实时事件中心的架构和挑战

阿里云 SAE Web：百毫秒高弹性的实时事件中心的架构和挑战

作者：胡志广(独鳌) 背景 Serverless 应用引擎 SAE 事件中心主要面向早期的 SAE 控制台只有针对于应用维度的事件，这个事件是 K8s 原生的事件，其实绝大多数的用户并不会关心，同时也可能看不懂。而事件中心，是希望能够…

阅读更多...

JS进阶 3——深入面向对象、原型

JS进阶 3——深入面向对象、原型

JS 进阶3——深入面向对象、原型 1.编程思想面向过程：分析出解决问题的过程，然后用函数将这些步骤一步步封装起来面向对象：将事物分为一个个对象，然后对象之间分工合作 2.构造函数：封装性、面向对象构造函数方法存…

阅读更多...

linux学习--第七天（多路复用IO）

linux学习--第七天（多路复用IO）

多路复用IO -阻塞IO与非阻塞IO -IO模型 IO的本质时基于操作系统接口来控制底层的硬件之间数据传输，并且在操作系统中实现了多种不同的IO方式（模型）比较常见的有下列三种： 1.阻塞型IO模型 2.非阻塞型IO模型 3.多路复用IO模型 -阻…

阅读更多...

开源项目 - 交通工具检测 yolo v3 物体检测单车检测车辆检测飞机检测火车检测船只检测

开源项目 - 交通工具检测 yolo v3 物体检测单车检测车辆检测飞机检测火车检测船只检测

开源项目 - 交通工具检测 yolo v3 物体检测单车检测车辆检测飞机检测火车检测船只检测开源项目地址：https://gitcode.net/EricLee/yolo_v3 示例：

阅读更多...

【C++】多态（下）

【C++】多态（下）

个人主页~ 多态（上）~ 多态四、多态的原理1、虚表的存储位置2、多态的原理3、动态绑定和静态绑定五、单继承和多继承关系的虚函数表1、单继承中的虚函数表2、多继承中的虚函数表六、多态中的一些小tips 四、多态的原理 1、虚表的存储位置 class A {…

阅读更多...

开放式耳机哪个品牌好？分享几款不错的开放式蓝牙耳机

开放式耳机哪个品牌好？分享几款不错的开放式蓝牙耳机

相信很多人戴入耳式耳机时间一久，就不是很舒服。经常会有闷热、不透气的感觉，甚至有的朋友会因为佩戴入耳式耳机滋生细菌，导致最后炎症的发生。总之，入耳式耳机真的不适合长时间佩戴，而且佩戴的场景也有很多限制。那…

阅读更多...

一文了解构建工具——Maven与Gradle的区别

一文了解构建工具——Maven与Gradle的区别

目录一、Maven和Gradle是什么？ 构建工具介绍 Maven介绍 Gradle介绍二、使用时的区别： 1、新建项目 Maven： Gradle： 2、配置项目 Maven： Gradle： 3、构建项目——生成项目的jar包 Gradle&…

阅读更多...

Linux 信号详解

Linux 信号详解

目录一.前置知识 1.前台进程和后台进程 a.概念理解 b.相关指令 2.信号的前置知识 a.Linux 系统下信号的概念 b.进程对信号的处理方式 3.信号的底层机制二.详解信号 1.信号的产生 a.键盘组合键 b.kill 指令和系统调用接口 ① kill 指令 ② kill() 系统调用接口 ③ raise() 系统…

阅读更多...

TCP四次挥手过程详解

TCP四次挥手过程详解

TCP四次挥手全过程有几点需要澄清： 1.首先，tcp四次挥手只有主动和被动方之分，没有客户端和服务端的概念 2.其次，发送报文段是tcp协议栈的行为，用户态调用close会陷入到内核态 3.再者，图中的情况前提是双…

阅读更多...

leetcode-链表篇3

leetcode-链表篇3

leetcode-61 给你一个链表的头节点 head ，旋转链表，将链表每个节点向右移动 k 个位置。示例 1： 输入：head [1,2,3,4,5], k 2 输出：[4,5,1,2,3]示例 2： 输入：head [0,1,2], k 4 输出&#x…

阅读更多...

栏目二：Echart绘制动态折线图+柱状图

栏目二：Echart绘制动态折线图+柱状图

栏目二：Echart绘制动态折线图柱状图配置了一个ECharts图表，该图表集成了数据区域缩放、双Y轴显示及多种图表类型（折线图、柱状图、象形柱图）。图表通过X轴数据展示，支持平滑折线展示比率数据并自动添加百分比标识&…

阅读更多...

从原理到代码：如何通过 FGSM 生成对抗样本并进行攻击

从原理到代码：如何通过 FGSM 生成对抗样本并进行攻击

从原理到代码：如何通过 FGSM 生成对抗样本并进行攻击简介在机器学习领域，深度神经网络的强大表现令人印象深刻，尤其是在图像分类等任务上。然而，随着对深度学习的深入研究，研究人员发现了神经网络的一个脆弱性&…

阅读更多...

最新文章

推荐文章