常耀斌:深度学习和大模型原理与实战(深度好文)

目录

机器学习

深度学习

Transformer大模型架构

人工神经元网络

卷积神经网络


深度学习是革命性的技术成果,有利推动了计算机视觉、自然语言处理、语音识别、强化学习和统计建模的快速发展。

深度学习在计算机视觉领域上,发展突飞猛进,尤其是图像分类中成绩斐然。2012年, Alex和Hinton在ImageNet大规模图像识别竞赛ILSVRC中夺冠,以83.6%的Top5精度,超过传统的计算机视觉计算的74.2%,深度学习开始发力,卷积神经网络一战成名。2013年,ImageNet大规模图像识别竞赛以88.8%成绩获得冠军。2014年,VGG网络战绩达到92.7%, GoogLeNet网络战绩达到93.3%。2015年,在1000类的图像识别中,微软提出的残差网(ResNet)以96.43%的Top5正确率,达到了超过人类的94.9%水平。

深度学习在图像检测方面上,聚焦在如何把物体用矩形框准确圈起来。2014年以来,检测平均精度MAP经历了多次升级迭代,包括R-CNN的53.3%、Fast R-CNN的68.4%、Faster R-CNN的75.9%、 Faster RCNN结合残差网(Resnet-101)的83.8%精度、YOLO的52.7%、SSD的75.1%。

深度学习在自然语言处理技术上,发展前景广阔。技术架构包含了文本预处理和清洗、词嵌入和表示学习、语法分析和句法树、命名实体识别、情感分析、机器翻译以及问答系统等关键步骤通过这些技术,计算机能够更好地理解和处理人类语言,为我们提供更智能化、便捷化的服务和体验。

深度学习在AI大模型的落地应用上,由“数据、算法、算力”演变为“场景、产品、算力”从技术架构上看,Transformer架构是AI大模型领域主流的算法架构基础,形成了GPT和BERT两条主要的技术路线,其中BERT最有名的是谷歌的AlphaGo。在GPT3.0发布后,GPT逐渐成为大模型的主流路线。目前,几乎所有参数规模超过千亿的大型语言模型都采取GPT模式,如百度文心一言,阿里通义千问等。从模态支持上看,AI大模型可分为自然语言处理大模型,CV大模型、科学计算大模型等。AI大模型支持的模态更加多样,从支持文本、图片、图像、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。从应用领域上看,大模型可分为通用大模型和行业大模型两种。通用大模型是具有强大泛化能力, ChatGPT、华为的盘古都是通用大模型。行业大模型则是利用行业知识对大模型进行微调,让AI完成“专业教育”,以满足不同领域的需求,如金融领域的BloombergGPT、百度携手中国航天发布的大模型“航天-百度文心大模型”等。

   

 机器学习

机器学习是一种人工智能技术,主要使用算法来让计算机从数据中学习,以便能够自动地进行决策和预测。机器学习的目的是通过数据来提高预测或决策的准确性,而不需要人工干预。

深度学习

    深度学习(Deep Learning,简称DL)是机器学习的一种特定形式,它使用具有多层非线性处理单元的神经网络来学习和表示数据。深度学习的核心是使用深度神经网络,这些网络可以自动从数据中提取出复杂的特征,并且在各种任务上表现出色,例如图像识别、语音识别和自然语言处理等。

  1. 卷积神经网络(Convolutional Neural Networks,CNN):主要用于图像和视频相关的任务,通过局部连接和权值共享来提取空间特征。
  2. 递归神经网络(Recurrent Neural Networks,RNN):能够处理序列数据,如自然语言处理和语音识别等任务。RNN能够利用过去的信息作为上下文来进行预测。
  3. 长短期记忆网络(Long Short-Term Memory,LSTM):一种特殊的RNN变体,通过门控机制来解决传统RNN的梯度消失和梯度爆炸问题。
  4. 生成对抗网络(Generative Adversarial Networks,GAN):由生成器和判别器组成,生成器试图生成逼真的样本,而判别器试图区分真实样本和生成样本,二者通过对抗学习进行优化。
  5. 注意力机制网络(Attention Mechanism):能够在处理变长序列数据时,为模型赋予自主选择和关注重要信息的能力。

     深度神经网络是一种层次化的模型,由多个神经网络层组成。每个神经网络层由多个神经元组成,每个神经元接受上一层的输入并进行线性变换和非线性激活,输出给下一层。深度神经网络的训练依赖于反向传播算法(Backpropagation),通过最小化损失函数来优化网络权重,使其能够更好地适应训练数据和测试数据。

Transformer大模型架构

    Transformer是一种基于自注意力机制(Self-Attention)的序列到序列(Sequence-to-Sequence, Seq2Seq)模型,用于处理序列数据,如自然语言文本。Transformer模型由编码器和解码器组成,编码器将输入序列转换为上下文向量,解码器使用上下文向量生成输出序列。对于每个位置,Transformer模型通过计算输入序列中所有位置的加权和来计算上下文向量。这种加权和的权重由自注意力机制计算得出,自注意力机制可以捕捉输入序列中不同位置之间的依赖关系。

    深度神经网络通常需要对输入数据进行预处理和特征提取,以便网络能够更好地学习数据的表示。而在Transformer中,输入数据被转换为多头注意力机制的查询、键和值,这些查询、键和值可以被用来计算自注意力权重。深度神经网络和Transformer都可以用于处理自然语言处理任务,它们的性能和适用场景有所不同。深度神经网络在处理文本分类、情感分析和命名实体识别等任务上表现出色,而Transformer在机器翻译、文本生成和阅读理解等任务上表现出色。

    机器学习(Machine Learning,ML)是指从业务的历史数据中学习或者抽取数据规律,并利用数据规律对未知业务数据进行预测的方法是人工智能的一个重要分支传统的机器学习主要聚焦在如何学习一个预测模型。第一,将数据表示为一组特征(Feature),特征的表示形式可以是连续的数值、离散的符号或其他形式。第二,将这些特征输入到预测模型,并输出预测结果机器学习主要靠人工经验或特征转换方法来抽取特征,使用机器学习模型包含步:

  1. 数据预处理:经过数据的预处理,如去除噪声等比如在文本分类中,抽取词条
  2. 特征提取:从原始数据中提取一些有效的特征比如在图像分类中,提取边缘、尺度、纹理等不变特征变换特征等
  3. 特征工程:对特征进行一定的加工和处理,比如降维和升维降维包括特征抽取和特征选择两种途径常用的特征转换方法有主成分分析等
  4. 目标预测:机器学习的核心部分,就是学习一个方程,再进行预测

    监督学习(Supervised Learning)是机器学习中的一种训练方式,是指利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程。监督学习是从标记的训练数据来推断一个功能的机器学习任务。通俗讲,给定一个带标签的数据集,来训练网络,从而得到一个最优的模型。无人驾驶应用,收集在不同路况下驾驶员行为,并进行打标签进行模型训练当新司机驾驶时,根据不同路况来指导驾驶员的行为,训练模型能支撑行为预测能力。监督学习主要解决两类问题:回归和分类。解决图像分类任务,用分类模型;解决预测类问题,用回归模型。

    深度学习,其是从数据中自动学习到有效的特征表示。它通过多层的特征转换,把原始数据变成更高层次、更抽象的表示,目的是把这些学习到的表示可以替代人工设计的特征,从而避免“特征工程”深度学习采用的模型主要是神经网络模型,其主要原因是神经网络模型可以使用误差反向传播算法,有效解决贡献颗粒问题

人工神经元网络

    人脑神经系统是一个非常复杂的组织,包含近亿个神经元每个神经元有上千个突触和其他神经元相连接.神经元分为细胞体和细胞突起,其中赫布理论指出:“当神经元A的一个轴突和神经元B很近,足以对它产生影响,并且持续地、重复地参与了对神经元B的兴奋,那么在这两个神经元或其中之一会发生某种生长过程或新陈代谢变化,以致神经元A作为能使神经元B兴奋的细胞之一,它的效能加强了。” 人工神经网络模拟人脑神经网络,用节点替代人工神经元,进行互相连接,不同节点之间的连接被赋予了不同的权重,每个权重代表了一个节点对另一个节点的影响大小每个节点代表一种特定函数

人工神经元网络是由大量神经元连接而构成的自适应非线性系统,这个自适应就是不断调整权重到最优,使得网络的预测效果最佳。神经元的个数越多越好吗?实际上,有利有弊,可以分类或者预测复杂数据,但是容易造成过拟合,过拟合就是泛化能力不足,对非训练数据的噪声拟合能力弱。

80年代,Fukushima在感受野概念的基础之上提出了神经认知机的概念,可以看作是卷积神经网络的第一个实现网络,神经认知机将一个视觉模式分解成许多子模式(特征),然后进入分层递阶式相连的特征平面进行处理,它试图将视觉系统模型化,使其能够在即使物体有位移或轻微变形的时候,也能完成识别。

卷积神经网络

卷积神经网络(Convolutional Neural Networks, CNN)是多层感知机的变种。由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来。视觉皮层的细胞存在一个复杂的构造。这些细胞对视觉输入空间的子区域非常敏感,我们称之为感受野,以这种方式平铺覆盖到整个视野区域。

CNN由纽约大学的Yann LeCun于1998年提出。CNN本质上是一个多层感知机,如下图1-2所示,其成功的原因关键在于它所采用的稀疏连接权值共享的方式,一方面减少了的权值的数量使得网络易于优化,另一方面降低了过拟合的风险。

目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络,使用反向传播算法进行训练卷积神经网络有三个结构上的特性:局部连接,权重共享以及汇聚。这些特性使得卷积神经网络具有一定程度上的平移、缩放和旋转不变性。和前馈神经网络相比,卷积神经网络的参数更少。卷积神经网络主要使用在图像和视频分析的各种任务上,比如图像分类、人脸识别、物体识别、图像分割等,其准确率一般也远远超出了其它的神经网络模型。

    在人工智能自然语言处理领域,transformer是大语言模型的基础。Transformers最初是用于机器翻译领域,但是现在已经逐渐取代了主流NLP中的RNNs。该架构采用了一种全新的表示学习方法,它完全抛弃了递归的方法,Transformers使用注意力机制构建每个词的特征,从而找出句子中所有其他单词对上述单词的重要性。如今大火ChatGPT中的 T 指的就是transformer。transformer基于自注意力机制,由编码器(encoder)和解码器(decoder)组成。它可以说是一个完全基于自注意力机制的模型,不依赖于CNN、RNN等模型,但可以做并行计算、相比LSTM更好地解决了长距离依赖问题,综合了RNN和LSTM的优点。RNN可以并行计算,但无法解决长时依赖问题;LSTM在一定程度上能解决长距离依赖问题,但太长的还是不行。在Sequence to Sequence机器翻译任务中,一般采用的是基于CNN或RNN的encoder-decoder框架,在encoder和decoder之间使attention机制进行语义信息的连接,但这存在着一些问题。

    论文《attention is all you need》提出的transformer做的就是这件事。它在机器翻译任务上,遵循encoder-decoder框架,不使用CNN/RNN,完全使用attention机制来捕捉输入和输出序列之间的全局依赖,允许并行化,训练时间短,取得的翻译效果好。Transformer不仅设计了多头自注意力机制(Multi-Head Self-Attentiom),而且结合了CNN、RNN的优点,一是CNN的多通道机制(从多个角度去提取数据特征)和并行计算能力;二是RNN理论上的长时依赖建模能力(捕捉长距离的语义关联)。为了对序列的词序order进行建模,引入了位置编码position embedding。

本文摘自《深度学习和大模型原理与实战》 2024年发行

作者:常耀斌,王文惠

清华大学出版社-图书详情-《深度学习和大模型原理与实践》

京东:《深度学习和大模型原理与实践 常耀斌 王文惠 人工智能前沿实践丛书 大语言模型技术书 清华大学出版社》【摘要 书评 试读】- 京东图书

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/494189.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vsCode怎么使用vue指令快捷生成代码

1.下载Vetur插件 2.在文件-首选项-配置代码片段中找到vue.json文件 (注:旧版本的编辑器路径为文件-首选项-用户片段) 3.在打开的配置代码片段弹窗中搜索vue.json,找到并打开 (注:如果搜不到的话就按住鼠标…

python学opencv|读取图像(十八)使用cv2.line创造线段

【1】引言 前序已经完成了opencv基础知识的学习,我们已经掌握了处理视频和图像的基本操作。相关文章包括且不限于: python学opencv|读取图像(三)放大和缩小图像_python(1)使用opencv读取并显示图像;(2)使用opencv对图像进行缩放…

unity webgl部署到iis报错

Unable to parse Build/WebGLOut.framework.js.unityweb! The file is corrupt, or compression was misconfigured? (check Content-Encoding HTTP Response Header on web server) iis报错的 .unityweb application/octet-stream iis中添加 MIME类型 .data applicatio…

【深度学习】零基础介绍循环神经网络(RNN)

RNN介绍 零基础介绍语言处理技术基本介绍分词算法词法分析工具文本分类与聚类情感分析 自然语言处理词向量词向量学习模型1. 神经网络语言模型2. CBOW 和 skip-gram3. 层次化softmax方法4. 负采样方法 RNN介绍RNN的变种:LSTM1. Forget Gate2. Input Gate3. Update M…

Docker Compose 安装 Harbor

我使用的系统是rocky Linux 9 1. 准备环境 确保你的系统已经安装了以下工具: DockerDocker ComposeOpenSSL(用于生成证书)#如果不需要通过https连接的可以不设置 1.1 安装 Docker 如果尚未安装 Docker,可以参考以下命令安装&…

面试题整理9----谈谈对k8s的理解1

谈谈对k8s的理解 1. Kubernetes 概念 1.1 Kubernetes是什么 Kubernetes 是一个可移植、可扩展的开源平台,用于管理容器化的工作负载和服务,方便进行声明式配置和自动化。Kubernetes 拥有一个庞大且快速增长的生态系统,其服务、支持和工具的…

【JAVA】JAVA接口公共返回体ResponseData封装

一、JAVA接口公共返回体ResponseData封装&#xff0c;使用泛型的经典 例子 public class ResponseData<T> implements Serializable { /** * */ private static final long serialVersionUID 7098362967623367826L; /** * 响应状态码 */ …

Redis分片集群学习总结

Redis分片集群学习总结 为什么要使用分片集群&#xff1f;分片集群搭建Redis集群怎么写入读取数据呢&#xff1f;集群写入数据和读取数据怎么定位到对应的节点呢&#xff1f;怎么让多个数据写入同一个节点&#xff1f; 故障转移主从集群和分片集群使用场景 为什么要使用分片集群…

代理模式(JDK,CGLIB动态代理,AOP切面编程)

代理模式是一种结构型设计模式&#xff0c;它通过一个代理对象作为中间层来控制对目标对象的访问&#xff0c;从而增强或扩展目标对象的功能&#xff0c;同时保持客户端对目标对象的使用方式一致。 代理模式在Java中的应用,例如 1.统一异常处理 2.Mybatis使用代理 3.Spring…

入侵他人电脑,实现远程控制(待补充)

待补充 在获取他人无线网网络密码后&#xff0c;进一步的操作是实现入侵他人电脑&#xff0c;这一步需要获取对方的IP地址并需要制作自己的代码工具自动化的开启或者打开对方的远程访问权限。 1、获取IP地址&#xff08;通过伪造的网页、伪造的Windows窗口、hook&#xff0c;信…

windows安装Elasticsearch及增删改查操作

1.首先去官网下载Elasticsearch 下载地址 我这里选择的是7.17.18 选择windows版本 下载完成后解压是这样的 下载完成后点击elasticsearch.bat启动elasticsearch服务 输入http://localhost:9200看到如下信息说明启动成功。 还有记得修改elasticsearch.yml文件&#xff0c;…

aws(学习笔记第十九课) 使用ECS和Fargate进行容器开发

aws(学习笔记第十九课) 使用ECS和Fargate进行容器开发 学习内容&#xff1a; 使用本地EC2中部署docker应用使用ECS的EC2模式进行容器开发使用ECS的Fargate模式进行容器开发 1. 使用本地EC2中部署docker应用 docker整体 这里展示了docker的整体流程。 开发阶段 编写dockerfile…

电脑使用CDR时弹出错误“计算机丢失mfc140u.dll”是什么原因?“计算机丢失mfc140u.dll”要怎么解决?

电脑使用CDR时弹出“计算机丢失mfc140u.dll”错误&#xff1a;原因与解决方案 在日常电脑使用中&#xff0c;我们时常会遇到各种系统报错和文件丢失问题。特别是当我们使用某些特定软件&#xff0c;如CorelDRAW&#xff08;简称CDR&#xff09;时&#xff0c;可能会遇到“计算…

Set集合进行!contains判断IDEA提示Unnecessary ‘contains()‘ check

之前写过一个代码&#xff0c;用到了Set集合&#xff0c;判断了如果某个元素不存在就添加到集合中。今天翻看代码又看到了IDEAUnnecessary contains() check爆黄提示。 来一段测试代码&#xff1a; public class SetTest {public static void main(String[] args) {Set<Int…

以太网帧、IP数据报图解

注&#xff1a;本文为 “以太网帧、IP数据报”图解相关文章合辑。 未整理去重。 以太网帧、IP数据报的图解格式&#xff08;包含相关例题讲解&#xff09; Rebecca.Yan已于 2023-05-27 14:13:19 修改 一、基础知识 UDP 段、IP 数据包&#xff0c;以太网帧图示 通信过程中&…

Java程序打包成exe,无Java环境也能运行

Java程序开发完成后&#xff0c;通常情况下以jar包的形式发布。但有时我们需要给非软件开发人员使用程序&#xff0c;如制作好窗体应用&#xff0c;把它发给没有java开发环境的人使用&#xff0c;此时就需要制作exe安装包。本文介绍如何将java程序制作成exe安装包&#xff0c;并…

华为IPD流程6大阶段370个流程活动详解_第一阶段:概念阶段 — 81个活动

华为IPD流程涵盖了产品从概念到上市的完整过程,各阶段活动明确且相互衔接。在概念启动阶段,产品经理和项目经理分析可行性,PAC评审后成立PDT。概念阶段则包括产品描述、市场定位、投资期望等内容的确定,同时组建PDT核心组并准备项目环境。团队培训涵盖团队建设、流程、业务…

Linux中Mysql5.7主从架构(一主多从)配置教程

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f427;Linux基础知识(初学)&#xff1a;点击&#xff01; &#x1f427;Linux高级管理防护和群集专栏&#xff1a;点击&#xff01; &#x1f510;Linux中firewalld防火墙&#xff1a;点击&#xff01; ⏰️创作…

Pytorch | 利用PI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击

Pytorch | 利用PI-FGSM针对CIFAR10上的ResNet分类器进行对抗攻击 CIFAR数据集PI-FGSM介绍背景和动机算法原理算法流程 PI-FGSM代码实现PI-FGSM算法实现攻击效果 代码汇总pifgsm.pytrain.pyadvtest.py 之前已经针对CIFAR10训练了多种分类器&#xff1a; Pytorch | 从零构建AlexN…

Hadoop yarn安装

目录 一、环境准备 1、准备三台服务器 2、给三台主机分别配置主机名 3、给三台服务器配置域名&#xff0c;三台配置一样的 4、关闭防火墙 5、创建用户和用户组&#xff0c;三台配置一样的 6、创建安装目录 7、设置免密登录&#xff0c;三台机器都要执行下面的步骤 8、三…