在AI智能中有几种重要的神经网络类型?6种重要的神经网络类型分享!

神经网络今天已经变得非常流行,但仍然缺乏对它们的了解。一方面,我们已经看到很多人无法识别各种类型的神经网络及其解决的问题,更不用说区分它们中的每一个了。其次,在某种程度上更糟糕的是,当人们在谈论任何神经网络时不加区分地使用深度学习这个词而没有打破差异。

在这篇文章中,我们将讨论每个人在从事 AI 研究时都应该熟悉的最流行的神经网络架构。

1. 前馈神经网络

这是最基本的神经网络类型,它在很大程度上是由于技术进步而产生的,它使我们能够添加更多隐藏层,而无需过多担心计算时间。由于Geoff Hinton 在 1990 年发现了反向传播算法,它也变得流行起来。

前馈神经网络图

前馈神经网络图

这种类型的神经网络本质上由一个输入层、多个隐藏层和一个输出层组成。没有循环,信息只向前流动。前馈神经网络通常适用于数值数据的监督学习,尽管它也有其缺点:

  • 它不能与顺序数据一起使用。
  • 它不适用于图像数据,因为该模型的性能严重依赖于特征,而手动查找图像或文本数据的特征本身就是一项非常困难的练习。

这将我们带到了接下来的两类神经网络:卷积神经网络和循环神经网络。

2. 卷积 神经网络(CNN)

在 CNN 流行之前,人们用于图像分类的算法有很多。人们过去常常从图像中创建特征,然后将这些特征输入到一些分类算法中,例如 SVM。一些算法也使用图像的像素级值作为特征向量。举个例子,您可以训练一个具有 784 个特征的 SVM,其中每个特征都是 28x28 图像的像素值。

为什么 CNN 以及为什么它们工作得更好?

CNN 可以被认为是图像中的自动特征提取器。虽然如果我使用带有像素向量的算法,我会失去很多像素之间的空间交互,而 CNN 有效地使用相邻像素信息首先通过卷积有效地对图像进行下采样,然后在最后使用预测层。

2. 卷积神经网络 (CNN)。

用于数字识别的 CNN 架构

这个概念最初由 Yann le cun 在 1998 年提出,用于数字分类,他使用单个卷积层来预测数字。它后来在 2012 年被 Alexnet 推广,它使用多个卷积层在 Imagenet 上实现最先进的预测。从而使它们成为今后图像分类挑战的首选算法。

随着时间的推移,在这个特定领域取得了各种进步,研究人员为 CNN 提出了各种架构,如 VGG、Resnet、Inception、Xception 等,这些架构不断推动图像分类的最新技术发展。

计算机扫描照片中的人和事物的图像。

CNN 用于物体检测

相比之下,CNN 也用于对象检测,这可能是一个问题,因为除了对图像进行分类之外,我们还想检测图像中各种对象周围的边界框。过去,研究人员提出了许多架构,如 YOLO、RetinaNet、Faster RCNN 等来解决对象检测问题,所有这些架构都使用 CNN 作为其架构的一部分。

3. 循环神经网络(LSTM/GRU/Attention)

CNN 对于图像意味着什么,循环神经网络对于文本意味着什么。RNN 可以帮助我们学习文本的顺序结构,其中每个词都依赖于前一个词或前一个句子中的一个词。

对于 RNN 的简单解释,将 RNN 单元视为一个黑盒子,输入一个隐藏状态(一个向量)和一个词向量,并给出一个输出向量和下一个隐藏状态。这个盒子有一些权重,需要使用损失的反向传播进行调整。此外,相同的单元格应用于所有单词,以便在句子中的单词之间共享权重。这种现象称为权重共享。

隐藏状态,词向量 -(RNN Cell) - 输出向量,下一个隐藏状态。

循环神经网络图

下面是相同 RNN 单元的扩展版本,其中每个 RNN 单元在每个单词标记上运行,并将隐藏状态传递给下一个单元。对于像“the quick brown fox”这样的长度为 4 的序列,RNN 单元最终给出了 4 个输出向量,这些向量可以连接起来,然后用作密集前馈架构的一部分,如下所示,以解决最终任务语言建模或分类任务:

Softmax 澄清任务。

展开的 RNN 图

长短期记忆网络 (LSTM) 和门控循环单元(GRU) 是 RNN 的一个子类,专门通过引入各种门来长时间记忆信息(也称为消失梯度问题),这些门通过添加或删除信息来调节细胞状态从中。

从一个非常高的角度来看,您可以将 LSTM/GRU 理解为在 RNN 单元上学习长期依赖关系的一种游戏。RNN/LSTM/GRU 主要用于各种语言建模任务,其目标是在给定输入词流的情况下预测下一个词,或者用于具有顺序模式的任务。如果您想学习如何将 RNN 用于文本分类任务,请查看这篇 文章。

接下来我们应该提到的是基于注意力的 模型,但我们在这里只讨论直觉,因为深入研究这些模型可以获得非常技术性的知识(如果有兴趣,您可以查看这篇 文章)。过去,使用TFIDF/CountVectorizer等传统方法通过关键字提取从文本中查找特征。有些词比其他词更有助于确定文本的类别。然而,在这种方法中,我们有点丢失了文本的顺序结构。使用 LSTM 和深度学习方法,我们可以处理序列结构,但我们失去了为更重要的单词赋予更高权重的能力。我们可以两全其美吗? 答案是肯定的。其实,注意力就是你所需要的. 用作者的话来说:

“并非所有单词对句子含义的表示都有同样的贡献。因此,我们引入了一种注意力机制来提取对句子含义很重要的单词,并聚合这些信息单词的表示以形成句子向量。”

4. 变压器

变压器流程图。

变压器图

Transformer 已经成为任何自然语言处理 (NLP) 任务的事实上的标准,最近推出的 GPT-3 转换器是迄今为止最大的。

过去,LSTM 和 GRU 架构以及注意力机制曾经是语言建模问题和翻译系统的最先进方法。这些架构的主要问题是它们本质上是循环的,运行时间随着序列长度的增加而增加。也就是说,这些架构采用一个句子并以顺序方式处理每个单词,因此当句子长度增加时,整个运行时间也会增加。

Transformer,首先在论文中解释的模型架构 注意就是你所需要的,放弃这种循环,而是完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系。这使得它更快、更准确,成为解决 NLP 领域各种问题的首选架构。

5. 生成对抗网络 (GAN)

数据科学领域的人们最近看到了很多 AI 生成的人,无论是在论文、博客还是视频中。我们已经到了一个阶段,区分真实的人脸和 人工智能生成的人脸变得越来越困难。而这一切都是通过 GAN 实现的。GAN 很可能会改变我们生成视频游戏和特效的方式。使用这种方法,您可以按需创建逼真的纹理或角色,打开一个充满可能性的世界。

GAN 通常使用两个决斗神经网络来训练计算机以足够好地学习数据集的性质以生成令人信服的假货。其中一个神经网络生成假图像(生成器),另一个神经网络尝试分类哪些图像是假的(鉴别器)。这些网络通过相互竞争而随着时间的推移而改进。

也许最好把发电机想象成一个强盗,把鉴别器想象成一个警察。强盗偷得越多,他偷东西的能力就越好。同时,警察也更擅长抓小偷。

这些神经网络中的损失主要取决于另一个网络的表现:

  • 鉴别器网络损失是生成器网络质量的函数:如果鉴别器被生成器的假图像愚弄,它的损失会很高。
  • 生成器网络损失是鉴别器网络质量的函数:如果生成器无法欺骗鉴别器,则损失很高。

在训练阶段,我们依次训练鉴别器和生成器网络,旨在提高两者的性能。最终目标是得到有助于生成器创建逼真图像的权重。最后,我们将使用生成器神经网络从随机噪声中生成高质量的假图像

6. 自编码器

自编码器是 深度学习函数,它近似于从 X 到 X 的映射,即输入 = 输出。他们首先将输入特征压缩为低维表示 ,然后从该表示重构输出。

自编码器。

自编码器图

在很多地方,这个表示向量可以作为模型特征,从而用于降维。 

自编码器也用于异常检测,我们尝试使用自编码器重建我们的示例,如果重建损失太高,我们可以预测该示例是异常。

结论

神经网络本质上是有史以来最伟大的模型之一,它们可以很好地概括我们能想到的大多数建模用例。如今,这些不同版本的神经网络正被用于解决医疗保健、银行和汽车行业等领域的各种重要问题,并被苹果、谷歌和 Facebook 等大公司用于提供推荐和帮助搜索查询. 例如,Google 使用 BERT,这是一个基于 Transformers 的模型来支持其搜索查询。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2333.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

业务幂等性技术架构体系之消息幂等深入剖析

在系统中当使用消息队列时,无论做哪种技术选型,有很多问题是无论如何也不能忽视的,如:消息必达、消息幂等等。本文以典型的RabbitMQ为例,讲解如何保证消息幂等的可实施解决方案,其他MQ选型均可参考。 一、…

【C语言】线程----同步、互斥、条件变量

目录 3. 同步 3.1 概念 3.2 同步机制 3.3 函数接口 1. 同步 1.1 概念 同步(synchronization)指的是多个任务(线程)按照约定的顺序相互配合完成一件事情 1.2 同步机制 通过信号量实现线程间的同步 信号量:通过信号量实现同步操作;由信号量来决定…

Linux内核的启动

一、需求 Linux系统中内核处于硬件和应用层之间。整个系统启动和初始化的过程,Linux内核是在主处理器启动之后才会执行。不同的处理器启动流程并不相同,这就要求内核能支持各种处理器的初始化操作。Liux内核各个模块,大部分设计时做到了体系…

[手机Linux] ubuntu 错误解决

Ubuntu: 1,ttyname failed: Inappropriate ioctl for device 将 /root/.profile 文件中的 mesg n || true 改为如下内容。 vim /root/.profile tty -s && mesg n || true 2,Errors were encountered while processing: XXX XXXX sudo apt-get --purge remove xxx…

Docker的入门

一、安装Docker 本教程参考官网文档,链接如下: CentOS | Docker Docs 这个教程是基于你的虚拟机已经弄好了(虚拟机用的CentOS),并且有SecureCRT或者MobaXterm等等任意一个工具 1.1 卸载旧版 如果系统中存在旧版本的Docker&a…

Onedrive精神分裂怎么办(有变更却不同步)

Onedrive有时候会分裂,你在本地删除文件,并没有同步到云端,但是本地却显示同步成功。 比如删掉了一个目录,在本地看已经删掉,onedrive显示已同步,但是别的电脑并不会同步到这个删除操作,在网页版…

机器学习06-正则化

机器学习06-正则化 文章目录 机器学习06-正则化0-核心逻辑脉络1-参考网址3-大模型训练中的正则化1.正则化的定义与作用2.常见的正则化方法及其应用场景2.1 L1正则化(Lasso)2.2 L2正则化(Ridge)2.3 弹性网络正则化(Elas…

windows 极速安装 Linux (Ubuntu)-- 无需虚拟机

1. 安装 WSL 和 Ubuntu 打开命令行,执行 WSL --install -d ubuntu若报错,则先执行 WSL --update2. 重启电脑 因安装了子系统,需重启电脑才生效 3. 配置 Ubuntu 的账号密码 打开 Ubuntu 的命令行 按提示,输入账号,密…

微信小程序实现个人中心页面

文章目录 1. 官方文档教程2. 编写静态页面3. 关于作者其它项目视频教程介绍 1. 官方文档教程 https://developers.weixin.qq.com/miniprogram/dev/framework/ 2. 编写静态页面 mine.wxml布局文件 <!--index.wxml--> <navigation-bar title"个人中心" ba…

Qt/C++进程间通信:QSharedMemory 使用详解(附演示Demo)

在开发跨进程应用程序时&#xff0c;进程间通信&#xff08;IPC&#xff09;是一个关键问题。Qt 框架提供了多种 IPC 技术&#xff0c;其中 QSharedMemory 是一种高效的共享内存方式&#xff0c;可以实现多个进程之间快速交换数据。本文将详细讲解 QSharedMemory 的概念、用法及…

[UE4图文系列] 5.字符串转中文乱码问题说明

原文连接&#xff1a;[UE4图文系列] 5.字符串转中文乱码问题说明 - 哔哩哔哩 本例以原生C和UE4 C字符串传输中出现的中文乱码问题进行说明 一.乱码示例: 1.直接用中文字符串初始化FString,在蓝图中进行打印 FString GetStrWithChinese() {FString fstr"这是一句中文"…

人工智能任务19-基于BERT、ELMO模型对诈骗信息文本进行识别与应用

大家好&#xff0c;我是微学AI&#xff0c;今天给大家介绍一下人工智能任务19-基于BERT、ELMO模型对诈骗信息文本进行识别与应用。近日&#xff0c;演员王星因接到一份看似来自知名公司的拍戏邀约&#xff0c;被骗至泰国并最终被带到缅甸。这一事件迅速引发了社会的广泛关注。该…

题解 CodeForces 430B Balls Game 栈 C/C++

题目传送门&#xff1a; Problem - B - Codeforceshttps://mirror.codeforces.com/contest/430/problem/B翻译&#xff1a; Iahub正在为国际信息学奥林匹克竞赛&#xff08;IOI&#xff09;做准备。有什么比玩一个类似祖玛的游戏更好的训练方法呢&#xff1f; 一排中有n个球…

通过proto文件构建 完整的 gRPC 服务端和客户端案例

基础教程-简单案例&#xff08;快入入门java-grpc框架&#xff09; 参考官方入门案例教程&#xff1a;里面我看proto编译&#xff0c;其实直接用maven就能直接将.proto文件编译成java代码。快速入门 | Java | gRPC 框架https://grpc.org.cn/docs/languages/java/quickstart/ …

Mysql--运维篇--备份和恢复(逻辑备份,mysqldump,物理备份,热备份,温备份,冷备份,二进制文件备份和恢复等)

MySQL 提供了多种备份方式&#xff0c;每种方式适用于不同的场景和需求。根据备份的粒度、速度、恢复时间和对数据库的影响&#xff0c;可以选择合适的备份策略。主要备份方式有三大类&#xff1a;逻辑备份&#xff08;mysqldump&#xff09;&#xff0c;物理备份和二进制文件备…

如何修复Android上未安装的应用程序

在Android设备上安装应用程序通常是一个简单的过程。然而&#xff0c;“ Android上未安装应用程序”是一种常见的智能手机错误消息&#xff0c;由于一个或多个原因而经常遇到。发现由于即将出现故障而无法充分利用手机&#xff0c;这当然会非常令人沮丧&#xff0c;但幸运的是&…

干净卸载Windows的Node.js环境的方法

本文介绍在Windows电脑中&#xff0c;彻底删除Node.js环境的方法。 在之前的文章Windows系统下载、部署Node.js与npm环境的方法&#xff08;https://blog.csdn.net/zhebushibiaoshifu/article/details/144810076&#xff09;中&#xff0c;我们介绍过在Windows电脑中&#xff0…

初始Java4

目录 一.继承 1.定义&#xff1a; 2.继承的语法&#xff1a; 3.子类访问父类 4.子类构造方法 5.super与this 6.继承方法 7.final关键字 &#xff08;1&#xff09;.变量不变 &#xff08;2&#xff09;.方法不变 &#xff08;3&#xff09;.类不可继承 8.继承与组合…

算法竞赛(蓝桥杯)贪心算法1——数塔问题

题目描述 有如下所示的数塔&#xff0c;要求从底层走到顶层&#xff0c;若每一步只能走到相邻的结点&#xff0c;则经过的结点的数字之和最大是多少&#xff1f; 输入 输入数据首先包括一个整数整数 N (1≤N≤100)&#xff0c;表示数塔的高度&#xff0c;接下来用 N 行数字表示…

MATLAB学习笔记-table

1.在table中叠加table table 的每一列具有固定的数据类型。如果要让表的所有单元格都可以任意填充&#xff0c;就得让每一列都是 cell 类型&#xff0c;这样表中每个单元格都是“一个元胞”。创建时可以先构造一个 空 cell 数组&#xff08;大小为行数列数&#xff09;&#x…