神经网络理论(机器学习)

motivation

如果逻辑回归的特征有很多,会造出现一些列问题,比如:

  1. 线性假设的限制: 逻辑回归是基于线性假设的分类模型,即认为特征与输出之间的关系是线性的。如果特征非常多或者特征与输出之间的关系是非线性的,逻辑回归可能无法很好地进行分类。

  2. 特征间相关性: 如果特征之间高度相关,逻辑回归可能会受到多重共线性的影响,导致参数估计不稳定或难以解释。

  3. 非线性决策边界的需求: 在复杂的分类问题中,数据可能需要非线性的决策边界来更好地进行分类。

相比之下,神经网络有一系列的优势:

  1. 非线性关系建模: 神经网络能够学习复杂的非线性关系,因此在特征与输出之间存在非线性关系或需要复杂的决策边界时,神经网络通常能提供更好的性能。

  2. 自动特征学习: 神经网络能够通过隐藏层自动学习特征的高级表示,无需手动进行特征工程,这对于大量特征的问题尤为有利。

  3. 适应性强: 神经网络通常对数据中的噪声和复杂性具有一定的鲁棒性,能够更好地泛化到新的数据集。

简单人工神经网络

那么简单介绍一下神将网络:

上面是一个简单人工神经网络,x1-->x3是输入的特征,每个特征都会乘上相应的参数最后得到一个值。(这样看起来和线性回归差不多)

复杂神经网络(旧版本)

接下来介绍一个稍微复杂一点的:

首先定义一些术语:

a^{(i)}_{j}第i层,第j个神经元的激活项
\Theta ^{(j)}从j层到j+1层的权重矩阵(注意,行从1开始,列从0开始)
激活项由一个神经元接受并输出的值

注意:

a^{(2)}_{1}=g(\Theta^{(1)}_{10}x_{0} + \Theta^{(1)}_{11}x_{1} + \Theta^{(1)}_{12}x_{2} + \Theta^{(1)}_{13}x_{3})\\

a^{(2)}_{2}=g(\Theta^{(1)}_{10}x_{0} + \Theta^{(1)}_{11}x_{1} + \Theta^{(1)}_{12}x_{2} + \Theta^{(1)}_{13}x_{3})\\

a^{(3)}_{2}=g(\Theta^{(1)}_{10}x_{0} + \Theta^{(1)}_{11}x_{1} + \Theta^{(1)}_{12}x_{2} + \Theta^{(1)}_{13}x_{3})\\

h_{\Theta}(x)=a^{(3)}_{1}=g(\Theta^{(2)}_{10}a^{(2)}_{0} + \Theta^{(3)}_{11}a^{(2)}_{1} + \Theta^{(3)}_{12}a^{(2)}_{2} + \Theta^{(3)}_{13}a^{(2)}_{3})\\

其中g是激活函数。

这里可能不容易理解:

其实\Theta是一个矩阵:

\begin{pmatrix} \theta_{10}&\theta_{11} &\theta_{12} &\theta_{13} \\ \theta_{20}&\theta_{21} &\theta_{22} &\theta_{23} \\ \theta_{30}&\theta_{31} &\theta_{32} &\theta_{33} \end{pmatrix}

上图其实还有一个隐藏的x_{0}没有画出。就像第一个图一样,这个x_{0}是用来调节参数的。

\theta_{ij}在上图中表示:第二层的第i个神经元接受第一层的第j个特征值,形成的参数(权重)。权重乘上相应的数值得到的值(这个神经元接受前面的所有的神经元传递给他的值的和)(如上a^{(2)}_{1}是由前面x0,x1,x2,x3传递给第二层第一个神经元得到\theta_{10}x_{0}+\theta_{11}x_{1}+\theta_{12}x_{2}+\theta_{13}x_{3},再通过激活函数g映射得到数值。)

得到结论:

一个神经网络的第j层有s_{j}个单元,第(j+1)层有s_{j+1}个单元,那么从j到(j+1)层的权重矩阵属于\mathbb{R}^{s_{j+1}\times (s_{j}+1)}。即形状为s_{j}\times(s_{j}+1)

复杂神经网络(新版本)

我们再来看一下另一种解释(其实本质差不多,只不过最新的术语有些改变)

\vec{a}^{[i]}第i层输入出向量
w这个神经元的权重

这里面x就是一个特征向量矩阵,叫做0层(layer0),与上面一个版本有所不同,上面一个版本吧输入的x叫做layer1。这里面,我们把每一个圆形叫做一个“神经元”,每个神经元都有两个参数,分别是向量\vec{w}和参数b。这个向量\vec{w}的维度与其前一层神经元的个数有关,如果前一层神经元有n个那么这个向量\vec{w}就是n维,因为这样才可以出现下面图展示的:

这里可以简化为:

a^{[i]}_{1}=g(\vec{w^{[i]}_{(1)}}\cdot \vec{a}^{[i-1]}+b^{[i]}_{1})

注意:每一层的g函数是一样的,不同层的g函数可以不一样。为了统一,我们经常把输入层(layer0)叫做\vec{a}^{[0]}\vec{x}=\vec{a}^{[0]}

向前传播(预测)

接下来看一下如何前向传播(通俗点讲叫预测,注意不包含训练)

我们将预测图像显示的是1 or 0。

下面的一个图像是灰度像素展示,是一个1。

我们按照行,把每行首尾相连,组合成一个8*8=64维的向量,把它作为x(输入层,\vec{a}^{[0]})。

然后我们搭建我们的神经网络:

计算过程:

向前传播在python中实现:

已知有上面的神经网络。

\vec{w}_{1}^{[1]}=\begin{bmatrix} 1\\2 \end{bmatrix}   \vec{w}_{2}^{[1]}=\begin{bmatrix} -3\\4 \end{bmatrix}  \vec{w}_{3}^{[1]}=\begin{bmatrix} 5\\6 \end{bmatrix}

将这几个权重整合在一起:

w = np.array([[1, -3, 5],[2, 4, -6]
])

注意,是两行三列,

b_{1}^{[l]}=-1 ,b_{2}^{[l]}=1 ,b_{3}^{[l]}=2

b = np.array([-1, 1, 2])

\vec{a}^{[0]}=\vec{x}

a_in = np.array([-2, 4])

接下来要创建一个函数用来搭建每一层网络。

def dense(a_in, W, b, g):units = W.shape[1]  # 计算这一层有多少个单元a_out = np.zeros(units)  # 初始化输出for i in range(units):w = W[:, i]  # 取出W的第j列,也就是第j个单元的w向量,注意这里取出的w是1D向量z = np.dot(w, a_in) + b[i]  # 这里的a_in也是1D向量a_out[i]=g(z)   #g为激活函数return a_out

虽然已经有了网络,但是如何将已经有的网络连接起来呢?

还要建立一个函数:

def sequential(x):a1 = dense(x, W1, b1, g)a2 = dense(a1, W2, b2, g)a3 = dense(a2, W3, b3, g)a4 = dense(a3, W4, b4, g)f_x = a4return f_x

代码的高效实现

W = np.array([[1, -3, 5],[2, 4, -6]
])              #不变
B = np.array([[-1, 1, 2]])   #变成二维
X = np.array([[-2, 4]])      #变成二维def dense(A_in, W, B):Z = np.matmul(A_in, W) + B   #这个方法不支持标量A_out = g(Z)return A_out

训练网络

对于下面网络:

我们调用tensorflow库,实现下面代码:

import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense
model = Sequential([Dense(units=25,activation='sigmoid')Dense(units=15,activation='sigmoid')Dense(units=1,activation='sigmoid')]
)
from tensorflow.keras.losses import BinaryCrossentropy
model.compile(loss=BinaryCrossentropy)
model.fit(X,Y,epochs=100)

注意,这里的tensorflow由于版本问题,可能不含keras,可以直接下载keras这个包。(自己搞了半天才研究出来,大哭)

注意上面的步骤:

  1. model = Sequential(..)
  2. model.compile(loss=...)
  3. model.fit(X,y,epochs=100)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/382606.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】线程——线程池、线程池的实现、线程安全的线程池、单例模式的概念、饿汉和懒汉模式、互斥锁、条件变量、信号量、自旋锁、读写锁

文章目录 Linux线程7. 线程池7.1 线程池介绍7.2 线程池的实现7.3 线程安全的线程池7.3.1 单例模式的概念7.3.2 饿汉和懒汉模式 8. 常见锁使用汇总8.1 互斥锁(Mutex)8.2 条件变量(Condition Variable)8.3 信号量(Semaph…

探索 GPT-4o mini:成本效益与创新的双重驱动

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

79页PDF免费下载 | 全域数字化转型评估模型研究报告

一、前言: 随着数字技术的飞速发展,零售行业正站在转型的十字路口。如何在变革中找到方向,如何通过数字化转型提升企业竞争力,已成为每个零售企业必须面对的课题。腾讯智慧零售与伏羲智库深度合作,推出《2024年全域数…

05-用户画像+mysql-hive数据导入

将用户数据导入数仓 新建 create_hive_table.sh文件 在终端执行以下文件 sh create_hive_table.sh sqoop create-hive-table \ --connect jdbc:mysql://up01:3306/tags_dat \ tags_dat库名 --username root \ root 用户名 --password 123456 \ 123456 密码 --ta…

前端练习<HtmlCSS>——悬浮抽卡片(附完整代码及实现效果)

这个小练习来源于b站up小K师兄,大家可以通过下面的链接学习哦~up讲的非常详细。 写一个好玩的悬浮抽卡片效果~ 先看一下效果: 1.鼠标没有放置到card上 2.鼠标放到card上,所有card呈角度散开 3.单击选中某一张卡片,…

vue2 使用代码编辑器插件 vue-codemirror

vue 使用代码编辑器插件 vue-codemirror 之前用过一次,当时用的一知半解的,所以也没有成文,前几天又因为项目有需求,所以说有用了一次,当然,依旧是一知半解,但是还是稍微写一下子吧!…

vue2使用univerjs

1、univerjs Univer 提供了一个全面的企业级文档与数据协同的解决方案,支持电子表格、文本文档和演示幻灯片三大核心文档类型。通过灵活的 API 和插件机制,开发者可以在 Univer 的基础上进行个性化功能的定制和扩展,以适应不同用户在不同场景…

提升网站性能:ThinkPHP6中如何实现Mysql分页查询

随着互联网的快速发展,web应用程序的开发也越来越复杂。而分页查询是web应用程序中常见的功能之一。thinkphp6是一个web框架,可以帮助开发人员快速开发应用程序。在本文中,我们将讨论如何在thinkphp6中使用mysql进行分页查询。 首先&#xf…

【python】OpenCV—Shape Detection

文章目录 1、需求描述2、代码实现3、涉及到的库函数cv2.arcLengthcv2.approxPolyDP 4、案例5、参考 1、需求描述 给出图像,找出其轮廓,近似确认其为几变形图像 输入 输出 2、代码实现 # 导入必要的包 import cv2 import argparse import imutils imp…

C++STL初阶(7):list的运用与初步了解

在了解了vector之后,我们只需要简单学习List与vector不一样的接口即可 1.list的基本接口 1.1 iterator list中,与vector最大的区别就是迭代器由随机迭代器变成双向迭代器 string和vector中的迭代器都是随机迭代器,支持-等,而LIS…

centos系统mysql集群复制双主双从

文章目录 MySQL 双主双从集群一、 准备环境二、 配置主服务器1. 配置 MySQL 主服务器 1 (192.168.1.1)2. 配置 MySQL 主服务器 2 (192.168.1.2) 三、配置从服务器1. 配置 MySQL 从服务器 1 (192.168.1.3)2. 配置 MySQL 从服务器 2 (192.168.1.4)3. 在主服务器 1 上配置复制到主…

【接口测试】params传参与body传参区别

文章目录 一.params传参二.body传参三.两者区别说明 一.params传参 params传参一般用于get请求 params传参时,参数会附于URL后面以问号形式展示。 示例: http://ip地址:端口号/login?usernamexm&pwd111二.body传参 body传参一般用于post请求 body传参时需…

JavaScript(12)——内置对象

JavaScript内部提供的对象,包含各种属性和方法给开发者调用。 Math Math对象是JavaScript提供的一个“数学”对象 包含的方法有: random:生成0-1之间的随机数 ceil:向上取整 floor:向下取整 max:找最大数 min&#…

前置-Linux相关知识速记

linux Linux命令大全 [!IMPORTANT] chown-chmod-ls-chgrp-cdpwd-mkdir-rmdir-cp-rm-mv-cat-tac-nl-more-less-head-tail 应用领域 通常服务器使用 LAMP(Linux Apache MySQL PHP)或 LNMP(Linux Nginx MySQL PHP)组合。 目前…

STM32智能工业监控系统教程

目录 引言环境准备智能工业监控系统基础代码实现:实现智能工业监控系统 4.1 数据采集模块 4.2 数据处理与控制模块 4.3 通信与网络系统实现 4.4 用户界面与数据可视化应用场景:工业监控与优化问题解决方案与优化收尾与总结 1. 引言 智能工业监控系统通…

Chapter18 基于物理的渲染——Shader入门精要学习

Chapter18 基于物理的渲染 一、PBS理论和数学基础1.光是什么微表面模型 2.渲染方程3.精确光源4.双向反射分布函数 BRDF5.漫反射项(Lambert 模型)Lambertian BRDF为:Disney BRDF中漫反射项 6.高光反射项微面元理论BRDF的高光反射项①菲涅尔反射…

C# 委托函数 delegate

在C#中,委托(Delegate)是一种特殊的类型,它可以持有对方法的引用。 委托是实现事件的基础。事件本质上是多播委托,允许多个方法被触发 委托允许你将方法作为参数传递给其他方法,或者将方法作为返回值从方法…

Redis核心技术与实战学习笔记

Redis核心技术与实战学习笔记 最近想沉下心来看下redis,买了蒋德钧老师的《Redis 核心技术与实战》,这里记录一些学习笔记 希望能够坚持下去有想一起学习的童鞋,可以点击跳转到文章尾部获取学习资源,仅供学习不要用于任何商业用途!!! redis知识全景图 …

中断和EXIT原理介绍

中断和EXIT原理介绍 一、中断的介绍?二、EXIT的介绍1.EXIT作用2.EXIT的详情3.EXIT中AFIO复用的作用4.STM32中AFIO复用作用 一、中断的介绍? 二、EXIT的介绍 EXTI(Extern Interrupt)外部中断 1.EXIT作用 EXTI可以监测指定GPIO口…

编写SpringBoot的自定义starter包

starter项目 先来看一下Starter的官方解释: Spring Boot Starter 是一种方便的依赖管理方式,它封装了特定功能或技术栈的所有必要依赖项和配置,使得开发者可以快速地将这些功能集成到Spring Boot项目中。Spring Boot官方提供了一系列的Star…