深度学习基础—Softmax回归

        通常对于二分类问题,大家熟知的模型就是logistic回归。那么对于多分类问题呢?如果要多分类,我们可以在网络的最后一层建立多个神经元,每个神经元对应一个分类的输出,输出的是某一个分类的概率,这些概率之和为1。要想做到上述分析,就需要由Softmax激活函数组成的Softmax回归模型来解决。

1.Softmax激活函数


        其中,xi是输入,n是输入向量的维度。这个函数的结果分布概率之和是1。通常运用在模型的最后一层,即输出层。和分类交叉熵损失函数结合到一起就是Softmax回归。

2.分类交叉熵损失函数


        这个损失函数和Softmax激活函数搭配很好的原因有如下几点考虑:第一点是激活函数是指数函数ex的组合,损失函数对输出取log()对数,两者互为反函数,因此可以简化运算。第二点是即使输入Softmax激活函数的是负数,该激活函数也能将输出转化(0,1)区间,然后计算该损失函数,log()函数在(0,1)区间内是负数,和损失函数前面的负号抵消,因此有利于数值稳定。

3.Softmax回归


        如下是假如我们要训练的网络:

        我们需要进行4分类问题,因此网络最后一层是4个神经元,在其它层选择和往常一样线性组合和激活函数操作,在最后一层L层,选择Softmax激活函数,则最后一层的计算如下:

        最终,a[L]向量即为网络的输出,它是4*1的向量。注意,如果要分类的类别是2,则Softmax回归退化成logistic回归。

        假设一个样本的标签是:

        而网络的输出是:

        可以看出,样本是类别2,但是类别2的输出概率为0.2,这样的输出效果很差。经过损失函数的计算得到如下:

        为了使损失降低,就需要提高类别2的输出概率,因此可以看出来选择分类交叉熵损失函数可以起到多分类降低损失的效果。

        在使用梯度下降法时,需要求损失函数关于z的偏导,于是下面给出推导过程(并不规范):

        情况一:当i=j时,此时说明yi=1,则:

        情况二:当i!=j时,yi=0,则:

        因此,这个关键的梯度公式:

        有了这个梯度公式,就可以依次计算各层的导数了,进而实现梯度下降法进行优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/405971.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

写给大数据开发:如何优化临时数据查询流程

你是否曾因为频繁的临时数据查询请求而感到烦恼?这些看似简单的任务是否正在蚕食你的宝贵时间,影响你的主要工作?如果是,那么这篇文章正是为你而写。 目录 引言:数据开发者的困境问题剖析:临时数据查询的…

小程序开发与发布指南:API、协同工作、版本管理与运营数据

✨✨ 欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭❤~✨✨ 🌟🌟 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua小谢,在这里我会分享我的知识和经验。&am…

乡村养老服务管理系统

TOC springboot549乡村养老服务管理系统pf 绪论 1.1 研究背景 现在大家正处于互联网加的时代,这个时代它就是一个信息内容无比丰富,信息处理与管理变得越加高效的网络化的时代,这个时代让大家的生活不仅变得更加地便利化,也让…

【论文阅读33】Deep learning optoacoustic tomography with sparse data

Deep learning optoacoustic tomography with sparse data 论文题目:基于稀疏数据的深度学习光声断层扫描 论文链接:Deep learning optoacoustic tomography with sparse data | Nature Machine Intelligence 代码链接:GitHub - ndavoudi/sparse_artefact_unet 数据链接…

「C++系列」vector 容器

文章目录 一、vector 容器1. 基本特性2. 基本操作3. 注意事项 二、应用场景1. 应用场景2. 案例案例一:存储动态大小的数据集合案例二:实现栈 三、相关链接 一、vector 容器 C 中的 vector 是一个非常常用的容器(container)&#…

comfyUI工作流-Flux大模型应用/黑神话悟空角色生成(附lora)

​ 是什么让悟空开始搬砖,这莫不是新的副本 其实我们用AI就能生成这种黑神话悟空的衍生图片 让悟空做ceo,做老师,上工地搬砖 七十二变,体验人生百态 操作很简单,只需要一个comfyUI工作流,你就能任意生成…

嵌入式day31

mplayer项目问题分析: 知识短时间内可以获取到 能力的提升一定需要练习 IPC 进程间通信方式 共享内存 //最高效的进程间通信方式 共享内存: 1.是一块 内核预留的空间 2.最高效的通信方式 //避免了用户空间到内核空间的数据拷贝 操作: …

<数据集>航拍牧场牛羊识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:1021张 标注数量(xml文件个数):1021 标注数量(txt文件个数):1021 标注类别数:3 标注类别名称:[cattle, cow, sheep] 序号类别名称图片数框数1cattle29741282cow6740…

Zookeeper服务注册及心跳机制详解

ZooKeeper提供了一种类似于文件目录的结构来保存key值,其提供了四种key类型,分别是持久节点,临时节点,持久有序节点,临时有序节点。其中临时节点的特性是当创建此节点的会话断开时,节点也会被删除。这一特性…

Hive SQL语言

目录 Hive SQL之数据库与建库 create database :创建数据库 use database :选择特定的数据库 drop database :删除数据库 Hive SQL之表与建表 create table : 创建表 分隔符指定语法 Hive SQL-DML-Load加载数据 Load语法功能 语法规则之filepath 语法规则之LOCAL …

区块链变革:Web3时代的数字化前沿

随着科技的飞速发展,数字化正在深刻影响着我们生活的方方面面。区块链技术作为一种新兴的去中心化技术,正成为推动这一变革的重要力量。特别是在Web3时代,区块链的作用不仅仅局限于加密货币,而是延伸到了各个领域,成为…

VMware虚拟机nat无法联通主机

VMware在nat模式下主机无法ping通虚拟机 原因: 虚拟机和对应的网卡不在一个网段 虚拟机开启了防火墙 解决方法: 首先判断虚拟机的网络ip是否和网卡在一个网段上 判断虚拟机使用的网卡 nat模式在VMware虚拟机中一般只有一个对应的网卡 如图笔者的nat网卡为VM…

【机器学习】全景指南:从基础概念到实战流程的全面解析

文章目录 1.引言1.1机器学习的重要性1.2机器学习的应用范围1.3本文的内容结构 2. 机器学习的基本概念与分类2.1 机器学习的定义2.2 机器学习的分类 4. 强化学习(Reinforcement Learning) 3. 机器学习的工作流程3.1 数据收集与准备1. 数据源与类型2. 数据…

26.删除有序数组中的重复项---力扣

题目链接: . - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/remove-duplicates-from-sorted-array/descript…

STM32新建项目

一、学习背景 需要做一个机械臂项目,打算用STM32做微控制器,所以需要学习STM32的相关应用,再将其应用到机械臂上。 二、相关硬件与软件 硬件:STM32F103;显示屏;stlink;传感器模块&#xff1b…

深入理解 C# 中的 dynamic 类型详解与示例

文章目录 1. 什么是 dynamic 类型?2. dynamic 的工作原理3. dynamic 类型的使用4. 使用 dynamic 的场景5. dynamic 的优缺点6. dynamic 类型的注意事项7. 总结 在 C# 编程中,dynamic 类型是一个非常特殊的类型,它在编译时并不会进行类型检查&…

SOL项目开发代币DApp的基本要求、模式创建与海外宣发策略

Solana(SOL)作为一个高性能区块链平台,以其快速的交易速度和低交易成本吸引了大量开发者和投资者。基于Solana开发的去中心化应用程序(DApp)和代币项目正逐步成为区块链领域的重要组成部分。要成功开发并推广一个SOL项…

VM相关配置及docker

NAT——VMnet8网卡 桥接——WLAN/网线 仅主机——VMnet1网卡 docker与虚拟机的区别 启动docker服务 systemctl start docker 重启 systemctl start docker关闭docker服务 systemctl stop docker.servicedocker的两大概念 镜像:images,应用程序的静态文…

Agentic Security:一款针对LLM模型的模糊测试与安全检测工具

关于Agentic Security Agentic Security是一款针对LLM模型的模糊测试与安全检测工具,该工具可以帮助广大研究人员针对任意LLM执行全面的安全分析与测试。 请注意 Agentic Security 是作为安全扫描工具设计的,而不是万无一失的解决方案。它无法保证完全防…

魔珐科技出席WWEC教育者大会,给出AI时代教培行业精细化运营赋能方案

AI与教育的结合,已经成为教育行业发展的关键增长点。头部机构纷纷寻求AI技术与产品融合,以增强市场竞争力,希望在这场技术引发的行业洗牌中保持领先。 喜忧之中,展望未来,教培机构如何继续找准航向,贴近政…