【漫话机器学习系列】114.逻辑 Sigmoid 函数

逻辑 Sigmoid 函数详解

1. 引言

逻辑回归(Logistic Regression)是机器学习中常用的分类算法,而 Sigmoid 函数 是逻辑回归的核心数学工具。Sigmoid 函数能够将任意实数映射到 (0,1) 之间,因此特别适用于概率估计。在这篇文章中,我们将深入探讨 Sigmoid 函数的数学公式、特性、导数、应用以及其在逻辑回归中的作用。


2. Sigmoid 函数的数学表达

Sigmoid 函数的数学表达式如下:

\sigma(x) = \frac{1}{1 + e^{-x}}

其中:

  • x 是输入变量,可以取任意实数值。
  • e 是自然对数的底数,约等于 2.718。
  • σ(x) 的输出范围是 (0,1),适合用作概率表示。

2.1 Sigmoid 函数的基本性质

  • 当 x → +∞,e^{-x} \to 0,因此 σ(x) → 1。
  • 当 x → −∞,e^{-x} \to +\infty,因此 σ(x) → 0。
  • 当 x = 0,\sigma(0) = \frac{1}{1 + e^0} = \frac{1}{2} = 0.5
  • Sigmoid 函数的形状是S 形曲线(如图所示),在 x 值较小时,函数值接近 0,较大时接近 1。

2.2 Sigmoid 函数的图像

从图像来看,Sigmoid 函数在 x 轴上呈现 对称性,在 x=0 处对称。它的变化最剧烈的区域在 x=0 附近,这表明 Sigmoid 对较小的输入值更敏感,而当 x 取值极端时,函数趋于平缓。


3. Sigmoid 函数的导数

Sigmoid 函数的导数在机器学习和深度学习中非常重要,特别是在梯度下降优化过程中。Sigmoid 的导数公式如下:

\sigma'(x) = \sigma(x) (1 - \sigma(x))

推导过程如下:

\sigma(x) = \frac{1}{1 + e^{-x}}

对 x 求导:

\sigma'(x) = \frac{d}{dx} \left( \frac{1}{1 + e^{-x}} \right)

使用链式法则:

\sigma'(x) = \frac{e^{-x}}{(1 + e^{-x})^2}

由于 \sigma(x) = \frac{1}{1 + e^{-x}}​,因此 e^{-x} = \frac{1 - \sigma(x)}{\sigma(x)}​,代入得:

\sigma'(x) = \sigma(x) (1 - \sigma(x))

3.1 Sigmoid 导数的性质

  • 最大值:当 σ(x)=0.5 时,导数达到最大值 0.25。
  • 最小值:当 σ(x) 接近 0 或 1 时,导数接近 0。这表明在极端区域(远离 0 的区域),Sigmoid 函数的梯度会消失(即梯度消失问题)。

4. Sigmoid 函数的应用

4.1 逻辑回归

逻辑回归是二分类问题中常用的模型,核心思想是:

  • 先计算线性变换:z = w_0 + w_1 x_1 + ... + w_n x_n​。
  • 通过 Sigmoid 函数计算概率:P(y=1 | x) = \sigma(z)
  • 根据设定的阈值(如 0.5),决定分类结果:
    • 如果 \sigma(z) \geq 0.5,预测为 1 类。
    • 如果 \sigma(z) < 0.5,预测为 0 类。

4.2 神经网络

在深度学习中,Sigmoid 函数常用于:

  • 输出层激活函数(尤其是二分类问题)。
  • 早期神经网络中的隐藏层激活函数(但因梯度消失问题,现多用 ReLU 代替)。

4.3 其他应用

  • 生物学:Sigmoid 函数用于描述生长曲线神经元激活
  • 经济学:用于建模市场饱和度边际收益递减

5. Sigmoid 函数的优缺点

5.1 优点

  1. 概率解释性:输出值位于 (0,1) 之间,可直接解释为概率。
  2. 平滑可微:Sigmoid 是一个连续、可微的函数,适用于梯度下降优化。
  3. 单调性:Sigmoid 函数是单调递增的,适合用于分类任务。

5.2 缺点

  1. 梯度消失问题
    • 在极端值(接近 0 或 1)时,梯度接近 0,导致深层神经网络难以训练。
    • 现代深度学习一般用 ReLU 代替 Sigmoid 作为隐藏层激活函数。
  2. 计算代价较高
    • 计算 e^{-x} 需要指数运算,比线性变换计算成本更高。
  3. 非零均值问题
    • Sigmoid 函数的输出范围是 (0,1),均值不是 0,可能导致权重更新不稳定。

6. 代码示例

6.1 计算 Sigmoid 值

import numpy as np
import matplotlib.pyplot as pltdef sigmoid(x):return 1 / (1 + np.exp(-x))x = np.linspace(-10, 10, 100)
y = sigmoid(x)plt.plot(x, y, label="Sigmoid Function")
plt.xlabel("x")
plt.ylabel("σ(x)")
plt.legend()
plt.show()

6.2 计算 Sigmoid 的导数

import numpy as np
import matplotlib.pyplot as pltdef sigmoid(x):return 1 / (1 + np.exp(-x))x = np.linspace(-10, 10, 100)
y = sigmoid(x)def sigmoid_derivative(x):return sigmoid(x) * (1 - sigmoid(x))y_derivative = sigmoid_derivative(x)plt.plot(x, y_derivative, label="Sigmoid Derivative", color='red')
plt.xlabel("x")
plt.ylabel("σ'(x)")
plt.legend()
plt.show()


7. 结论

  • Sigmoid 函数是逻辑回归和神经网络的重要组成部分,用于将数值映射到 (0,1) 之间。
  • 具有 S 形曲线的特点,使其适用于概率估计和分类问题
  • 尽管存在梯度消失问题,在深度学习中仍有广泛应用,特别是用于二分类任务的输出层

理解 Sigmoid 函数对于掌握逻辑回归、神经网络和深度学习至关重要。希望这篇文章能帮助你更好地理解 Sigmoid 函数的原理和应用!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27298.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot项目启动报错:PathVariable annotation was empty on param 0.

报错信息 SpringBoot项目启动报错&#xff1a;Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name com.obstetric.archive.feignclient.DictServiceClient: FactoryBean threw exception on object creation; nested excepti…

Java 设计模式:软件开发的精髓与艺

目录 一、设计模式的起源二、设计模式的分类1. 创建型模式2. 结构型模式3. 行为型模式三、设计模式的实践1. 单例模式2. 工厂模式3. 策略模式四、设计模式的优势五、设计模式的局限性六、总结在软件开发的浩瀚星空中,设计模式犹如一颗颗璀璨的星辰,照亮了开发者前行的道路。它…

Unity小功能实现:鼠标点击移动物体

1、功能描述 当玩家点击鼠标时&#xff0c;场景中的物体会移动到鼠标点击的位置。这个功能可以用于控制角色移动、放置物体等场景。 2、实现步骤 创建Unity项目&#xff1a;首先&#xff0c;打开Unity并创建一个新的3D项目。 添加3D物体&#xff1a;在场景中创建一个3D物体&am…

避坑!用Docker搞定PHP开发环境搭建(Mac、Docker、Nginx、PHP-FPM、XDebug、PHPStorm、VSCode)

本次更新主要是对环境版本进行了更新&#xff0c;例如php 7.3.7升级到了7.3.8&#xff0c;另外之前的版本有同学踩了坑&#xff0c;主要是官方docker镜像php:7.3.7-fpm和php:7.3.8-fpm使用了不同版本的debian&#xff0c;后面会提到&#xff0c;请各位同学留意。 因为最近换电脑…

Spring Boot集成Jetty、Tomcat或Undertow及支持HTTP/2协议

目录 一、常用Web服务器 1、Tomcat 2、Jetty 3、Undertow 二、什么是HTTP/2协议 1、定义 2、特性 3、优点 4、与HTTP/1.1的区别 三、集成Web服务器并开启HTTP/2协议 1、生成证书 2、新建springboot项目 3、集成Web服务器 3.1 集成Tomcat 3.2 集成Jetty 3.3 集成…

京东web 详情 cfe滑块分析

声明: 本文章中所有内容仅供学习交流使用&#xff0c;不用于其他任何目的&#xff0c;抓包内容、敏感网址、数据接口等均已做脱敏处理&#xff0c;严禁用于商业用途和非法用途&#xff0c;否则由此产生的一切后果均与作者无关&#xff01; 逆向分析 data response.json() pri…

电池管理系统(BMS)架构详细解析:原理与器件选型指南

BMS&#xff08;电池管理系统&#xff09;架构详细讲解 从你提供的BMS&#xff08;Battery Management System&#xff09;架构图来看&#xff0c;主要涉及到电池监控模块、通信模块、功率控制模块等部分。下面我将详细讲解该架构的各个功能模块及其工作原理。 1. 电池管理核…

Linux常见基本指令(二)

目录 1、Linux基础指令 文本查看 cat指令 more指令 less指令 head指令&tail指令 时间相关指令 查找、搜索相关指令 find指令 which指令 whereis指令 alias指令 grep指令 打包压缩和解压缩 zip指令&#xff08;压缩&#xff09; unzip&#xff08;解压&…

HarmonyOS学习第12天:解锁表格布局的奥秘

表格布局初相识 不知不觉&#xff0c;我们在 HarmonyOS 的学习旅程中已经走到了第 12 天。在之前的学习里&#xff0c;我们逐步掌握了 HarmonyOS 开发的各种基础与核心技能&#xff0c;比如组件的基本使用、布局的初步搭建等&#xff0c;这些知识就像一块块基石&#xff0c;为我…

动态规划刷题

文章目录 动态规划三步问题题目解析代码 动态规划 1. 状态表示&#xff1a;dp[i]&#xff0c;表示dp表中i下标位置的值 2. 状态转移方程&#xff1a;以i位置位置的状态&#xff0c;最近的一步来划分问题&#xff0c;比如可以将状态拆分成前状态来表示现状态&#xff0c;dp[i] …

大语言模型微调的基本概念介绍

大型语言模型&#xff08;LLMs&#xff09;正在以惊人的速度发展&#xff0c;LLM微调的潜力更是如此。大型语言模型的生命周期有几个关键步骤&#xff0c;今天我们将要介绍这个周期中最丰富、最耗时的一部分——LLM微调过程。 大语言模型的生命周期 在深入了解大型语言模型&a…

PyCharm接入本地部署DeepSeek 实现AI编程!【支持windows与linux】

今天尝试在pycharm上接入了本地部署的deepseek&#xff0c;实现了AI编程&#xff0c;体验还是很棒的。下面详细叙述整个安装过程。 本次搭建的框架组合是 DeepSeek-r1:1.5b/7b Pycharm专业版或者社区版 Proxy AI&#xff08;CodeGPT&#xff09; 首先了解不同版本的deepsee…

Spring MVC 程序开发(1)

目录 1、什么是 SpringMVC2、返回数据2.1、返回 JSON 对象2.2、请求转发2.3、请求重定向2.4、自定义返回的内容 1、什么是 SpringMVC 1、Tomcat 和 Servlet 分别是什么&#xff1f;有什么关系&#xff1f; Servlet 是 java 官方定义的 web 开发的标准规范&#xff1b;Tomcat 是…

Notepad++下载地址【亲测好用】

网上下载链接五花八门&#xff0c;最终找到了一个官方下载链接。 本文章就用来记录Notepad下载网址 https://github.com/notepad-plus-plus/notepad-plus-plus/tags

LeetCode 873. Length of Longest Fibonacci Subsequence(2025/2/27每日一题)

昨天工作耽搁了&#xff0c;没来得及打卡每日一题&#xff0c;今日补上&#xff1a; 标题&#xff1a;Length of Longest Fibonacci Subsequence 题目&#xff1a; 例子&#xff1a; Example 1: Input: arr [1,2,3,4,5,6,7,8] Output: 5 Explanation: The longest subsequ…

【uniapp】在UniApp中实现持久化存储:安卓--生成写入数据为jsontxt

在移动应用开发中&#xff0c;数据存储是一个至关重要的环节。对于使用UniApp开发的Android应用来说&#xff0c;缓存&#xff08;Cache&#xff09;是一种常见的数据存储方式&#xff0c;它能够提高应用的性能和用户体验。然而&#xff0c;缓存数据在用户清除缓存或清除应用数…

【小羊肖恩】小羊杯 Round 2 C+K

题目链接&#xff1a;https://ac.nowcoder.com/acm/contest/100672#question C.是毛毛虫吗&#xff1f; 思路&#xff1a; 其实很简单&#xff0c;假设我们要满足题目所给条件&#xff0c;那么这个毛毛虫最坏情况下肯定是一条如下图所示的无向图 右端省略号为对称图形 &…

【定昌Linux系统】部署了java程序,设置开启启动

将代码上传到相应的目录&#xff0c;并且配置了一个.sh的启动脚本文件 文件内容&#xff1a; #!/bin/bash# 指定JAR文件的路径&#xff08;如果JAR文件在当前目录&#xff0c;可以直接使用文件名&#xff09; JAR_FILE"/usr/local/java/xs_luruan_client/lib/xs_luruan_…

17、什么是智能指针,C++有哪几种智能指针【高频】

智能指针其实不是指针&#xff0c;而是一个&#xff08;模板&#xff09;类&#xff0c;用来存储指向某块资源的指针&#xff0c;并自动释放这块资源&#xff0c;从而解决内存泄漏问题。主要有以下四种&#xff1a; auto_ptr 它的思想就是当当一个指针对象赋值给另一个指针对…

基于SpringBoot和PostGIS的省域“地理难抵点(最纵深处)”检索及可视化实践

目录 前言 1、研究背景 2、研究意义 一、研究目标 1、“地理难抵点”的概念 二、“难抵点”空间检索实现 1、数据获取与处理 2、计算流程 3、难抵点计算 4、WebGIS可视化 三、成果展示 1、华东地区 2、华南地区 3、华中地区 4、华北地区 5、西北地区 6、西南地…