机器学习:逻辑回归

概念

首先,逻辑回归属于分类算法,是线性分类器。我们可以认为逻辑回归是在多元线性回归的基础上把结果给映射到0-1的区间内,hθ(x)越接近1越有可能是正例,反之,越接近0越有可能是负例。那么,我们该通过什么函数把结果映射到0-1之间呢?

Sigmoid函数

sigmoid(x) = \frac{1}{1+e^{-x}}

在这里,我们实际上是把y\hat{}作为变量传入,得到

sigmoid(\theta .TX) = \frac{1}{1+e^{-\theta .TX}}

import numpy as np
import math
import matplotlib.pyplot as pltdef sigmoid(x):a =[]for item in  x:a.append(1.0/(1.0+math.exp(-item)))return ax = np.arange(-15,15,0.1)
y = sigmoid(x)plt.plot(x,y)
plt.show()

 

这里我设定的自变量范围为[-15,15],但实际上sigmoid函数定义域为[-inf,+inf]。当自变量为0时,函数值为0.5。

分类器的任务就是找到一个边界,这个边界可以尽可能地划分我们的数据集。当我们把0.5作为边界时,我们要找的就是y\hat{} = \frac{1}{1+e^{-\theta .TX}} = 0.5的解,即θ.TX = 0时θ的值。

广义线性回归

伯努利分布

如果随机变量只能取0和1两个值,则称其服从伯努利分布。

记作f(x|p) = \left\{\begin{matrix} p^{x}q^{1-x} (x=0,1)\\ 0(x\neq 0,1) \end{matrix}\right.

p为正例概率,即当x=1时的概率。但是我们发现这样的分段函数比较难求它的损失函数。为了将分段函数整合,我们先引入广义线性回归的概念。

广义线性回归

当考虑一个分类或者回归问题时,我们就是想预测某个随机变量y,y是某些特征x的函数。为了推广广义线性模式,我们做出三个假设。

一,P(y|(x,θ)) 服从指数族分布。

二,给定x,我们的目的是为了预测T(y)在条件x下的期望,一般情况T(y) = y,这就意味着我们希望预测h(x) = E(y|x)。 

三,参数η和输入x是线性相关的,η=θ.TX

 指数族分布(The Exponential Family Distribution)

指数族分布有:高斯分布,二项分布,伯努利分布,多项分布,泊松分布,指数分布,beta分布,拉普拉斯分布,γ分布。对于回归来说,如果y服从某个指数分布,那么就可以用广义线性回归来建立模型。

通式为

P(y,\eta ) = b(y)*e^{\eta ^{T}T(y)-a(\eta )}

或者

P(y,\eta ) = b(y)*exp(\eta ^{T}T(y)-a(\eta ))

η:自然参数,在线性回归中 \eta = \theta ^{T}x

T(y):充分统计量,一般情况下为y

a(η):对数部分函数,这部分确保分布积分结果为1。

伯努利分布其实也是指数族分布的一种,推导证明:

P(y,\phi ) = \phi ^{y}(1-\phi )^{1-y} 在这里,我们成功地将分段函数整合在一个等式中,方便求解后面的损失函数。

φ:正例概率。

y:1或0,正例或负例。

=exp(ylog\phi +(1-y)log(1-\phi ))

= exp((log(\frac{\phi }{1-\phi }))y + log(1-\phi ))

对比P(y,\eta ) = b(y)*exp(\eta ^{T}T(y)-a(\eta ))

由此可知,\eta = \theta ^{T}x = log(\frac{p}{1-p})

P = \frac{1}{1+e^{-\theta ^{Tx}}}

我们发现,这与sigmoid函数推导出来的结果是一致的,这便是逻辑回归使用sigmoid函数的原因。

损失函数推导

我们使用最大似然估计(MLE),根据若干已知的X,y找到一组w使得X作为已知条件下y发生的概率最大。

sigmoid(w,x)输出的含义为P(y=1|w,x),即在w,x条件下正例概率,那么负例概率P(y=0|w,x) = 1-sigmoid(w,x)。

只要让我们的sigmoid(w,x)函数在训练集上预测概率最大,sigmoid(w,x)就是最好的解。

P(true) = \left\{\begin{matrix} sigmoid(w,xi) (yi = 1)\\1-sigmoid(w,xi)(yi=0) \end{matrix}\right.

分段函数显然不符合我们的要求,我们将其变形为

P(true) = sigmoid(w,xi)^{yi}*(1-sigmoid(w,xi))^{(1-yi)}

y\hat{} = sigmoid(\theta ^{T}x) = h\theta (x)

P(y|x,\theta ) = (h\theta (x))^{y}(1-h\theta (x))^{1-y}

我们假设训练样本相互独立,那么似然函数

L(\theta ) = P(y\vec{}|X,\theta )

= \prod_{i=1}^{m}P(yi|xi,\theta )

= \prod_{i=1}^{m} (h\theta (xi))^{yi}(1-h\theta (xi))^{1-yi}

自然而然,我们两边取对数

l(\theta ) = lnL(\theta )

=\sum_{i=1}^{m}yiln(h\theta (xi))+(1-yi)ln(1-h\theta (xi))

这里我们发现,整个过程和线性回归十分相似,首先构造似然函数,再用最大似然估计,最后得到θ更新迭代的等式,只不过这里不是梯度下降,而是梯度上升,习惯上,我们使用梯度下降。

所以损失函数为

J(\theta ) = -\sum_{i=1}^{m}yiln(h\theta (xi))+(1-yi)ln(1-h\theta (xi))

梯度下降

\theta ^{t+1}j = \theta ^{t}j - \alpha \frac{\partial J(\theta )}{\partial \theta }

sigmoid{}'(x) = sigmoid(x)(1-sigmoid(x))

\frac{\partial J(\theta )}{\partial \theta } = -\frac{1}{m}\sum_{i=1}^{m}(yi\frac{1}{h\theta (xi)}\frac{\partial h\theta (xi)}{\partial \theta j} - (1-yi)\frac{1}{1-h\theta (xi)}\frac{\partial h\theta (xi)}{\partial \theta j})

= -\frac{1}{m}\sum_{i=1}^{m}(yi\frac{1}{sigmoid(\theta ^{T}x)}-(1-yi)\frac{1}{1-sigmoid(\theta ^{T}x)})\cdot \frac{\partial sigmoid(\theta ^{T}x)}{\partial \theta j}

= -\frac{1}{m}\sum_{i=1}^{m}(yi\frac{1}{sigmoid(\theta ^{T}x)}-(1-yi)\frac{1}{1-sigmoid(\theta ^{T}x)})\cdot sigmoid(\theta ^{T}x)\cdot (1-sigmoid(\theta ^{T}x))\cdot \frac{\partial \theta ^{T}x}{\partial \theta j}

= -\frac{1}{m}\sum_{i=1}^{m}(yi-sigmoid(\theta ^{T}x))\cdot Xj

= \frac{1}{m}\sum_{i=1}^{m}(h\theta (xi)-yi)\cdot Xj

我们发现,最终的梯度公式与线性回归很相似,这是因为它们都是广义线性回归中来的,服从的都是指数族分布。

代码实现

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import scale
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3Ddata = load_breast_cancer()
X,y = data['data'][:,:2],data['target']
lr = LogisticRegression(fit_intercept=False)
lr.fit(X,y)
w1 = lr.coef_[0,0]
w2 = lr.coef_[0,1]def p_theta_function(features,w1,w2):z = w1*features[0] + w2*features[1]return 1/(1+np.exp(-z))def loss_function(samples_features,samples_labels,w1,w2):result = 0for features,label in zip(samples_features,samples_labels):p_result = p_theta_function(features,w1,w2)loss_result = -1*label*np.log(p_result) - (1-label)*np.log(1-p_result)result += loss_resultreturn resultw1_space = np.linspace(w1-0.6,w1+0.6,50)
w2_space = np.linspace(w2-0.6,w2+0.6,50)result1_ = np.array([loss_function(X,y,i,w2)for i in w1_space])
result2_ = np.array([loss_function(X,y,w1,i)for i in w2_space])fig = plt.figure(figsize=(8,6))
plt.subplot(2,2,1)
plt.plot(w1_space,result1_)
plt.subplot(2,2,2)
plt.plot(w2_space,result2_)w1_grid,w2_grid = np.meshgrid(w1_space,w2_space)
loss_grid = loss_function(X,y,w1_grid,w2_grid)
plt.subplot(2,2,3)
plt.contour(w1_grid,w2_grid,loss_grid)
plt.subplot(2,2,4)
plt.contour(w1_grid,w2_grid,loss_grid,30)
fig_2 = plt.figure()
ax = fig_2.add_axes(Axes3D(fig_2))
ax.plot_surface(w1_grid, w2_grid, loss_grid, rstride=1, cstride=1, cmap=plt.get_cmap('rainbow'))
ax.contourf(w1_grid, w2_grid, loss_grid,zdir='z', offset=-2, cmap=plt.get_cmap('rainbow'))
print("θ1 = ",w1)
print("θ2 = ",w2)plt.show()

 

观察图像,我们发现w1,w2两个维度不均匀,等高线组成的是椭圆,在这里,我们使用正则化稍微约束一下。

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import scale
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
data = load_breast_cancer()
X,y = scale(data['data'][:,:2]),data['target']
lr = LogisticRegression(fit_intercept=False)
lr.fit(X,y)
w1 = lr.coef_[0,0]
w2 = lr.coef_[0,1]def p_theta_function(features,w1,w2):z = w1*features[0] + w2*features[1]return 1/(1+np.exp(-z))def loss_function(samples_features,samples_labels,w1,w2):result = 0for features,label in zip(samples_features,samples_labels):p_result = p_theta_function(features,w1,w2)loss_result = -1*label*np.log(p_result) - (1-label)*np.log(1-p_result)result += loss_resultreturn resultw1_space = np.linspace(w1-0.6,w1+0.6,50)
w2_space = np.linspace(w2-0.6,w2+0.6,50)result1_ = np.array([loss_function(X,y,i,w2)for i in w1_space])
result2_ = np.array([loss_function(X,y,w1,i)for i in w2_space])fig = plt.figure(figsize=(8,6))
plt.subplot(2,2,1)
plt.plot(w1_space,result1_)
plt.subplot(2,2,2)
plt.plot(w2_space,result2_)w1_grid,w2_grid = np.meshgrid(w1_space,w2_space)
loss_grid = loss_function(X,y,w1_grid,w2_grid)
plt.subplot(2,2,3)
plt.contour(w1_grid,w2_grid,loss_grid)
plt.subplot(2,2,4)
plt.contour(w1_grid,w2_grid,loss_grid,30)
fig_2 = plt.figure()
ax = fig_2.add_axes(Axes3D(fig_2))
ax.plot_surface(w1_grid, w2_grid, loss_grid, rstride=1, cstride=1, cmap=plt.get_cmap('rainbow'))
ax.contourf(w1_grid, w2_grid, loss_grid,zdir='z', offset=-2, cmap=plt.get_cmap('rainbow'))
print("θ1 = ",w1)
print("θ2 = ",w2)plt.show()

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/316415.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端如何将接口传来的列表数据(数组)直接下载成csv文件

前言:最近遇到一个需求,需要实现一个下载表格数据的操作,一般来说是前端请求后端的下载接口,将文件流下载下来,但是因为这个项目任务时间比较紧,后端没时间做下载接口,所以暂时由前端直接调列表…

JAVA基础---Stream流

Stream流出现背景 背景 在Java8之前,通常用 fori、for each 或者 Iterator 迭代来重排序合并数据,或者通过重新定义 Collections.sorts的 Comparator 方法来实现,这两种方式对 大数量系统来说,效率不理想。 Java8 中添加了一个…

张大哥笔记:服务器有挖矿木马程序,该如何处理?

这篇文章发表于2021年,今天借这个平台再发布一下,希望对大家有所帮助! 今天收到一个粉丝求助,说收到了阿里云官方短信通知提示有挖矿程序,要求立即整改,否则会关停服务器,以下是我和他的对话内…

代码学习录打卡Day13

1 滑动窗口最大值 使用单调队列,需要一个队列,这个队列呢,放进去窗口里的元素,然后随着窗口的移动,队列也一进一出,每次移动之后,队列告诉我们里面的最大值是什么。 class MyQueue { public:vo…

WebSocket 全面解析

🌟 引言 WebSocket,一个让实时通信变得轻而易举的神器,它打破了传统HTTP协议的限制,实现了浏览器与服务器间的全双工通信。想象一下,即时消息、在线游戏、实时股票报价…这一切都离不开WebSocket的魔力💫。…

Python量化炒股的获取数据函数—get_concept()

查询股票所属的概念板块函数get_concept(),利用该函数可以查询一只或多只股票所属的概念板块,其语法格式如下: get_concept(security, dateNone)security:标的代码。类型为字符串,形式如‘000001.XSHE’,或…

宽字符的来历:从ASCII到Unicode,C语言中的宽字符处理

目录 一、ASCII编码:字符世界的开篇 二、Unicode与宽字符的诞生 宽字符类型与宽字符串 三、C语言中的宽字符处理函数 四、宽字符与多字节字符 结语 在计算机科学的发展历程中,字符编码经历了从简单到复杂、从单一语言到全球多语种支持的演变过程。…

【论文阅读】IPT:Pre-TrainedImageProcessingTransformer

Pre-TrainedImageProcessingTransformer 论文地址摘要1. 简介2.相关作品2.1。图像处理2.2。 Transformer 3. 图像处理3.1. IPT 架构3.2 在 ImageNet 上进行预训练 4. 实验4.1. 超分辨率4.2. Denoising 5. 结论与讨论 论文地址 1、论文地址 2、源码 摘要 随着现代硬件的计算能…

2024年第十五届蓝桥杯江苏省赛回顾

呜呜呜~~~ 我在考完了后感觉自己直接炸了:好多学到的算法都没有用上,几乎所有的题目都是暴力的。。。 最后十几分钟对于一道dp算法终于有思路了,但是。。匆匆忙忙之间就是没有调试出来。(还是交了一道暴力[旋风狗头]直接哭死~~&…

iOS - 多线程-atomic

文章目录 iOS - 多线程-atomic1. 源码分析1.1 get方法1.2 set方法 2. 一般不使用atomic的原因 iOS - 多线程-atomic atomic用于保证属性setter、getter的原子性操作,相当于在getter和setter内部加了线程同步的锁可以参考源码objc4的objc-accessors.mm它并不能保证使…

Whisper、Voice Engine推出后,训练语音大模型的高质量数据去哪里找?

近期,OpenAI 在语音领域又带给我们惊喜,通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。值得注意的是,即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。…

springboot3常用注解使用

组键注册注解 组件注册步骤总结 条件注解 演示示例 属性绑定注解 ConfigurationProperties进行绑定 EnableConfigurationProperties进行绑定 其他常用注解 EnableAutoConfiguration ComponentScan RequestMapping GetMapping PostMapping Autowired Resource Servi…

Objective-C大爆炸:从零到单例模式

oc学习笔记(一) 文章目录 oc学习笔记(一)oc与c语言的区别#import的用法foundation框架NSLog函数NSString类型符号的作用oc中的数据类型 类与对象概念: 创建第一个类类的定义类的实现类加载对象的产生和使用 self语法id…

为什么说B端SaaS产品经理需要让研发团队懂业务

先问是不是,再问为什么。这个问题即对也不对。 1.对的地方:研发团队里面的架构师、前后端leader、组长或者骨干如果懂业务的话,就能在做系统业务架构、信息架构和数据架构的时候多一些前瞻性,为后期业务扩展预留一些接口或者能力…

ElasticSearch面试题2

Mapping属性详细介绍/常见的字段数据类型: 映射(mapping)︰mapping是对索引库中文档的约束信息(例如字段名、数据类型),类似表的结构约束;每个索引库都应该有自己的映射 数据库一定要先创建表才能去添加数据…

【机器学习】视觉基础模型的三维意识:前沿探索与局限

视觉基础模型的三维意识:前沿探索与局限 一、引言二、视觉基础模型的三维意识三、当前模型的局限性四、实验与结果五、总结与展望 大规模预训练的进展已经产生了具有强大能力的视觉基础模型。最近的模型不仅可以推广到任意图像的训练任务,而且它们的中间…

yo!这里是网络入门初识

目录 前言 基本概念 网络 协议 地址 网络传输流程 OSI七层模型 TCP/IP四层(五层)模型 流程图 数据封装&&分用 后记 前言 对于上一个专栏——Linux操作系统,我们学习了操作系统的基础知识以及基本的系统编程,其…

Kafka客户端工具:Offset Explorer 使用指南

Kafka作为一个分布式流处理平台,在大数据处理和实时数据流应用中扮演着至关重要的角色。管理Kafka的topics及其offsets对于维护系统稳定性和数据一致性至关重要。Offset Explorer是一个强大的桌面应用程序,它使得管理和监控Kafka集群变得简单直观。本文将…

ffmpeg音视频裁剪

音视频裁剪,通常会依据时间轴为基准,从某个起始点到终止点的音视频截取出来,当然音视频文件中存在多路流,所对每一组流进行裁剪 基础概念: 编码帧的分类: I帧(Intra coded frames): 关键帧,…

xLua热更新解决方案

图中灰色的无法实现热更新,而Lua代码可以打包成AB包,并上传到资源服务器, 当进入游戏检测是否有资源需要更新,需要则会从资源服务器下载。 学习目标 1.导入xLua框架 2.C#调用Lua 3.Lua调用C# 4.xLua热补丁 xLua框架导入和AB…