线性回归算法详解

目录

线性回归算法

线性回归方程

误差项分析

似然函数求解

线性回归求解

梯度下降算法

下山方向选择

梯度下降优化

梯度下降策略对比

学习率对结果的影响

代码实现

线性回归算法

线性回归是回归算法中最简单、实用的算法之一,在机器学习中很多知识点都是通用的,掌握一个 算法相当于掌握一种思路,其他算法中会继续沿用的这个思路。

假设某个人去银行准备贷款,银行首先会了解这个人的基本信息,例如年龄、工资等,然后输入银 行的评估系统中,以此决定是否发放贷款以及确定贷款的额度,那么银行是如何进行评估的呢?下面详细介绍银行评估系统的建模过程。假设下表是银行贷款数据,相当于历史数据。

银行评估系统要做的就是基于历史数据建立一个合适的回归模型,只要有新数据传入模型中,就会 返回一个合适的预测结果值。在这里,工资和年龄都是所需的数据特征指标,分别用x1和x2表示,贷款额度就是最终想要得到的预测结果,也可以叫作标签,用y表示。其目的是得到x1、x2与y之间的联系,一旦找到它们之间合适的关系,这个问题就解决了。

线性回归方程

目标明确后,数据特征与输出结果之间的联系能够轻易得到吗?在实际数据中,并不是所有数据点 都整齐地排列成一条线。

圆点代表输入数据,也就是用户实际得到的贷款金额,表示真实值。平面代表模型预测的结果,表 示预测值。可以观察到实际贷款金额是由数据特征x1和x2共同决定的,由于输入的特征数据都会对结果产生影响,因此需要知道x1和x2对y产生多大影响。我们可以用参数θ来表示这个含义,假设θ1表示年龄的参数,θ2表示工资的参数,拟合的平面计算式如下:

既然已经给出回归方程,那么找到最合适的参数θ这个问题也就解决了。

再强调一点,\theta _{0}为偏置项,但是在上式中并没有\theta _{0}x_{0}项,在进行数值计算时,为了使得整体能用矩阵的形式表达,即便没有x_{0}项也可以手动添加, 只需要在数据中加入一列x_{0}并且使其值全部为1即可,结果不变。

误差项分析

看到这里,大家可以发现回归方程的预测值和样本点的真实值并不是一一对应的。说明数据的真实值和预测值之间是有差异的,这个差异项通常称作误差项\varepsilon。它们之间的关系可以这样解释:在样本中,每一个真实值和预测值之间都会存在一个误差。

其中,i为样本编号;\theta ^{T}x^{\left ( i \right )}为预测值;y^{\left ( i \right )}为真实值。

关于这个误差项,接下来所有的分析与推导都是由此产生的。先把下面这句看起来有点复杂的解释搬出来:误差\varepsilon是独立且具有相同的分布,并且服从均值为0方差为\theta ^{2}的高斯分布。

所谓独立,例如,张三和李四一起来贷款,他俩没关系也互不影响,这就是独立关系,银行会平等 对待他们(张三来银行跟银行工作人员说:“后面那是我兄弟,你们得多贷给他点钱。”银行会理他 吗?)。

相同分布是指符合同样的规则,例如张三和李四分别去农业银行和建设银行,这就很难进行对比分 析了,因为不同银行的规则不同,需在相同银行的条件下来建立这个回归模型。

高斯分布用于描述正常情况下误差的状态,银行贷款时可能会多给点,也可能会少给点,但是绝大 多数情况下这个浮动不会太大,比如多或少三五百元。极少情况下浮动比较大,例如突然多给20万,这种可能性就不大。下图是高斯分布曲线,可以发现在均值两侧较近地方的可能性较大,越偏离的情况可能性就越小。

这些知识点不是线性回归特有的,基本所有的机器学习算法的出发点都在此,由此也可以展开分 析,数据尽可能取自相同的源头,当拿到一份数据集时,建模之前肯定要进行洗牌操作,也就是打乱其顺序,让各自样本的相关性最低。

似然函数求解

现在已经对误差项有一定认识了,接下来要用它来实际干点活了,高斯分布的表达式为:

大家应该对这个公式并不陌生,但是回归方程中要求的是参数θ,这里好像并没有它的影子,没关系来转换一下,将y^{\left ( i \right )}=\theta ^{T}x^{i}+\varepsilon ^{i}代入上式,可得:

似然函数就是通过观察样本数据的情况来选择最合适的参数,从而得到与样本数据相似的结果。

上面这个式子基本思路就是找到最合适的参数来拟合数据点,可以把它当作是参数与数据组合后得到的跟标签值一样的可能性大小(如果预测值与标签值一模一样,那就做得很完美了)。对于这个可能性来说,大点好还是小点好呢?当然是大点好了,因为得到的预测值跟真实值越接近,意味着回归方程做得越好。所以就有了极大似然估计,找到最好的参数θ,使其与X组合后能够成为Y的可能性越大越好。

下面给出似然函数的定义:

其中,i为当前样本,m为整个数据集样本的个数。

此外,还要考虑,建立的回归模型应该是尽可能满足数据集 整体,所以需要考虑所有样本。一旦数据量较大,这个公式就会相当复杂, 这就需要对似然函数进行对数变换,让计算简便一些。

如果对上式做变换,得到的结果值可能跟原来的目标值不一样了,但是在求解过程中希望得到极值点,而非极值,也就是能使L(θ)越大的参数θ,所以当进行变换操作时,保证极值点不变即可。

在对数中,可以将乘法转换成加法,即log(A·B)=logA+logB

对上式两边计算其对数结果,可得:

一路走到这里,公式变换了很多,别忘了要求解的目标依旧是使得上式取得极大值时的极值点 (参数和数据组合之后,成为真实值的可能性越大越好)。先来观察一下,在减号两侧可以分成两部分,左边部分可以当作一个常数项,因为它与参数θ没有关系。对于右边部分来说,由于有平方项,其值必然恒为正。整体来看就是要使得一个常数项减去一个恒正的公式的值越大越好,由于常数项不变,那就只能让右边部分越小越好, 可以认为是一个常数,故只需让越小越好,这就是最小二乘法。

虽然最后得到的公式看起来既简单又好理解,就是让预测值和真实值越接近越好,但是其中蕴含的 基本思想还是比较有学习价值的,对于理解其他算法也是有帮助的。

线性回归求解

搞定目标函数后,下面讲解求解方法,列出目标函数列如下:

既然要求极值(使其得到最小值的参数θ),对上式计算其偏导数即可:

经过一系列的矩阵求导计算就得到最终的结果,但是,如果上式中矩阵不可逆会怎么样?显然那就得不到结果了。

其实大家可以把线性回归的结果当作一个数学上的巧合,真的就是恰好能得出这样一个值。但这和 机器学习的思想却有点矛盾,本质上是希望机器不断地进行学习,越来越聪明,才能找到最适合的参数,但是机器学习是一个优化的过程,而不是直接求解的过程。

梯度下降算法

机器学习的核心思想就是不断优化寻找更合适的参数,当给定一个目标函数之后,自然就是想办法 使真实值和预测值之间的差异越小越好,那么该怎么去做这件事呢?可以先来想一想下山问题。

为什么是下山呢?因为在这里把目标函数比作山,到底是上山还是下山问题,取决于你优化的目标 是越大越好(上山)还是越小越好(下山),而基于最小二乘法判断是下山问题。

那该如何下山呢?看起有两个因素可控制——方向与步长,首先需要知道沿着什么方向走,并且按 照该方向前进,在山顶大致一看很多条路可以下山,是不是随便选择一个差不多的方向呢?这好像有点随意,随便散散步就下山了。但是现在情况有点紧急,目标函数不会让你慢慢散步下去,而是希望能够快速准确地到达山坡最低点,这该怎么办呢?别着急——梯度下降算法来了。

下山方向选择

首先需要明确的是什么方向能够使得下山最快,那必然是最陡峭的,也就是当前位置梯度的反方向 (目标函数J(θ)关于参数θ的梯度是函数上升最快的方向,此时是一个下山问题,所以是梯度的反方向)。当沿着梯度方向下山的时候,位置也在不断发生变化,所以每前进一小步之后,都需要停下来再观察一下接下来的梯度变成什么方向,每次前进都沿着下山最快的也就是梯度的反方向进行

到这里相信大家已经对梯度下降有了一个直观的认识了,总结一下,就是当要求一个目标函数极值 的时候,按照机器学习的思想直接求解看起来并不容易,可以逐步求其最优解。首先确定优化的方向 (也就是梯度),再去实际走那么一步(也就是下降),反复执行这样的步骤,就慢慢完成了梯度下降任务,每次优化一点,累计起来就是一个大成绩。

在梯度下降过程中,通常每一步都走得很小心,也就是每一次更新的步长都要尽可能小, 才能保证整体的稳定,因为如果步长过大,可能偏离合适的方向。

梯度下降优化

我们的目标就是找到最合适的参数θ,使得目标函数值最小。这里除以m是尽可能取多的样本进行取平均计算。这里x是数据,y是标签,都是固定的,所以只有参数θ会对最终结果产生影响,此外,还需注意参数θ并不是一个值,可能是很多个参数共同决定了最终的结果。

当进行优化的时候,其中\theta _{0}\theta _{1}分别和不同的数据特征进行组合(例如工资 和年龄),按照之前的想法,既然x1和x2是相互独立的,那么在参数优化的时候自然需要分别考虑\theta _{0}\theta _{1}的情况,在实际计算中,需要分别对\theta _{0}\theta _{1}求偏导,再进行更新。

下面总结一下梯度下降算法。

第①步:找到当前最合适的方向,对于每个参数都有其各自的方向。

第②步:走一小步,走得越快,方向偏离越多,可能就走错路了。

第③步:按照方向与步伐去更新参数。

第④步:重复第1步~第3步。

首先要明确目标函数,可以看出多个参数都会对结果产生影响,那么要做的就是在各个参数上去寻 找其对应的最合适的方向,接下来就是去走那么一小步,为什么是一小步呢?因为当前求得的方向只是瞬时最合适的方向,并不意味着这个方向一直都是正确的,这就要求不断进行尝试,每走一小步都要寻找接下来最合适的方向。

梯度下降策略对比

原理还是比较容易理解的,接下来就要看实际应用了,这里假设目标函数仍然是上式。

在梯度下降算法中有3种常见的策略:批量梯度下降、随机梯度下降和小批量梯度下降,这3种策略 的基本思想都是一致的,只是在计算过程中选择样本的数量有所不同,下面分别进行讨论。

(1)批量梯度下降。此时需要考虑所有样本数据,每一次迭代优化计算在公式中都需要把所有的样本计算一遍,该方法容易得到最优解,因为每一次迭代的时候都会选择整体最优的方向。方法虽好,但也存在问题,如果样本数量非常大,就会导致迭代速度非常慢,下面是批量梯度下降的计算公式:

在更新参数的时候取了一个负号,这是因为现在要求解的是一个下山问题,即沿着梯度的反方向去前进。其中\frac{1}{m}表示对所选择的样本求其平均损失,i表示选择的样本数据,j表示特征。例如表示工资所对应的参数,在更新时数据也需选择工资这一列,这是一一对应的关系。在更新时还涉及系数a,其含义就是更新幅度的大小,也就是之前讨论的步长。

(2)随机梯度下降。考虑批量梯度下降速度的问题,如果每次仅使用一个样本,迭代速度就会大大提升。那么新的问题又来了,速度虽快,却不一定每次都朝着收敛的方向,因为只考虑一个样本有点太绝对了,要是拿到的样本是异常点或者错误点可能还会导致结果更差。下面是随机梯度下降的计算公式,它与批量梯度下降的计算公式的区别仅在于选择样本数量:

 (3)小批量梯度下降。综合考虑批量和随机梯度下降的优缺点,是不是感觉它们都太绝对了,要么全部,要么一个,如果在总体样本数据中选出一批不是更好吗?可以是10个、100个、1000个,但是程序员应该更喜欢16、32、64、128这些数字,所以通常见到的小批量梯度下降都是这类值,其实并没有特殊的含义。下面我们来看一下选择10个样本数据进行更新的情况:

本节对比了不同梯度下降的策略,实际中最常使用的是小批量梯度下降,通常会把选择的样本个数 叫作batch,也就是32、64、128这些数,那么数值的大小对结果有什么影响呢?可以说,在时间和硬件配 置允许的条件下,尽可能选择更大的batch吧,这会使得迭代优化结果更好一些。

学习率对结果的影响

选择合适的更新方向,这只是一方面,下面还需要走走看,可以认为步长就是学习率(更新参数值 的大小),通常都会选择较小的学习率,以及较多的迭代次数,正常的学习曲线走势如下图所示

由上图可见,随着迭代的进行,目标函数会逐渐降低,直到达到饱和收敛状态,这里只需观察迭代 过程中曲线的形状变化,具体数值还是需要结合实际数据。

如果选择较大的学习率,学习过程可能会变得不平稳,因为这一步可能跨越太大了,偏离了正确的方向。在迭代过程中出现不平稳的现象,目标函数始终没能达到收敛状态,甚至学习效果越来越差,这很可能是学习率过大或者选择样本数据过小以及数据预处理问题所导致的。

学习率通常设置得较小,但是学习率太小又会使得迭代速度很慢,那么,如何寻找一个适中的值呢?较大的学习率并不会使得目标函数降低,较小的学习率看起来还不错,可以选择较多的迭代次数来保证达到收敛状态,所以,在实际中宁肯花费更多时间,也不要做无用功。通用的做法就是从较小的学习率开始尝试,如果遇到不平稳现象,那就调小学习率。

代码实现

#线性回归代码
import numpy as np
from utils.features import prepare_for_trainingclass LinearRegression:def __init__(self,data,labels,polynomial_degree = 0,sinusoid_degree = 0,normalize_data=True):"""1.对数据进行预处理操作2.先得到所有的特征个数3.初始化参数矩阵"""(data_processed,features_mean, features_deviation)  = prepare_for_training(data, polynomial_degree, sinusoid_degree,normalize_data=True)self.data = data_processedself.labels = labelsself.features_mean = features_meanself.features_deviation = features_deviationself.polynomial_degree = polynomial_degreeself.sinusoid_degree = sinusoid_degreeself.normalize_data = normalize_datanum_features = self.data.shape[1]self.theta = np.zeros((num_features,1))def train(self,alpha,num_iterations = 500):"""训练模块,执行梯度下降"""cost_history = self.gradient_descent(alpha,num_iterations)return self.theta,cost_historydef gradient_descent(self,alpha,num_iterations):"""实际迭代模块,会迭代num_iterations次"""cost_history = []for _ in range(num_iterations):self.gradient_step(alpha)cost_history.append(self.cost_function(self.data,self.labels))return cost_historydef gradient_step(self,alpha):    """梯度下降参数更新计算方法,注意是矩阵运算"""num_examples = self.data.shape[0] # 样本个数prediction = LinearRegression.hypothesis(self.data,self.theta)delta = prediction - self.labelstheta = self.thetatheta = theta - alpha*(1/num_examples)*(np.dot(delta.T,self.data)).Tself.theta = thetadef cost_function(self,data,labels):"""损失计算方法"""num_examples = data.shape[0]delta = LinearRegression.hypothesis(self.data,self.theta) - labelscost = (1/2)*np.dot(delta.T,delta)/num_examplesreturn cost[0][0]@staticmethoddef hypothesis(data,theta):   predictions = np.dot(data,theta)return predictionsdef get_cost(self,data,labels):  data_processed = prepare_for_training(data,self.polynomial_degree,self.sinusoid_degree,self.normalize_data)[0]return self.cost_function(data_processed,labels)def predict(self,data):"""用训练的参数模型,与预测得到回归值结果"""data_processed = prepare_for_training(data,self.polynomial_degree,self.sinusoid_degree,self.normalize_data)[0]predictions = LinearRegression.hypothesis(data_processed,self.theta)return predictions

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/413979.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网络】数据链路层协议——以太网,ARP协议

目录 1.局域网转发 2.MAC地址 2.1.什么是MAC地址 2.2.Mac地址的作用 2.3.MAC地址和IP地址的区别和联系 3.以太网协议 4.MTU,IP MTU,MSS 4.1.MTU 4.2. IP MTU 4.3. MSS 4.4. 区别及联系 5.局域网的数据碰撞 5.1.局域网内通信过程 5.2.数据碰…

宏集MIRO-L230工业路由器: 一站式全球联网解决方案

在日益互联的世界中,全球覆盖的稳定连接已成为业务成功的关键因素。宏集非常高兴地向您介绍我们的最新创新产品——MIRO-L230工业路由器,这是一款为现代企业量身定制的LTE路由器,为用户带来前所未有的稳定连接体验。 宏集MIRO-L230工业路由器…

墨兰:花语寓意、神秘传说与独特魅力全解析

在繁花似锦的植物世界中,墨兰宛如一位优雅的隐士,静静地散发着独特的魅力。它那婀娜的身姿和淡雅的芬芳,仿佛在诉说着一个个古老而神秘的故事。当我们凝视着墨兰,不禁会被它那独特的气质所吸引,想要探寻它背后隐藏的花…

电容的分类

电容作为电子产品中不可或缺的元件,其种类繁多,各具特色。以下是电容的主要分类、作用及优缺点概述: 一、电容的分类 电容的分类方式多样,常见的分类方式包括按结构、用途、电解质类型及制造材料等。 按结构分类: 固…

C++编程-递归算法1

目录 先言 关于递归算法 例题一 题目描述 算法分析 标准程序 代码分析 例题二 题目描述 算法分析 标准程序 例题三 题目描述 算法分析 标准程序 代码分析 例题四 题目描述 标准程序 代码分析 后言 先言 从今天开始,我们将新的算法——递归&…

大二必做项目贪吃蛇超详解之中篇游戏设计与分析

贪吃蛇系列文章 上篇win32 中篇设计与分析 文章目录 贪吃蛇系列文章1. 地图1. 1 <locale.h>本地化1. 2 类项1. 3 setlocale函数1. 4 宽字符的打印1. 5 地图坐标 2. 蛇身和食物3. 数据结构设计4. 游戏流程设计5. 核心逻辑实现分析5. 1 游戏主逻辑5. 2 GameStart5. 2. 1 S…

145. 利用 Redis Bitmap实践: 用户签到统计

文章目录 一、Redis Bitmap简介二、Bitmap 的主要应用三、Go使用Redis实现签到统计用户签到查询用户签到状态统计今年累计签到天数统计当月的签到情况 总结 在现代应用程序中&#xff0c;用户签到是一个常见的功能。我们通常使用 MySQL 数据库来存储用户的签到记录。然而&#…

Go入门:gin框架极速搭建图书管理系统

Go入门:gin框架极速搭建图书管理系统 前言 本项目适合 Golang 初学者,通过简单的项目实践来加深对 Golang 的基本语法和 Web 开发的理解。 项目源码请私信,欢迎前往博主博客torna.top免费查看。 项目结构 D:. ├─ go.mod ├─ go.sum │ ├─ cmd │ └─ main │ …

Docker 容器编排之 Docker Compose

目录 1 Docker Compose 概述 1.1 主要功能 1.2 工作原理 1.3 Docker Compose 中的管理层 2 Docker Compose 的常用命令参数 2.1 服务管理 2.1.1 docker-compose up &#xff1a; 2.1.2 docker-compose down &#xff1a; 2.1.3 docker-compose start &#xff1a; 2.1.4 docker…

OpenCV绘图函数(7)从一个椭圆定义中提取出多边形的顶点坐标函数ellipse2Poly()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 近似一个椭圆弧为一个多边形线。 函数 ellipse2Poly 计算近似指定椭圆弧的多边形线的顶点。它被 ellipse 函数所使用。如果 arcStart 大于 arcEn…

景芯SoC A72实战反馈

先说结论&#xff1a; 内容非常全面&#xff0c;讲解到位&#xff0c;会有专门的工程师一对一答疑&#xff0c;整个项目跑下来提升非常大&#xff0c;绝对物超所值&#xff01; 一些细节&#xff1a; 本人微电子专业研一在读&#xff0c;有过两次简单的数字芯片流片经历&…

spring security 相关过滤器

Spring Security 提供了 30 多个过滤器。默认情况下Spring Boot 在对 SpringSecurity 进入自动化配置时&#xff0c;会创建一个名为 SpringSecurityFilerChain 的过滤器&#xff0c;并注入到Spring容器中&#xff0c;这个过滤器将负责所有的安全管理&#xff0c;包括用户认证、…

Windows系统中批量管理Windows服务器远程桌面工具——RDCMan

一、背景 在公司没有部署对应的堡垒机系统之前,做运维测试工作的人员,需要管理大量的服务器,每天需要对服务器进行必要的巡检、系统更新发布等内容,特别是有很多Windows服务器的时候,如果我们使用Windows自带的“远程桌面连接”只能一台台连接,比较繁琐。并且不能知道那台…

十二星座男女、穿越到古代会成为什麽角色 。

白羊座&#xff08; 大将军 &#xff09;&#xff1b; 金牛座&#xff08;财务大臣&#xff09;&#xff1b; 双子座&#xff08; 奸臣 &#xff09;&#xff1b; 巨蟹座&#xff08;御厨太医&#xff09;&#xff1b; 狮子座&#xff08;皇帝&#xff09;&#xff1b; …

虚幻5|按键触发学习

一&#xff0c;如图参考 1.下移 驱动阈值 越大按时间长才会触发&#xff0c;越小很快就可以触发 2.按下 当按下超出驱动阈值大小就会触发一次&#xff0c;这里的驱动阈值只能设置再0.1~1的大小 3.已松开 当按下的时候&#xff0c;先触发单次的started&#xff0c;如果按压…

精选算法编程题

一、有序数组的平方 给你一个按 非递减顺序 排序的整数数组 nums&#xff0c;返回 每个数字的平方 组成的新数组&#xff0c;要求也按 非递减顺序 排序。 示例 1&#xff1a; 输入&#xff1a;nums [-4,-1,0,3,10]输出&#xff1a;[0,1,9,16,100]解释&#xff1a;平方后&am…

中国各城市金融科技公司数目数据集(2009-2023年)

金融科技&#xff08;FinTech&#xff09;是金融与科技深度融合的产物&#xff0c;它利用大数据、云计算、人工智能、区块链等现代信息技术手段&#xff0c;对传统金融产品、业务、流程及服务模式进行革新&#xff0c;从而实现金融服务效率的提升、风险管理的优化以及客户体验的…

《深入浅出WPF》读书笔记.8路由事件

《深入浅出WPF》读书笔记.8路由事件 背景 路由事件是直接响应事件的变种。直接响应事件&#xff0c;事件触发者和事件响应者必须显示订阅。而路由事件的触发者和事件响应者之间的没有显示订阅&#xff0c;事件触发后&#xff0c;事件响应者安装事件监听器&#xff0c;当事件传…

我熟悉你的NLP焦虑,只因没有它

大家好&#xff0c;我是凡人。 最近凡人被一个NLP&#xff08;神经语言程序学[Neuro-Linguistic Programming]的英文缩写&#xff09;学习内容给震惊到了&#xff0c;熟悉NLP的同学都知道&#xff0c;NLP知识不仅庞大而且很有深度。 比如&#xff1a;机器信息就包含下图内容 肝…

集成电路学习:什么是IDE集成开发环境

IDE&#xff1a;集成开发环境 IDE&#xff0c;全称“Integrated Development Environment”&#xff0c;即集成开发环境&#xff0c;是一种用于提供程序开发环境的应用程序。它集成了代码编写、分析、编译、调试等多种功能于一体的开发软件服务套&#xff0c;为开发者提供了一个…