机器学习之线性回归与逻辑回归【完整房价预测和鸢尾花分类代码解释】

目录

前言

一、什么是线性回归

二、什么是逻辑回归

三、基于Python 和 Scikit-learn 库实现线性回归

示例代码:

 使用线性回归来预测房价:

四、基于Python 和 Scikit-learn 库实现逻辑回归

五、总结 

线性回归的优缺点总结:

逻辑回归(Logistic Regression)是一种常用的分类算法,具有许多优点和缺点。


博主介绍:✌专注于前后端领域开发的优质创作者、秉着互联网精神开源贡献精神,答疑解惑、坚持优质作品共享。本人是掘金/腾讯云/阿里云等平台优质作者、擅长前后端项目开发和毕业项目实战,深受全网粉丝喜爱与支持✌有需要可以联系作者我哦!

🍅文末三连哦🍅

👇🏻 精彩专栏推荐订阅👇🏻 不然下次找不到哟

前言

机器学习的起源可以追溯到人工智能的发展历程。虽然人工智能的概念早在20世纪50年代就已经出现,但直到之后几十年里,随着计算机技术的不断发展和数据的日益增多,机器学习才逐渐成为人工智能领域的主流技术之一。

以下是机器学习发展的几个重要时期和里程碑

  1. 逻辑理论和符号学习: 20世纪50年代末到60年代初,人工智能研究主要集中在基于逻辑理论和符号推理的方法上。这一时期出现了逻辑推理、专家系统等符号学习方法,但受限于计算机技术和数据量的限制,这些方法的应用受到了很大的局限性。

  2. 连接主义和神经网络 20世纪80年代末到90年代初,随着计算机性能的提升和神经科学的研究进展,连接主义和神经网络等基于模拟生物神经系统的方法开始受到关注。这一时期出现了感知机、多层感知机等基础神经网络模型,但由于计算资源有限以及理论上的一些困难,神经网络的发展进展缓慢。

  3. 统计学习 20世纪90年代中期以后,随着统计学习方法的兴起,机器学习开始进入了快速发展的时期。统计学习方法将机器学习问题转化为统计推断问题,引入了概率论和统计学的理论基础,并在分类、回归、聚类等领域取得了很大成功。支持向量机、决策树、随机森林等经典机器学习算法相继出现。

  4. 深度学习: 21世纪初,随着大数据和计算资源的快速增长,深度学习成为了机器学习领域的新热点。深度学习利用多层神经网络模型来学习数据的高级表示,解决了传统神经网络中的一些问题,并在计算机视觉、自然语言处理等领域取得了突破性进展。

一、什么是性回归线

线性回归是一种用于建模输入变量与连续输出变量之间关系的线性方法。它假设输入变量与输出变量之间存在线性关系,即输出变量可以由输入变量的线性组合加上误差项得到。线性回归模型的基本形式可以表示为:

其中,y 是输出变量,x_1{},x_2{}...x_n{}是输入变量,\beta _0{},\beta _1{}...\beta _n{}是模型的参数(斜率和截距),\varepsilon是误差项。

线性回归的目标是找到最佳的模型参数,使得观测值与模型预测值之间的残差平方和最小化。常用的方法是最小二乘法,即通过最小化观测值与模型预测值之间的残差平方和来估计模型参数。

线性回归广泛应用于各种领域,例如经济学、统计学、工程学等,常用于预测和建模。在实践中,线性回归模型可以通过各种优化算法进行求解,例如梯度下降法、正规方程法等。

二、什么是逻辑回归

逻辑回归是一种用于建模输入变量与二元分类输出变量之间关系的线性方法。尽管名字中带有“回归”,但实际上逻辑回归是一种分类模型,而不是回归模型。逻辑回归通过使用逻辑函数(也称为sigmoid函数)将线性组合的结果转换为一个概率值,从而将连续的输出转化为二元的分类结果。

逻辑回归模型的基本形式可以表示为:

其中,P(y=1|x)是输出变量为1的概率,x_1, x_2, ..., x_n是输入变量,\beta_0, \beta_1, ..., \beta_n是模型的参数(斜率和截距)。

逻辑回归模型通常使用最大似然估计法来估计参数,目标是最大化观测值属于其真实类别的概率。在训练过程中,逻辑回归模型会输出一个介于0和1之间的概率值表示观测值属于某一类的概率。然后根据设定的阈值(通常为0.5),将概率值映射到二元分类结果。

逻辑回归模型常用于二元分类问题,例如预测患病与否、垃圾邮件分类等。它简单、高效,并且易于理解和实现,是许多机器学习算法中的基础模型之一。

三、基于Python 和 Scikit-learn 库实现线性回归

示例代码:

# 导入必要的库
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
import matplotlib.pyplot as plt# 生成一些示例数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建线性回归模型
model = LinearRegression()# 在训练集上拟合模型
model.fit(X_train, y_train)# 在训练集和测试集上进行预测
y_train_pred = model.predict(X_train)
y_test_pred = model.predict(X_test)# 计算训练集和测试集上的均方误差
train_mse = mean_squared_error(y_train, y_train_pred)
test_mse = mean_squared_error(y_test, y_test_pred)print("训练集上的均方误差:", train_mse)
print("测试集上的均方误差:", test_mse)# 可视化拟合结果
plt.scatter(X_test, y_test, color='black')
plt.plot(X_test, y_test_pred, color='blue', linewidth=3)
plt.xlabel('X')
plt.ylabel('y')
plt.title('Linear Regression')
plt.show()

执行结果:

 使用线性回归来预测房价:

我们首先加载了一个包含房屋面积和价格的数据集。然后,我们使用线性回归模型来拟合房价与房屋面积之间的关系。接下来,我们将数据分为训练集和测试集,并在训练集上训练模型。最后,我们使用测试集评估模型的性能,并可视化预测结果。

注:波士顿房价预测数据下载(点击即可挑战链接)

# 导入必要的库
import numpy as np
import pandas
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 读取数据集
data = pandas.read_csv('C:\\Users\\y\\Desktop\\ISCDS - 副本\\AI\\Imgs\img\\train.csv')# 可视化数据分布
plt.scatter(data['GrLivArea'], data['SalePrice'])
plt.xlabel('Area (sq.ft)')
plt.ylabel('Price ($)')
plt.title('House Prices vs. Area')
plt.show()# 准备数据
X = data['Area'].values.reshape(-1, 1)  # 输入特征:房屋面积
y = data['Price'].values  # 输出标签:房价# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建线性回归模型
model = LinearRegression()# 在训练集上拟合模型
model.fit(X_train, y_train)# 在测试集上进行预测
y_pred = model.predict(X_test)# 计算模型的均方误差
mse = mean_squared_error(y_test, y_pred)
print("模型的均方误差:", mse)# 可视化预测结果
plt.scatter(X_test, y_test, color='black')
plt.plot(X_test, y_pred, color='blue', linewidth=3)
plt.xlabel('Area (sq.ft)')
plt.ylabel('Price ($)')
plt.title('House Prices Prediction')
plt.show()

执行结果:

 房子面积与价格关系图 

四、基于Python 和 Scikit-learn 库实现逻辑回归

在这里,我将使用Scikit-learn库中的一个内置的数据集作为示例。你可以使用load_iris()函数来加载鸢尾花数据集。首先加载了鸢尾花数据集,并将其分为训练集和测试集。然后,我们创建了一个逻辑回归模型并在训练集上拟合了模型。最后,我们使用测试集评估了模型的性能,并计算了准确率、打印了分类报告和混淆矩阵。

# 导入必要的库
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix# 加载鸢尾花数据集
iris = load_iris()# 准备数据
X = iris.data  # 输入特征
y = iris.target  # 输出标签# 将数据分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=40)# 创建逻辑回归模型
model = LogisticRegression()# 在训练集上拟合模型
model.fit(X_train, y_train)# 在测试集上进行预测
y_pred = model.predict(X_test)# 计算模型的准确率
accuracy = accuracy_score(y_test, y_pred)
print("模型的准确率:", accuracy)# 打印分类报告
print("分类报告:")
print(classification_report(y_test, y_pred))# 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
print("混淆矩阵:")
print(conf_matrix)

 执行结果:

五、总结 

线性回归的优缺点总结:

优点:

  1. 简单而直观: 线性回归模型简单易懂,容易解释,适用于初学者入门机器学习。

  2. 高效: 训练和预测的速度较快,适用于处理大规模数据集。

  3. 可解释性强: 可以量化输入变量与输出变量之间的线性关系,提供了对数据的直观理解。

  4. 稳定性好: 对于输入变量之间存在多重共线性的情况,线性回归表现稳定。

  5. 易于扩展: 可以与其他模型结合使用,如正则化方法(如岭回归、Lasso回归)等。

缺点:

  1. 对非线性关系拟合能力有限: 无法很好地处理输入变量与输出变量之间的非线性关系,容易出现欠拟合问题。

  2. 对异常值敏感: 对于数据中的异常值较为敏感,容易受到极端值的影响,需要进行异常值处理。

  3. 需要满足线性假设: 要求输入变量与输出变量之间存在线性关系,因此无法捕捉到复杂的非线性关系。

  4. 可能存在欠拟合或过拟合问题: 当模型过于简单或者特征空间较大时,容易出现欠拟合问题;而模型过于复杂或者数据量较小时,又容易出现过拟合问题。

  5. 无法处理分类问题: 线性回归主要用于解决连续型输出变量的问题,不适用于分类问题。

逻辑回归(Logistic Regression)是一种常用的分类算法,具有许多优点和缺点。

优点:

  1. 简单和快速: 逻辑回归是一种简单而快速的分类算法,易于实现和理解,适用于处理大规模数据集。

  2. 可解释性强: 逻辑回归模型的结果易于解释,能够输出特征对分类结果的影响程度,提供了对数据的直观理解。

  3. 适用于线性可分问题: 当数据集是线性可分的情况下,逻辑回归能够表现出较好的性能。

  4. 不易过拟合: 逻辑回归在参数调整适当的情况下,很少会出现过拟合的问题,即使数据集的特征空间很大。

  5. 能够输出概率值: 逻辑回归模型可以输出样本属于某一类的概率值,而不仅仅是类别标签,这对于一些需要概率估计的场景十分有用。

缺点:

  1. 只能处理线性可分问题: 逻辑回归是一种线性分类算法,只适用于线性可分的问题,无法处理非线性关系。

  2. 对异常值敏感: 逻辑回归对异常值敏感,容易受到极端值的影响,需要对数据进行预处理或异常值处理。

  3. 无法处理复杂关系: 逻辑回归不能很好地处理特征之间的复杂非线性关系,对于非线性的分类问题性能较差。

  4. 需要特征工程: 逻辑回归的性能受特征选择和特征工程的影响较大,需要合适的特征来提高模型性能。

  5. 可能存在欠拟合问题: 当数据集的特征空间较大且特征之间关系复杂时,逻辑回归容易出现欠拟合的问题,性能较差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/285435.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ 的高阶应用及可靠性保证

目录 一、RabbitMQ 高阶应用 1.1 消息何去何从 1.2 过期时间 1.3 死信队列 1.4 延迟队列 1.5 优先级队列 1.6 消费质量保证(QOS) 二、持久化 三、生产者确认 四、消息可靠性和重复消费 4.1 消息可靠性 4.2 重复消费问题 上篇文章介绍了 Rabb…

QT----给程序添加上任务栏托盘图标和退出

让我们的程序拥有任务栏托盘图标,实现程序后台运行,退出等功能 1、关闭程序保持后台 重写关闭事件,忽略点击窗口关闭 void MainWindow::closeEvent(QCloseEvent *event) {// 隐藏窗口,而不是真正关闭setVisible(false);// 忽略关闭事件&am…

由浅到深认识Java语言(26):阶段性练习

该文章Github地址:https://github.com/AntonyCheng/java-notes 在此介绍一下作者开源的SpringBoot项目初始化模板(Github仓库地址:https://github.com/AntonyCheng/spring-boot-init-template & CSDN文章地址:https://blog.c…

后端如何返回404地址

当我们网站输入不存在的地址,经常会出现404的页面,这是如何做到的 1.添加配置 spring:mvc:view:prefix: /templates/suffix: .html 2.resources下添加templates目录,下面放404的网站 3.添加依赖,版本在主pom里面配置好了&#x…

一个开源的分布式在线教育系统

项目介绍 roncoo-education —— 一个分布式在线教育系统。目前主要功能有课程点播功能,支持多家视频云的接入,课程附件管理功能,支持多家存储云的接入,可以帮助个人或者企业快速搭建一个轻量级的在线教育平台。 系统分为后台、前…

CHAT~(持续更新)

CHAT(持续更新) 实现一个ChatGPT创建API设计页面布局业务操作技术架构 编码其他 实现一个ChatGPT 创建API 最简单也最需要信息的一步 继续往下做的前提 此处省略,想要获取接口创建方式联系 设计 页面布局 按照官网布局 业务操作 注册登…

Linux Ncurses库部分函数使用说明

目录 1. initscr()函数 2. endwin()函数 3. curs_set()函数 4.noecho()函数 5. keypad()函数 6. start_color()函数 7.init_pair()函数 8.getch()函数 9.move()函数 10.addch()函数 11. refresh()函数 12.inch()函数…

网络协议栈--网络层--IP协议

目录 本节重点网络层IP协议一、 基本概念二、 IP协议报头格式三、网段划分(重要)四、特殊的IP地址五、IP地址的数量限制六、私有IP地址和公网IP地址七、路由八、IP协议全部内容一览图 本节重点 1、理解网络层的作用, 深入理解IP协议的基本原理 2、对整个TCP/IP协议有系统的理解…

llvm后端

SelectionDAGBuilder是LLVM(Low Level Virtual Machine)编译器中的一个重要组件,它负责将LLVM中间表示(Intermediate Representation,IR)转换为SelectionDAG(选择有向无环图)的形式。…

JavaScript进阶

1. 作用域 1.1 局部作用域 1.2 全局作用域 1.3 作用域链 1.4 JS垃圾回收机制&#xff08;闭包做铺垫&#xff09; 1.4.1 什么是垃圾回收机制 1.4.2 内存的声明周期 1.4.3 垃圾回收的算法说明 1.4.3.1 引用计数法 1.4.3.2 标记清除法 1.5 闭包 <!DOCTYPE html> <html …

QTabWidget的tabbar不同方向显示 文字方向设置 图标跟随变化 实现方式 qt控件绘制原理

先来看结果图&#xff1a;&#xff08;参考博客&#xff1a;QTabWidget中tab页文本水平或垂直设置_pyqt tab_widget.settabposition(qtabwidget.west) 字体-CSDN博客&#xff09; 从图中可知&#xff0c;"普通"是qt自己的样式&#xff0c;但是很明显&#xff0c;在垂…

【linux】进程的地址空间

1.代码看现象引入 #include<stdio.h>#include<unistd.h>#include<string.h> #include<stdlib.h>int val100;int main (){ printf("i am father,pid:%d,ppid:%d,val:%d&#xff0c;&val:%p\n",getpid(),getppid(),val,&val);size_t…

Linux:点命令source

相关阅读 Linuxhttps://blog.csdn.net/weixin_45791458/category_12234591.html?spm1001.2014.3001.5482 source命令用于读取一个文件的内容并在当前Shell环境&#xff08;包括交互式Shell或是非交互式Shell&#xff09;执行里面的命令。它被称为点命令是因为命令名source也可…

IIS7/iis8/iis10安装II6兼容模块 以windows2022为例

因安全狗的提示 安全狗防护引|擎安装失败 可能原因是: IIS7及以上版本末安装1IS6兼容模块! .所以操作解决 如下. 在开始菜单中,找到服务器管理器.找到下图的IIS,右键添加角色和功能,找到web服务器的管理工具选项,iis6管理兼容性 打钩并安装. 如下图

自然拼读-组合音(上篇)

自然拼读-组合音 1、元音字母A的二声发音组合 组合音at 注意&#xff1a;“t”是气音&#xff0c;不要太重。 Eg&#xff1a;cat&#xff08;猫&#xff09; fat&#xff08;肥的&#xff09; bat&#xff08;蝙蝠&#xff09; 组合音ap 注意&#xff1a;“p”在尾巴发音…

MRC是谁?- 媒体评级委员会 Media Rating Council

在在线广告的世界里&#xff0c;有许多不同的技术和实践用于提供和衡量广告。对于广告商、出版商和营销人员来说&#xff0c;了解这些技术是如何工作的以及如何有效使用这些技术很重要。在这方面发挥关键作用的一个组织是媒体评级委员会&#xff08;MRC&#xff09;。 1. 了解…

蓝桥杯基础练习详细讲解二(具体代码、解题思路、Python)

试题 基础练习 回文数 提交此题 评测记录 资源限制 内存限制&#xff1a;512.0MB C/C时间限制&#xff1a;1.0s Java时间限制&#xff1a;3.0s Python时间限制&#xff1a;5.0s 问题描述 1221是一个非常特殊的数&#xff0c;它从左边读和从右边读是一样的&#x…

mysql基础3索引

存储引擎 存储引擎就是存储数据、建立索引、更新/查询数据等技术的实现方式 。存储引擎是基于表的&#xff0c;而不是 基于库的&#xff0c;所以存储引擎也可被称为表类型。 1). 建表时指定存储引擎 CREATE TABLE 表名(字段1 字段1类型 [ COMMENT 字段1注释 ] ,......字段n…

Docker进阶:Docker-compose 实现服务弹性伸缩

Docker进阶&#xff1a;Docker-compose 实现服务弹性伸缩 一、Docker Compose基础概念1.1 Docker Compose简介1.2 Docker Compose文件结构 二、弹性伸缩的原理和实现步骤2.1 弹性伸缩原理2.2 实现步骤 三、技术实践案例3.1 场景描述3.2 配置Docker Compose文件3.3 使用 docker-…

【项目管理后台】Vue3+Ts+Sass实战框架搭建二

Vue3TsSass搭建 git cz的配置mock 数据配置viteMockServe 建立mock/user.ts文件夹测试一下mock是否配置成功 axios二次封装解决env报错问题&#xff0c;ImportMeta”上不存在属性“env” 统一管理相关接口新建api/index.js 路由的配置建立router/index.ts将路由进行集中封装&am…