机器学习(二)-简单线性回归

文章目录

    • 1. 简单线性回归理论
    • 2. python通过简单线性回归预测房价
      • 2.1 预测数据
      • 2.2导入标准库
      • 2.3 导入数据
      • 2.4 划分数据集
      • 2.5 导入线性回归模块
      • 2.6 对测试集进行预测
      • 2.7 计算均方误差 J
      • 2.8 计算参数 w0、w1
      • 2.9 可视化训练集拟合结果
      • 2.10 可视化测试集拟合结果
      • 2.11 保存模型
      • 2.12 加载模型并预测

在机器学习和统计学中,简单线性回归是一种基础而强大的工具,用于建立自变量与因变量之间的关系。

假设你是一个房产中介,想通过房屋面积来预测房价。简单线性回归可以帮助你找到房屋面积与房价之间的线性关系,进而为客户提供更合理的报价。

本文将带你深入了解简单线性回归的理论基础、公式推导以及如何在Python中实现这一模型。

1. 简单线性回归理论

简单线性回归的基本假设是,因变量 Y(例如房价)与自变量 X(例如人口)之间存在线性关系。我们可以用以下的线性方程来表示这种关系:
在这里插入图片描述

其中:

  • y 是因变量(我们要预测的变量)。

  • x 是自变量(我们用来进行预测的变量)。

  • w0是截距(当x=0) 时,y的值)。

  • w1是斜率(自变量变化一个单位时,因变量的变化量)。

我们的目标是求 w0和w1的值,来找到一条跟预测值相关的直线。

从图中我们可以看出预测值与真实值之间存在误差,那么我们引入机器学习中的一个概念均方误差,它表示的是这些差值的平方和的平均数。这些误差的表达式如下:
在这里插入图片描述

均方误差的表达式如下:
在这里插入图片描述

2. python通过简单线性回归预测房价

2.1 预测数据

数据如下:

polulation,median_house_value
961,3.03
234,0.68
1074,2.92
1547,4.24
805,2.39
597,1.59
784,2.21
498,1.31
1602,4.28
292,0.54
1499,4.18
718,1.95
180,0.43
1202,3.62
1258,3.48
453,1.08
845,2.31
1032,2.96
384,0.68
896,2.62
425,0.82
928,2.95
1324,3.59
1435,4.02
543,1.62
1132,3.34
328,0.76
638,1.54
1389,3.78
692,1.79

x 轴是人口数量,y轴是房价

2.2导入标准库

# 导入标准库
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import pandas as pd
matplotlib.use('TkAgg')

2.3 导入数据

# 导入数据集
dataset = pd.read_csv('Data.csv')
x = dataset.iloc[:, :-1]
y = dataset.iloc[:, 1]

2.4 划分数据集

# 数据集划分 训练集/测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=0)

2.5 导入线性回归模块

# 简单线性回归算法
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

2.6 对测试集进行预测

# 对测试集进行预测
y_pred = regressor.predict(X_test)

2.7 计算均方误差 J

# 计算J
J = 1/X_train.shape[0] * np.sum((regressor.predict(X_train) - y_train)**2)
print("J = {}".format(J))

输出结果:

J = 0.031198935319832692

2.8 计算参数 w0、w1

# 计算参数 w0、w1
w0 = regressor.intercept_
w1 = regressor.coef_[0]
print("w0 = {}, w1 = {}".format(w0, w1))

输出结果:

w0 = -0.16411984840092098, w1 = 0.0029383965595942067

2.9 可视化训练集拟合结果

# 可视化训练集拟合结果
plt.figure(1)
plt.scatter(X_train, y_train, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('population VS median_house_value (training set)')
plt.xlabel('population')
plt.ylabel('median_house_value')
plt.show()

输出结果:
在这里插入图片描述

可以很好的看到拟合的直线可以很好的表示原始数据的人口和房价的走势

2.10 可视化测试集拟合结果

# 可视化测试集拟合结果
plt.figure(2)
plt.scatter(X_test, y_test, color = 'red')
plt.plot(X_train, regressor.predict(X_train), color = 'blue')
plt.title('population VS median_house_value (test set)')
plt.xlabel('population')
plt.ylabel('median_house_value')
plt.show()

输出结果:
在这里插入图片描述

可以看到,拟合的直线在测试集上的表现是相当不错了,说明我们训练的线性模型有很好的应用效果。

2.11 保存模型

# 保存模型
import pickle
with open('../model/simple_house_price_model.pkl','wb') as file:pickle.dump(regressor,file);

2.12 加载模型并预测

import pickle
import numpy as np
import pandas as pd
# 加载模型并预测
with open('../model/simple_house_price_model.pkl','rb') as file:model = pickle.load(file)x_test = np.array([693,694])
x_test = pd.DataFrame(x_test)
x_test.columns=['polulation']
y_pred = model.predict(x_test)
print(y_pred)

输出结果:

[1.87218897 1.87512736]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/496282.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux运维常见命令

vi/vim快捷键使用 1)拷贝当前行 yy ,拷贝当前行向下的5行 5yy,并粘贴(输入p)。 2)删除当前行 dd ,删除当前行向下的5行5dd 3)在文件中查找某个单词 [命令行下 /关键字,回车查找 ,输入n就是查找下一个 ] 4)设置文件的行号&…

MacOS下TestHubo安装配置指南

TestHubo是一款开源免费的测试管理工具, 下面介绍MacOS私有部署的安装与配置。TestHubo 私有部署版本更适合有严格数据安全要求的企业,支持在本地或专属服务器上运行,以实现对数据和系统的完全控制。 1、Mac 服务端安装 Mac安装包下载地址&a…

jumpserver docker安装

#安装jumpserver最新版本(当前最新版本v4.5.0-ce) curl -sSL https://resource.fit2cloud.com/jumpserver/jumpserver/releases/latest/download/quick_start.sh | bash#登录 http://192.168.31.168/ 默认账号密码 admin/ChangeMe 修改后: ad…

VBA技术资料MF243:利用第三方软件复制PDF数据到EXCEL

我给VBA的定义:VBA是个人小型自动化处理的有效工具。利用好了,可以大大提高自己的工作效率,而且可以提高数据的准确度。“VBA语言専攻”提供的教程一共九套,分为初级、中级、高级三大部分,教程是对VBA的系统讲解&#…

LabVIEW生物医学信号虚拟实验平台

介绍了一款基于LabVIEW的多功能生物医学信号处理实验平台的设计和实现。平台通过实践活动加强学生对理论的理解和应用能力,特别是在心电图(ECG)和脑电图(EEG)的信号处理方面。实验平台包括信号的滤波、特征提取和频谱分析等功能,能直观体验和掌握生物医学…

json字符串或者json文件转换成相应的bean,报错“Unrecognized field xxx , not marked as ignorable”

1. 异常描述 将一个json字符串或者json文件转换成相应的bean的时候,报如下错误: 2. 异常分析 bean中某个字段的get和set方法可能不是工具自动生成的,而是自己写的,譬如字段是“sInfo”,本来get方法是应该写成getsI…

Postman接口测试01|接口测试基础概念、http协议、RESTful风格、接口文档

目录 一、接口测试基础概念 1、什么是接口 2、接口的类型 3、什么是接口测试 4、为什么要做接口测试 5、接口测试的实现方式 6、什么是自动化接口测试? 二、接口返回的数据格式 1、三种格式 2、Json 三、接口协议 1、webservice协议 2、dubbo协议 3、…

游戏引擎学习第62天

回顾 我们目前正在开发一把虚拟剑,目的是让角色可以用这把剑进行攻击。最初的工作中,我们使用了一个摇滚位图作为虚拟剑的模型,并且实现了一个基本的功能:角色可以丢下剑。但这个功能并没有达到预期的效果,因为我们想…

AAAI-2024 | 大语言模型赋能导航决策!NavGPT:基于大模型显式推理的视觉语言导航

作者:Gengze Zhou, Yicong Hong, Qi Wu 单位:阿德莱德大学,澳大利亚国立大学 论文链接: NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models (https://ojs.aaai.org/index.p…

商品线上个性定制,并实时预览3D定制效果,是如何实现的?

商品线上3D个性化定制的实现涉及多个环节和技术,以下是详细的解释: 一、实现流程 产品3D建模: 是实现3D可视化定制的前提,需要对产品进行三维建模。可通过三维扫描仪或建模师进行建模,将产品的外观、结构、材质等细…

JS 异步 ( 一、异步概念、Web worker 基本使用 )

文章目录 异步代码异步执行概念ES6 之前的异步 Web worker 异步 代码异步执行概念 通常代码是自上而下同步执行的,既后面的代码必须等待前面的代码执行完才会执行,而异步执行则是将主线程中的某段代码交由子线程去执行,当交给子线程后&…

Elasticsearch-脚本查询

脚本查询 概念 Scripting是Elasticsearch支持的一种专门用于复杂场景下支持自定义编程的强大的脚本功能,ES支持多种脚本语言,如painless,其语法类似于Java,也有注释、关键字、类型、变量、函数等,其就要相对于其他脚本高出几倍的性…

蓝牙BLE开发——解决iOS设备获取MAC方式

解决iOS设备获取MAC方式 uniapp 解决 iOS 获取 MAC地址,在Android、iOS不同端中互通,根据MAC 地址处理相关的业务场景; 文章目录 解决iOS设备获取MAC方式监听寻找到新设备的事件BLE工具效果图APP监听设备返回数据解决方式ArrayBuffer转16进制…

高仿CSDN编辑器,前端博客模板

高仿CSDN编辑器纯前端模板,使用的js、html、vue、axios等技术,网络请求库已进行封装,可以按需调整界面,需要源码联系(4k左右)。 1.支持代码高亮 2.支持目录点击定位 3.支持文件上传、图片上传(需要自己写后端接口) 4.M…

01 - 初识 Spring

初识Spring 企业级应用 企业级应用是指那些为商业组织、⼤型企业而创建并部署的解决⽅案及应用。这些⼤型的企业级应用结构复 杂、涉及的外部资源众多,事务密集,数据规模⼤,用户数量多,有较强的安全性考虑和较⾼的性能要求。 …

后端开发如何高效使用 Apifox?

Apifox 是一个 API 协作开发平台,后端、前端、测试都可以使用 Apifox 来提升团队的工作效率。对于后端开发者而言,Apifox 的核心功能主要包括四个模块:调用 API、定义 API、开发与调试 API 以及生成 API 文档。本文将详细介绍后端开发人员如何…

解决 vue3 中 echarts图表在el-dialog中显示问题

原因: 第一次点开不显示图表,第二次点开虽然显示图表,但是图表挤在一起,页面检查发现宽高只有100px,但是明明已经设置样式宽高100% 这可能是由于 el-dialog 还没有完全渲染完成,而你的 echarts 组件已经开始尝试渲染图…

PyQt实战——随机涂格子的特色进度条(十一)

系类往期文章: PyQt5实战——多脚本集合包,前言与环境配置(一) PyQt5实战——多脚本集合包,UI以及工程布局(二) PyQt5实战——多脚本集合包,程序入口QMainWindow(三&…

tryhackme-Cyber Security 101-Linux Shells(linux命令框)

目的:了解脚本和不同类型的 Linux shell。 任务1:Introduction to Linux Shells(Linux Shell 简介) 作为操作系统的常规用户,我们都广泛使用图形用户界面 (GUI) 来执行大多数操作。只需点击几…

全面Kafka监控方案:从配置到指标

文章目录 1.1.监控配置1.2.监控工具1.3.性能指标系统相关指标GC相关指标JVM相关指标Topic相关指标Broker相关指标 1.4.性能指标说明1.5.重要指标说明 1.1.监控配置 开启JMX服务端口:kafka基本分为broker、producer、consumer三个子项,每一项的启动都需要…