【机器学习】均方误差根(RMSE:Root Mean Squared Error)

均方误差根(Root Mean Squared Error,RMSE)是机器学习和统计学中常用的误差度量指标,用于评估预测值与真实值之间的差异。它通常用于回归模型的评价,以衡量模型的预测精度。

RMSE的定义与公式

给定预测值 \hat{y}_i 和实际值 y_i,均方误差根的公式如下:

\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2}

其中:

  • n 是数据点的数量。
  • \hat{y}_i 是模型的预测值。
  • y_i 是真实值。

RMSE的计算步骤

  1. 求误差:计算预测值 y^i和实际值 yi之间的差值。
  2. 平方误差:将每个误差进行平方,得到正值,以消除正负误差的抵消影响。
  3. 求均值:将所有平方误差求和后,除以样本总数 n,得到均方误差(MSE)。
  4. 开方:对均方误差开平方根,得到 RMSE。

RMSE的性质和意义

  • 衡量误差大小:RMSE值越小,表明预测值与真实值越接近。
  • 单位一致:由于开平方根,RMSE的单位与原始数据的单位相同,便于解释。
  • 对大误差敏感:RMSE对大误差更敏感,因为平方放大了误差的影响,因此,RMSE在含有较多异常值的数据集中可能会偏高。

RMSE在机器学习中的应用

RMSE广泛用于评估回归模型,如线性回归、支持向量机回归、决策树回归等。它帮助分析模型的误差分布,找出需要改进的地方。

Python 实现均方误差根 (RMSE) 的计算

可以使用 Python 实现均方误差根 (RMSE) 的计算。以下是简单的代码示例:

import numpy as npdef rmse(y_true, y_pred):return np.sqrt(np.mean((y_pred - y_true) ** 2))# 示例
y_true = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2, 8])result = rmse(y_true, y_pred)
print("RMSE:", result)

说明

  1. y_true 是真实值数组。
  2. y_pred 是预测值数组。
  3. np.mean((y_pred - y_true) ** 2) 计算均方误差 (MSE)。
  4. np.sqrt(...) 取平方根得到 RMSE。

运行此代码将输出 RMSE 的结果。

图解 RMSE

均方误差根 (RMSE) 是回归分析中用来度量预测值和真实值之间偏差的指标。让我们从图解的角度直观理解 RMSE 的计算过程以及它在误差评估中的作用。

这张图展示了真实值与预测值的关系,以及每个点之间的误差(用灰色虚线表示)。图中蓝线代表真实值,而红色交叉点代表预测值。RMSE 被计算为这些误差的平方平均值的平方根,用来量化预测值与真实值的整体偏差程度。

在这个例子中,RMSE 值越小表示模型预测越准确。如果所有红色点都紧贴在蓝线上,RMSE 会接近 0,表示预测非常精确。

import numpy as np
import matplotlib.pyplot as plt# Generate sample data for illustration
np.random.seed(0)
x = np.linspace(0, 10, 10)                   # Independent variable (e.g., input feature)
y_true = 2 * x + 1                           # True relationship (e.g., ground truth values)
y_pred = y_true + np.random.normal(0, 2, 10) # Predicted values with random noise# Calculate RMSE
rmse_value = np.sqrt(np.mean((y_pred - y_true) ** 2))# Plotting the true vs. predicted values with errors
plt.figure(figsize=(10, 6))
plt.plot(x, y_true, label="True Values", color="blue", marker='o')
plt.plot(x, y_pred, label="Predicted Values", color="red", marker='x')
plt.vlines(x, y_true, y_pred, colors='gray', linestyles='dotted', label='Errors')# Adding text and labels
plt.xlabel("x")
plt.ylabel("y")
plt.title(f"Illustration of RMSE (Root Mean Squared Error)\nRMSE = {rmse_value:.2f}")
plt.legend()
plt.grid(True)
plt.show()
  • 绘制实际值和预测值的散点图

    • 在图中,我们将真实值 y 和预测值 \hat{y}​ 分别表示为点。假设我们有几个数据点,每个点都有一个真实值和一个预测值。
  • 误差的可视化

    • 对于每个数据点,计算预测值与真实值之间的差(误差),可以用垂直线段表示每对真实值和预测值之间的距离。
    • 例如,对于数据点 i,误差为 e_i = \hat{y}_i - y_i​。
  • 平方误差

    • 将每个误差平方,即 e_i^2​,这样可以确保所有误差均为正值。此步骤可以通过加粗或更长的线条来表示更大的误差平方。
  • 均方误差

    • 计算所有平方误差的平均值,这表示整体误差的平方平均水平。
  • 取平方根

    • 对均方误差 (MSE) 取平方根,得到 RMSE。这一步可以用直观的距离感来说明,即 RMSE 反映了预测值和真实值之间的平均距离。

RMSE 解释的图示要点

  • 误差增大效应:在图中,偏离实际值较大的点会显著影响 RMSE,因为平方会放大误差。
  • 越接近0越准确:图中 RMSE 越小,代表预测值越接近真实值;若 RMSE 为 0,则预测值完全等于真实值。

通过这样的图示,可以清楚看到 RMSE 对模型准确性和误差分布的敏感性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/467843.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python可视化进阶

引用: 首先需要安装 plotnine from plotnine import* import joypy数据可视化进阶操作 3.1 类别数据可视化 【例3-1】——绘制简单条形图 【代码框3-1】——绘制简单条形图 # 图3-1的绘制代码 import pandas as pd import matplotlib.pyplot as plt from cvxpy …

玩的花,云产品也能拼团了!!!

说起拼单大家都不陌生,电商一贯的营销手段,不过确实可以给消费者省下一笔钱。双11到了,腾讯云产品也玩起了拼团,这明显是对开发人员和各企业的福利。 对于有云产品需求的个人或企业,这次绝对是难得的一次薅羊毛机会。…

设计模式-七个基本原则之一-开闭原则 + SpringBoot案例

开闭原则:(SRP) 面向对象七个基本原则之一 对扩展开放:软件实体(类、模块、函数等)应该能够通过增加新功能来进行扩展。对修改关闭:一旦软件实体被开发完成,就不应该修改它的源代码。 要看实际场景,比如组内…

Flutter 插件 sliding_up_panel 实现从底部滑出的面板

前言 sliding_up_panel 是一个 Flutter 插件,用于实现从底部滑出的面板。它在设计上非常灵活,能够适应多种 UI 场景,比如从底部滑出的菜单、可拖动的弹出面板等。以下是 sliding_up_panel 的详细用法,包括常用的参数说明和示例代…

出海企业如何借助云计算平台实现多区域部署?

云计算de小白 如需进一步了解,请单击链接了解有关 Akamai 云计算的更多信息 在本文中我们将告诉大家如何在Linode云计算平台上借助VLAN快速实现多地域部署。 首先我们需要明确一些基本概念和思想: 部署多区域 VLAN 为了在多区域部署中在不同的 VLAN …

Linux(CentOS)安装 JDK

CentOS版本:CentOS 7 JDK版本:JDK17 1、下载 JDK 官网:https://www.oracle.com/ 2、上传 JDK 文件到 CentOS 使用FinalShell远程登录工具,并且使用 root 用户连接登录(注意这里说的root用户连接登录是指这样的&…

多边形电子围栏算法

在日常生活工作中,我们经常接触到电子围栏,大部分的电子围栏基本上都是圆形的,想要知道某一个点是否在圆形区域内,算法很简单,只需要知道这个圆形区域的圆心坐标和被测点的坐标的距离是否小于半径即可。两点的距离小于…

柯桥学日语J.TEST考试是什么?J.TEST考试报名

J.TEST考试是什么? J.TEST全称为实用日本语鉴定考试,在2007年获得了国家劳动和社会保障部的认可,作为面对母语为非日本语的人员进行的日本语能力测试,J.TEST被越来越多的日本企业所认可,由于其对日语的实际运用能力具有…

谈谈ssh-keygen进行多host配置及使用

背景 传统的Telnet、FTP协议都是使用明文传输数据,存在一定的安全风险,如果传输数据被截取,可能造成数据泄露风险,尤其对于敏感数据,泄露造成的损失无法估计。最近公司、github等平台都不再支持http方式进行代码下载工…

谷粒商城-高级篇-认证服务

1、环境搭建 1、创建gulimall-auth-server模块 2、导入依赖 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schem…

独显装完ubuntu后启动黑屏显示/dev/sda:clean files blocks的解决方案

解决方案如下&#xff1a; 选中Ubuntu按E键 在编辑界面倒数第2行的linux那行&#xff08;后面有quiet splash选项&#xff09;的最后添加nomodeset 然后按F10保存重启 然后管理员权限打开/etc/modprobe.d/blacklist.conf&#xff0c;在文件末尾添加&#xff1a; blacklist…

ArcGIS 地理信息系统 任意文件读取漏洞复现

0x01 产品简介 ArcGIS是由美国Esri公司研发的地理信息系统(GIS)软件,它整合了数据库、软件工程、人工智能、网络技术、云计算等主流的IT技术,旨在为用户提供一套完整的、开放的企业级GIS解决方案,它包含了一套带有用户界面组件的Windows桌面应用。可以实现从简单到复杂的…

Linux 系统结构

Linux系统一般有4个主要部分&#xff1a;内核、shell、文件系统和应用程序。内核、shell和文件系统一起形成了基本的操作系统结构&#xff0c;它们使得用户可以运行程序、管理文件并使用系统。 1. linux内核 内核是操作系统的核心&#xff0c;具有很多最基本功能&#xff0c;它…

SLF4J: Failed to load class “org.slf4j.impl.StaticLoggerBinder”

SLF4J常见问题 1、SLF4J简介2、SLF4J实现原理3、SLF4J常见问题 1、SLF4J简介 SLF4J&#xff08;Simple Logging Facade for Java&#xff09;是一个为Java程序提供日志输出的统一接口&#xff0c;并不具备具体的日志实现方案&#xff0c;类似JDBC&#xff0c;SLF4J只做两件事&a…

使用ThorUi

摘要&#xff1a; 官网 今天遇到一个老项目&#xff0c;使用的是ThorUi组件库&#xff01;之前没有用过这组件库&#xff0c;所以记录一下不同框架是使用情况&#xff01; ThorUI 是一个基于 Thorium 的 UI 框架&#xff0c;用于构建跨平台的桌面应用程序。如果你打算使用 Thor…

OceanBase中,如何解读 obdiag 收集的火焰图 【DBA早下班系列】

1. 前言 在之前的文章 遇到性能问题&#xff0c;如何给OceanBase“拍CT“&#xff08;火焰图与扁鹊图&#xff09;中&#xff0c;分享了obdiag 快速收集火焰图的方法&#xff0c;那么&#xff0c;紧接着的问题便是&#xff1a;收集到火焰图和扁鹊图之后&#xff0c;该如何解读…

Day41 | 动态规划 :完全背包应用 完全平方数单词拆分(类比爬楼梯)

Day41 | 动态规划 &#xff1a;完全背包应用 完全平方数&&单词拆分&#xff08;类比爬楼梯&#xff09; 动态规划应该如何学习&#xff1f;-CSDN博客 01背包模板 | 学习总结-CSDN博客 完全背包模板总结-CSDN博客 难点&#xff1a; 代码都不难写&#xff0c;如何想…

《 C++ 修炼全景指南:十九 》想懂数据库?深入 B 树的世界,揭示高效存储背后的逻辑

摘要 本文深入探讨了 B 树的原理、操作、性能优化及其实际应用。B 树作为一种平衡多路树结构&#xff0c;因其高效的查找、插入和删除操作广泛应用于数据库与文件系统中。文章首先介绍了 B 树的定义与性质&#xff0c;并详细阐述了节点分裂、合并等核心操作的实现方法。接着&a…

选择小练习

条件语句 if 条件语句&#xff0c;也叫作选择语句、判断语句。根绝特定条件判断是否成立&#xff0c;执行不同的语句段。简单来说&#xff0c;满足条件执行&#xff0c;不满足不执行。 条件语句是使用关键字 if 做判断&#xff0c;根据不同情况结合不同的关键字else 或者 eli…

单片机串口接收状态机STM32

单片机串口接收状态机stm32 前言 项目的芯片stm32转国产&#xff0c;国产芯片的串口DMA接收功能测试不通过&#xff0c;所以要由原本很容易配置的串口空闲中断触发DMA接收数据的方式转为串口逐字节接收的状态机接收数据 两种方式各有优劣&#xff0c;不过我的芯片已经主频跑…