【机器学习】决定系数(R²:Coefficient of Determination)

决定系数R^{2},也称为 R 平方,是一种用于衡量回归模型预测效果的统计指标。它表示了模型解释目标变量总变异的程度,数值介于 0 和 1 之间,数值越接近 1 表明模型的解释力越强。

1. R^{2} 的定义和公式

R^{2} 的公式如下:

R^2 = 1 - \frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}

其中:

  • y_{i}​ 是真实值。
  • \hat{y_{i}} 是模型的预测值。
  • \bar{y} 是真实值的平均值。
  • \sum_{i=1}^n (y_i - \hat{y}_i)^2 是残差平方和 (Residual Sum of Squares, RSS)。
  • \sum_{i=1}^n (y_i - \bar{y})^2 是总平方和 (Total Sum of Squares, TSS)。

从公式可以看出,R^2 表示残差平方和占总平方和的比例。换句话说,R^2 越接近 1,表示模型的预测越接近真实值,模型解释越充分。

2. R^2 的计算步骤

计算 R^2 的步骤如下:

  1. 计算真实值的平均值 \bar{y}​。
  2. 计算残差平方和 \sum (y_i - \hat{y}_i)^2
  3. 计算总平方和 \sum (y_i - \bar{y})^2
  4. 计算 R^2,即使用公式 R^2 = 1 - \frac{\text{RSS}}{\text{TSS}}​。

3. R^2 的解释和意义

  • 解释度R^2 值表示自变量解释因变量变异的比例。例如,R^2 = 0.8 表示模型能解释 80% 的目标变量变异。
  • 值域R^2 的取值范围通常为 [0, 1]。0 表示模型无法解释任何目标变量的变异,1 表示模型可以完全解释目标变量的变异。
  • 负值的情况:在某些情况下,当模型预测效果极差时(例如,模型欠拟合),R^2 可能为负数。这表示预测值甚至比用平均值预测的效果更差。

4. R^2 的优缺点

优点

  • 直观解释R^2 直接表示了模型对目标变量的解释力。
  • 适用性广:广泛应用于回归模型的效果评价。

缺点

  • 对样本大小敏感:在小样本数据中,R^2 值容易偏高,可能夸大模型的预测效果。
  • 对异常值敏感:由于平方的存在,R^2 对异常值敏感,异常值可能会过度影响结果。
  • 无法区分方向性:仅仅反映解释力,不反映模型预测的方向性,容易掩盖预测偏差。

5. R^2 的应用

在回归分析、机器学习和经济学等领域,R^2 是一种常用的评价指标。其应用场景包括:

  • 回归模型效果评价:常用于衡量线性回归、多项式回归等模型的解释力。
  • 经济和金融数据分析:例如评估某些经济指标对 GDP 增长的解释力。
  • 机器学习模型调优:用于评估模型的拟合程度,帮助选择合适的模型或调参。

6. R^2 与其他误差指标的对比

指标R^2MAE、RMSE
计算方式残差平方和和总平方和之比绝对误差或平方误差
值域[0, 1](可能为负数)非负值
异常值敏感性MAE 低,RMSE 高
解释力表示模型解释的变异比例表示模型预测误差的均值

7.Python 实现代码

以下是计算 R^2 的 Python 代码:

import numpy as npdef r2_score(y_true, y_pred):ss_res = np.sum((y_true - y_pred) ** 2)ss_tot = np.sum((y_true - np.mean(y_true)) ** 2)return 1 - (ss_res / ss_tot)# 示例
y_true = np.array([3, -0.5, 2, 7])
y_pred = np.array([2.5, 0.0, 2, 8])result = r2_score(y_true, y_pred)
print("R^2:", result)

说明

  1. y_true 是真实值的数组,y_pred 是预测值的数组。
  2. ss_res 是残差平方和,表示误差的总量。
  3. ss_tot 是总平方和,表示目标变量的总变异。
  4. 1 - (ss_res / ss_tot) 得出 R^2 值,表示模型对数据变异的解释程度。

图中 R^2 的值接近 1 表示模型的预测接近真实值,具有较高的解释力。

8.R^2 图解示例

下面将生成一个包含 R^2 计算图解的图示,以便更清楚地理解 R^2 在模型解释力上的作用。

上图展示了 R^2 的计算过程,其中:

  • 蓝色圆点连线表示真实值 y
  • 红色叉点连线表示模型的预测值 \hat{y}​。
  • 每条灰色虚线表示预测值与真实值之间的差距,即残差。
# Re-import necessary libraries due to session context reset
import numpy as np
import matplotlib.pyplot as plt# Generate sample data for illustration
np.random.seed(0)
x = np.linspace(0, 10, 10)
y_true = 2 * x + 1                       # True relationship (e.g., ground truth values)
y_pred = y_true + np.random.normal(0, 2, 10) # Predicted values with random noise# Calculate R^2
ss_res = np.sum((y_true - y_pred) ** 2)   # Residual sum of squares
ss_tot = np.sum((y_true - np.mean(y_true)) ** 2) # Total sum of squares
r2_value = 1 - (ss_res / ss_tot)# Plotting true vs predicted values and lines indicating residuals
plt.figure(figsize=(10, 6))
plt.plot(x, y_true, label="True Values", color="blue", marker='o')
plt.plot(x, y_pred, label="Predicted Values", color="red", marker='x')
plt.hlines(np.mean(y_true), x[0], x[-1], colors='green', linestyles='dashed', label='Mean of True Values')# Add residual lines
for i in range(len(x)):plt.plot([x[i], x[i]], [y_true[i], y_pred[i]], color='gray', linestyle='dotted')# Adding text and labels
plt.xlabel("x")
plt.ylabel("y")
plt.title(f"Illustration of R² (Coefficient of Determination)\nR² = {r2_value:.2f}")
plt.legend()
plt.grid(True)
plt.show()

为了更直观地理解 R^2,我们可以用一个散点图展示真实值和预测值的分布:

  1. 绘制真实值与预测值的散点图:展示所有数据点的真实值与预测值之间的差异。
  2. 展示总平方和 (TSS):每个数据点到真实值均值的垂直线表示目标变量的总变异。
  3. 展示残差平方和 (RSS):每个数据点到预测值的垂直线表示模型预测误差。
  4. 理解解释力:图中 R^2 值越大,模型预测值越接近真实值,即解释力越高。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/467351.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

代码地址 https://github.com/junjie18/CMT 1. 引言 在本文中,我们提出了Cross-Modal Transformer(CMT),这是一种简单而有效的端到端管道,用于鲁棒的3D对象检测(见图1(c)&#xf…

十四、Linux线程(一)

1.守护进程 1.守护进程的特点 是后台服务进程 独立于控制终端 周期性执行某任务 不受用户登录注销影响 一般采用以d结尾的名字(服务) 2.进程组 进程的组长: 组里边的第一进程 进程组的ID进程中的组长的ID 进程中组长的选择&#xff1…

多模态数字人AI产品正在革新金融业,解密头部银行、证券公司都在用的AI工具

在人工智能迅猛发展的时代背景下,金融业正迎来一场深刻的变革。 多模态的人工智能,以其独特的魅力,正在重塑金融行业的格局,为金融服务带来前所未有的新想象。从今年以来行业对AI技术的探索与实践中,AIGC 3D数字人多模…

多态性核SSR的鉴定

多态性核SSR的鉴定 文章目录 多态性核SSR的鉴定前言一、使用bwa对测序数据进行mapping二、使用SOAPdenovo2对核序列进行从头组装成scaffolds三、使用CandiSSR寻找多态性核SSR3.1. 安装CandiSSR软件的准备3.2. 运行CandiSSR时的准备3.3. 整理得到的结果文件 四、统计Contig的数量…

【AIGC探索】AI实现PPT生产全流程

AI实现PPT生产流程 简单概括流程就是: 选择用百度文库AI生成PPT,使用WPS和islide辅助美化,使用文字大模型生成大纲,使用宏指令快速规范细节。 理由如下: 大多数PPT工具生成大纲会有文字篇幅限制,通过大模型…

鸿蒙ArkTS中的获取网络数据

一、通过web组件加载网页 在C/S应用程序中,都有网络组件用于加载网页,鸿蒙ArkTS中也有类似的组件。   web组件,用于加载指定的网页,里面有很多的方法可以调用,虽然现在用得比较少,了解还是必须的。   演…

数学建模(基于Python实现)--灰色关联分析法讲解,含案例

前言 这是去年底学数学建模老哥的建模课程笔记; 未来本人将陆陆续续的更新数学建模相关的一些基础算法,大家可以持续关注一下,主要在于运用; 提示:数学建模只有实战才能提升🔥​🔥​&#x1f…

【go从零单排】error错误处理及封装

🌈Don’t worry , just coding! 内耗与overthinking只会削弱你的精力,虚度你的光阴,每天迈出一小步,回头时发现已经走了很远。 📗概念 在 Go 语言中,error 是一个内置的接口类型,用于表示错误情…

论文阅读笔记:Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

论文阅读笔记:Depth Pro: Sharp Monocular Metric Depth in Less Than a Second 1 背景1.1 动机1.2 提出的方法 2 创新点3 方法4 模块4.1 训练目标4.2 课程训练 4.3 边缘评价指标4.4 焦距估计 5 效果5.1 和SOTA方法的对比 论文:https://arxiv.org/abs/24…

flutter 项目初建碰到的控制台报错无法启动问题

在第一次运行flutter时,会碰见一直卡在Runing Gradle task assembleDebug的问题。其实出现这个问题的原因有两个。 一:如果你flutter -doctor 检测都很ok,而且环境配置都很正确,那么大概率就是需要多等一会,少则几十分…

跨子网的WinCC客户机/服务器如何实现通讯?

为了更有效地利用有限的IP地址,为了减少广播对网络带宽的占用从而提高带宽,为了实现在不同子网中应用不同的安全策略从而提高网络安全性,现场通常要求划分子网,将安全等级要求不同的计算机安置在不同的子网中,分开管理…

SpringClud一站式学习之Eureka服务治理(二)

SpringClud一站式学习之Eureka服务治理 引言1. 搭建Eureka Server1.1. 添加Eureka Server依赖1.2. 添加 Eureka Server注解1.3. 配置Eureka Server1.4. 运行Eureka Server 2. 搭建Eureka Client 服务提供者2.1. 添加依赖2.2. 添加注解2.3. 配置Eureka Client2.4. 启动服务 3. 搭…

实战攻略 | ClickHouse优化之FINAL查询加速

【本文作者:擎创科技资深研发 禹鼎侯】 查询时为什么要加FINAL 我们在使用ClickHouse存储数据时,通常会有一些去重的需求,这时候我们可以使用ReplacingMergeTree引擎。这个引擎允许你存储重复数据,但是在merge的时候会根据order …

加入GitHub Spark需要申请

目录 加入GitHub Spark需要申请 GitHub Spark 一、产品定位与特点 二、核心组件与功能 三、支持的AI模型 四、应用场景与示例 五、未来展望 六、申请体验 加入GitHub Spark需要申请 GitHub Spark 是微软旗下GitHub在2024年10月30日的GitHub Universe大会上推出的一款革…

鸿蒙与团结引擎c#与ts简单交互

目录 团结中调用ts代码 鸿蒙中调用团结代码 首先在团结创建代码,需要将代码添加到场景物体中 devecoStudio端编写ts代码 在index页面添加一个测试按钮 团结中调用ts代码 团结引擎 - 手册: Call TypeScript plug-in code from C# scripts 注册函数要跟文件名一致 在u…

Qt QCustomplot 在采集信号领域的应用

文章目录 一、常用的几种开源库:1、QCustomPlot:2、QChart:3、Qwt:QCustomplot 在采集信号领域的应用1、应用实例时域分析频谱分析2.数据筛选和处理其他参考自然界中的物理过程、传感器和传感器网络、电路和电子设备、通信系统等都是模拟信号的来源。通过可视化模拟信号,可以…

世优科技携手人民中科打造AI数字人智能体助力智慧校园

近日,世优科技与人民中科携手,为中国劳动关系学院开发了一款AI数字人助手,不仅在校园内部承担日常问询、交互工作,还在学校的展厅中担任讲解员的角色,为师生们提供生动详尽的导览服务。 中国劳动关系学院作为中华全国总…

7.2、实验二:被动接口和单播更新

源文件链接: 7.2、实验二:被动接口和单播更新: https://url02.ctfile.com/d/61945102-63671890-6af6ec?p2707 (访问密码: 2707) 一、被动接口 1.介绍 定义: 在路由协议的配置中,一个被动接口指的是一个接口不发送路由更新包的配置方式&a…

达梦8-达梦数据实时同步软件(DMHS)配置-Oracle-DM8

1、安装环境 源端目的端IP地址192.168.6.111192.168.6.110系统版本Red Hat 6.4Kylin v10数据库版本Oracle11g达梦 v8系统用户Oracledmdba字符集MERICAN_AMERICA.AL32UTF8UTF-8端口15215236实例名PRODDMSERVER数据库软件目录/u01/app/oracle/opt/dmdbmsDMHS安装目录/u01/dmhs/o…

多个NVR同时管理EasyNVR多品牌NVR管理工具/设备:IP常见问题解决方案

随着视频监控技术的不断发展,NVR(网络视频录像机)已经成为现代安防系统的重要组成部分。而为了更高效地管理多个品牌的NVR设备,EasyNVR这一多品牌NVR管理工具应运而生。然而,在实际使用过程中,尤其是在多个…