机器学习数学基础:34.点二列

点二列相关教程

一、点二列相关的定义

点二列相关是一种统计方法,用于衡量两个变量之间的相关程度。在这种相关分析中,一个变量是正态连续性变量,取值可以是连续的数值,比如身高、体重、考试分数等;另一个是真正的二分名义变量,其两个类别是天然存在、相互独立的,不能再细分,像性别(男/女)、是否吸烟(是/否)、抛硬币的结果(正面/反面)等。

二、适用场景

点二列相关常用于研究天然二分变量与连续变量之间的关系。例如在教育领域,分析学生的性别(二分变量)与学习成绩(连续变量)之间的联系,看男生和女生在成绩上是否存在差异;在医学研究中,探讨患者是否患病(二分变量)与某项生理指标数值(连续变量)的相关性,以辅助疾病诊断和研究;在市场调研里,了解消费者是否购买某产品(二分变量)和他们的收入水平(连续变量)之间的关系,为营销策略提供参考。

三、计算公式解读

点二列相关系数的计算公式为 R = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq ,公式中各参数含义如下:

  • p p p q q q p p p表示二分变量中某一类别频数的比率, q q q表示二分变量中另一类别频数的比率,并且 p + q = 1 p + q \ = 1 p+q =1。比如在研究性别的例子中,如果男生人数占总人数的 40 % 40\% 40%,那么 p = 0.4 p \ = 0.4 p =0.4 q = 1 − 0.4 = 0.6 q \ = 1 - 0.4 \ = 0.6 q =10.4 =0.6
  • X ‾ p \overline{X}_{p} Xp X ‾ q \overline{X}_{q} Xq X ‾ p \overline{X}_{p} Xp是与二分变量中 p p p类别相对应的连续变量的平均数; X ‾ q \overline{X}_{q} Xq是与二分变量中 q q q类别相对应的连续变量的平均数。例如, X ‾ p \overline{X}_{p} Xp可以是男生的平均考试成绩, X ‾ q \overline{X}_{q} Xq是女生的平均考试成绩。
  • σ \sigma σ:表示连续变量的标准差,它衡量的是连续变量的离散程度,也就是数据的分散情况。标准差越大,说明数据越分散;标准差越小,数据越集中。

点二列相关系数 R R R的取值范围在 − 1 -1 1 1 1 1之间。当 R R R接近 1 1 1时,意味着两个变量之间存在很强的正相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于增大;当 R R R接近 − 1 -1 1时,表明存在很强的负相关关系,即随着二分变量中某一类别的出现,连续变量的值倾向于减小;当 R R R接近 0 0 0时,则表示两个变量之间的相关性很弱,几乎没有关联。

四、计算步骤实例

假设我们要研究某学校学生是否住校(二分变量)与英语成绩(连续变量)之间的关系,具体步骤如下:

(一)数据收集

随机选取该校80名学生作为样本,记录他们是否住校(住校记为1,不住校记为0 )以及英语考试成绩(满分100分)。经检验,英语成绩这一连续变量近似正态分布。

(二)数据整理与参数计算

  1. 统计发现住校的学生有30人,不住校的学生有50人。则 p = 30 80 = 0.375 p\ =\frac{30}{80}\ =0.375 p =8030 =0.375 q = 1 − 0.375 = 0.625 q \ = 1 - 0.375 \ = 0.625 q =10.375 =0.625
  2. 计算住校学生的英语平均成绩 X ‾ p \overline{X}_{p} Xp,假设为80分;不住校学生的英语平均成绩 X ‾ q \overline{X}_{q} Xq,假设为70分。
  3. 计算这80名学生英语成绩的标准差 σ \sigma σ,假设为12分。

(三)计算点二列相关系数 R R R

将上述值代入公式 R = X ‾ p − X ‾ q σ × p q R \ = \frac{\overline{X}_{p} - \overline{X}_{q}}{\sigma}×\sqrt{pq} R =σXpXq×pq 可得:
R = 80 − 70 12 × 0.375 × 0.625 = 10 12 × 0.234375 ≈ 10 12 × 0.484 ≈ 0.40 \begin{align*} R&\ =\frac{80 - 70}{12}×\sqrt{0.375×0.625}\\ &\ =\frac{10}{12}×\sqrt{0.234375}\\ &\approx\frac{10}{12}×0.484\\ &\approx0.40 \end{align*} R =128070×0.375×0.625  =1210×0.234375 1210×0.4840.40

(四)结果分析

计算出的点二列相关系数约为 0.40 0.40 0.40,说明在这个样本中,学生是否住校与英语成绩之间存在一定的正相关关系,即住校学生的英语成绩相对较高。但相关系数并不是特别高,意味着是否住校虽然对英语成绩有影响,但可能不是唯一的决定因素。

五、注意事项

  1. 变量性质:务必确保一个变量是真正的二分名义变量,另一个是正态连续变量,否则点二列相关可能不适用。
  2. 样本代表性:样本要具有足够的代表性,样本容量不能过小,这样计算出的相关系数才更可靠,一般建议样本量在30以上。
  3. 相关与因果:点二列相关系数只能表明两个变量之间的关联程度,不能直接说明它们之间存在因果关系。比如前面例子中发现住校和英语成绩相关,但不能就此认定住校是英语成绩好的原因。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23714.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

单片机延时函数怎么写规范?

我们以前在开发产品的时候,肯定会碰到一些延时需求,比如常见的LED闪烁,按键消抖,控制IO口输出时序等等。 别小看延时,这个小问题,想做好,甚至要考虑到程序架构层面。 在开发板上,可能…

Dify私有化部署自己的AI Agent

1、下载Dify git clone gitgithub.com:langgenius/dify.git 2、创建Dify配置 进入dify目录下的docker目录中,复制.env.example为 .env 3、使用Docker命令进行部署Dify docker compose up -d 4、访问Dify http://localhost/install 5、 设置模型供应商 配置环境变量&#xff1…

【Unity】鱼群效果模拟

鱼群效果模拟 文章目录 鱼群效果模拟Boid算法实现方式version1_CPUversion2_GPUversion3_Multilaterationversion4_Bitonic_Sorting (GPU友好)version5_Skinning (TODO) 细节项优化项参考链接 Boid算法 Boid算法是一种模拟群体行…

【AI时代】可视化训练模型工具LLaMA-Factory安装与使用

文章目录 安装训练使用 安装 官方地址:https://github.com/hiyouga/LLaMA-Factory 创建虚拟环境 conda create -n llama-factory conda activate llama-factory安装 git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory pip in…

tailwindcss学习03

01 入门 02 vue中接入 03 工具类优先 准备 vue.svg <svg viewBox"0 0 40 40" xmlns"http://www.w3.org/2000/svg"> <defs> <linearGradient x1"50%" y1"0%" x2"50%" y2"100%" id"a"&…

Java 笔记(自用)

Java是一种面向对象(opp)的、解释性的跨平台语言。所谓的跨平台是Java的一个编译好的.class文件可以在多个系统下运行。解释性则是编译后的代码需要解释器来执行&#xff0c;与之相对应的c/c是编译性语言&#xff0c;编译后的代码可以直接被机器执行。 jdkjrejava的开发工具 …

Matlab——图像保存导出成好看的.pdf格式文件

点击图像的右上角&#xff0c;点击第一个保存按钮键。

游戏引擎学习第120天

仓库:https://gitee.com/mrxiao_com/2d_game_3 上次回顾&#xff1a;周期计数代码 我们正在进行一个项目的代码优化工作&#xff0c;目标是提高性能。当前正在优化某个特定的代码片段&#xff0c;已经将其执行周期减少到48个周期。为了实现这一目标&#xff0c;我们设计了一个…

大语言模型微调的公开JSON数据

大语言模型微调的公开JSON数据 以下是一些可用于大语言模型微调的公开JSON数据及地址: EmoLLM数据集 介绍:EmoLLM是一系列能够支持理解用户、帮助用户心理健康辅导链路的心理健康大模型,其开源了数据集、微调方法、训练方法及脚本等。数据集按用处分为general和role-play两种…

20分钟 Bash 上手指南

文章目录 bash 概念与学习目的第一个 bash 脚本bash 语法变量的使用位置参数管道符号&#xff08;过滤条件&#xff09;重定向符号条件测试命令条件语句case 条件分支Arrayfor 循环函数exit 关键字 bash 脚本记录历史命令查询文件分发内容 bash 概念与学习目的 bash&#xff0…

《Python实战进阶》专栏 No.3:Django 项目结构解析与入门DEMO

《Python实战进阶》专栏 第3集&#xff1a;Django 项目结构解析与入门DEMO 在本集中&#xff0c;我们将深入探讨 Django 的项目结构&#xff0c;并实际配置并运行一个入门DEMO博客网站&#xff0c;帮助你在 Web 开发中更高效地使用 Django。Django 是一个功能强大的 Python Web…

Spring Boot 应用(官网文档解读)

Spring Boot 启动方式 SpringApplication.run(MyApplication.class, args); Spring Boot 故障分析器 在Spring Boot 项目启动发生错误的时候&#xff0c;我们通常可以看到上面的内容&#xff0c;即 APPLICATION FAILED TO START&#xff0c;以及后面的错误描述。这个功能是通过…

win32汇编环境,对话框中使用菜单示例三

;运行效果 ;win32汇编环境,对话框中使用菜单示例三 ;鼠标点击右键时&#xff0c;弹出菜单的功能 ;直接抄进RadAsm可编译运行。重要部分加备注。 ;下面为asm文件 ;>>>>>>>>>>>>>>>>>>>>>>>>>>&g…

stm32-电源控制

STM32 的 PWR&#xff08;Power Control&#xff09;外设 是用于管理微控制器电源模式和外设电源控制的模块。通过 PWR 外设&#xff0c;可以实现低功耗模式、电压调节、备份域控制等功能&#xff0c;从而优化系统的功耗和性能。 stm32内部电源框图 电源区域 VDD 供电区&#x…

云计算及其他计算

云计算知识思维导图&#xff1a;https://kdocs.cn/l/cpl2Kizx7IyC 云计算的核心判断标准通常基于美国国家标准与技术研究院&#xff08;NIST&#xff09;的定义&#xff0c;并结合实际应用场景。以下是判断一个服务是否为云计算的关键标准&#xff0c;以及对应的服务类型&#…

mysql之B+ 树索引 (InnoDB 存储引擎)机制

b树索引机制 B 树索引 (InnoDB 存储引擎)机制**引言&#xff1a;****1. 数据页结构与查找**2. 索引的引入**3. InnoDB 的 B 树索引****4. InnoDB B 树索引的注意事项****5. MyISAM 的索引方案 (选读&#xff0c;与 InnoDB 做对比)****6. MySQL 中创建和删除索引的语句** **B 树…

量子计算驱动的金融衍生品定价革命:突破传统蒙特卡洛模拟的性能边界

引言&#xff1a;金融计算的算力困局 某国际投行采用128量子位处理器对亚洲期权组合定价时&#xff0c;其量子振幅估计算法在2.7秒内完成传统GPU集群需要68小时的计算任务。在蒙特卡洛路径模拟实验中&#xff0c;量子随机游走算法将10,000维衍生品的价格收敛速度提升4个数量级…

Web刷题之PolarDN(中等)

1.到底给不给flag呢 代码审计 一道典型的php变量覆盖漏洞 相关知识 什么是变量覆盖漏洞 自定义的参数值替换原有变量值的情况称为变量覆盖漏洞 经常导致变量覆盖漏洞场景有&#xff1a;$$使用不当&#xff0c;extract()函数使用不当&#xff0c;parse_str()函数使用不当&…

ShenNiusModularity项目源码学习(12:ShenNius.Common项目分析)

ShenNius.Common项目中主要定义功能性的辅助函数类及通用类&#xff0c;供MVC模式、前后端分离模式下的后台服务使用&#xff0c;以提高编程效率。   ApiResult文件内的ApiResult和ApiResult类定义了通用的数据返回格式&#xff0c;包括状态码、返回消息、返回数据等&#x…

OkHttp使用和源码分析学习(二)

流程及源码分析 OkHttpClient使用过程主要涉及到OkHttpClient、Request、Response、Call、Interceptor&#xff0c;具体参考OkHttp使用。OkHttp在设计时采用门面模式&#xff0c;将整个系统复杂性隐藏&#xff0c;子系统通过OkHttpClient客户端对外提供。 流程 创建 OkHttp…