【漫话机器学习系列】083.安斯库姆四重奏(Anscombe‘s Quartet)

安斯库姆四重奏(Anscombe's Quartet)

1. 什么是安斯库姆四重奏?

安斯库姆四重奏(Anscombe's Quartet)是一组由统计学家弗朗西斯·安斯库姆(Francis Anscombe)1973 年 提出的 四组数据集。它们的均值、方差、回归直线、相关系数等统计量几乎相同,但当绘制成图表时却呈现出完全不同的分布形态

这个四重奏展示了数据可视化的重要性,表明仅凭统计数值不能全面反映数据的真实分布。


2. 数据集示例

安斯库姆的四个数据集如下,每个数据集包含 (x, y) 对

数据集xxx 值yyy 值
第一组10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 58.04, 6.95, 7.58, 8.81, 8.33, 9.96, 7.24, 4.26, 10.84, 4.82, 5.68
第二组10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 59.14, 8.14, 8.74, 8.77, 9.26, 8.10, 6.13, 3.10, 9.13, 7.26, 4.74
第三组10, 8, 13, 9, 11, 14, 6, 4, 12, 7, 57.46, 6.77, 12.74, 7.11, 7.81, 8.84, 6.08, 5.39, 8.15, 6.42, 5.73
第四组8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 86.58, 5.76, 7.71, 8.84, 8.47, 7.04, 5.25, 5.56, 7.91, 6.89, 6.11

尽管这些数据集的均值、方差、相关系数、回归直线 近似相同,但它们的实际分布却大不相同。


3. 统计量分析

对每个数据集计算以下统计量,我们发现它们几乎相等

  • 均值
  • 方差
  • 相关系数
  • 回归直线

尽管统计量相同,但它们的数据分布和图形表现却大相径庭


4. 数据可视化

如果只看统计量,可能会认为四个数据集的分布类似。但当我们绘制散点图时,会看到完全不同的形态:

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns# 加载 Anscombe's Quartet 数据集
anscombe = sns.load_dataset("anscombe")# 创建 2x2 子图
fig, axes = plt.subplots(2, 2, figsize=(10, 8))
fig.suptitle("Anscombe's Quartet")# 子集名称
datasets = ["I", "II", "III", "IV"]# 遍历四个数据集并绘制散点图和回归直线
for i, ax in enumerate(axes.flatten()):data = anscombe[anscombe['dataset'] == datasets[i]]  # 修正筛选方式ax.scatter(data['x'], data['y'], label=f'Dataset {datasets[i]}', color='blue', edgecolor='k')ax.set_title(f"Dataset {datasets[i]}")# 计算回归直线m, b = np.polyfit(data['x'], data['y'], 1)ax.plot(data['x'], m * data['x'] + b, color='red', label="Regression Line")plt.tight_layout()
plt.show()

运行结果

5. 观察四个数据集的不同

从图中可以看出:

  • 数据集 1:正常的线性回归数据分布。
  • 数据集 2:呈现非线性关系,回归直线并不能很好地描述数据趋势。
  • 数据集 3:大多数点与回归直线接近,但存在一个异常值(outlier)
  • 数据集 4:x 值恒定,数据呈现一条垂直线,回归模型毫无意义。

6. 重要性:统计数据 ≠ 数据特性

安斯库姆四重奏的核心思想是:

  1. 统计数值不能完全代表数据分布。必须配合数据可视化进行分析。
  2. 数据可视化可以揭示数据的模式,如线性关系、异常值、非线性分布等
  3. 异常值可能极大地影响回归分析,不能仅依赖统计量进行判断。

7. 结论

  • 仅依赖均值、方差、相关系数等统计数值,可能导致误导性的结论。
  • 进行数据分析时,应结合可视化手段(如散点图、直方图等),直观检查数据的分布。
  • 安斯库姆四重奏提醒我们,数据科学不只是数学统计,还包括数据探索与可视化。

8. 拓展:现代版安斯库姆四重奏

在 2017 年,Alberto Cairo 提出了“Datasaurus Dozen”,扩展了安斯库姆四重奏的思想。它展示了一组具有相同统计量但形态完全不同的数据集,其中包括:

  • 恐龙形状
  • 圆形分布
  • 星形分布
  • 水平线形分布

👉 核心思想仍然是:数据可视化远比仅依赖统计数值更重要。


9. 总结

主题说明
安斯库姆四重奏4 组数据集,统计特性相似但分布不同
均值、方差、相关系数统计量不能完全代表数据特征
可视化的重要性必须结合数据可视化(散点图等)
数据分布差异可能是非线性、异常值、特定形态
现代扩展“Datasaurus Dozen” 进一步说明数据可视化的重要性

🚀 数据分析不仅仅是计算统计量,数据可视化同样不可忽视!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/14256.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Postman接口测试:全局变量/接口关联/加密/解密

全局变量和环境变量 全局变量:在postman全局生效的变量,全局唯一 环境变量:在特定环境下生效的变量,本环境内唯一 设置: 全局变量: pm.globals.set("variable_key", "variable_value1&q…

ZZNUOJ(C/C++)基础练习1081——1090(详解版)

目录 1081 : n个数求和 (多实例测试) C C 1082 : 敲7(多实例测试) C C 1083 : 数值统计(多实例测试) C C 1084 : 计算两点间的距离(多实例测试) C C 1085 : 求奇数的乘积(多实例测试…

STM32的HAL库开发---高级定时器

一、高级定时器简介 1、STM32F103有两个高级定时器,分别是TIM1和TIM8。 2、主要特性 16位递增、递减、中心对齐计数器(计数值:0~65535)16位预分频器(分频系数:1~65536)可用于触发DAC、ADC在更新事件、触发事件、输入捕获、输出比较时,会产生中断/DMA请…

数据库系统架构与DBMS功能探微:现代信息时代数据管理的关键

欢迎大家来访Srlua的博文(づ ̄3 ̄)づ╭~ ??? 欢迎各位亲爱的读者,感谢你们抽出宝贵的时间来阅读我的文章。 我是Srlua,在这里我会分享我的知识和经验。?? 希望在这里,我们能一起探…

优惠券平台(一):基于责任链模式创建优惠券模板

前景概要 系统的主要实现是优惠券的相关业务,所以对于用户管理的实现我们简单用拦截器在触发接口前创建一个单一用户。 // 用户属于非核心功能,这里先通过模拟的形式代替。后续如果需要后管展示,会重构该代码 UserInfoDTO userInfoDTO new…

搭建集成开发环境PyCharm

1.下载安装Python(建议下载并安装3.9.x) https://www.python.org/downloads/windows/ 要注意勾选“Add Python 3.9 to PATH”复选框,表示将Python的路径增加到环境变量中 2.安装集成开发环境Pycharm http://www.jetbrains.com/pycharm/…

模板的进阶

非类型模板参数 模板参数分类类型形参与非类型形参 。 类型形参即:出现在模板参数列表中,跟在 class 或者 typename 之类的参数类型名称 。 非类型形参,就是用一个常量作为类 ( 函数 ) 模板的一个参数,在类 ( 函数 ) 模板中可将…

windows安装linux子系统【ubuntu】操作步骤

1.在windows系统中开启【适用于Linux的Windows子系统】 控制面板—程序—程序和功能—启用或关闭Windows功能—勾选适用于Linux的Windows子系统–确定 2.下载安装Linux Ubuntu 22.04.5 LTS系统 Ununtu下载链接 3.安装完Ununtu系统后更新系统 sudo apt update4.进入/usr/l…

【大数据技术】搭建完全分布式高可用大数据集群(Kafka)

搭建完全分布式高可用大数据集群(Kafka) kafka_2.13-3.9.0.tgz注:请在阅读本篇文章前,将以上资源下载下来。 写在前面 本文主要介绍搭建完全分布式高可用集群 Kafka 的详细步骤。 注意: 统一约定将软件安装包存放于虚拟机的/software目录下,软件安装至/opt目录下。 安…

万字详解 MySQL MGR 高可用集群搭建

文章目录 1、MGR 前置介绍 1.1、什么是 MGR1.2、MGR 优点1.3、MGR 缺点1.4、MGR 适用场景 2、MySQL MGR 搭建流程 2.1、环境准备2.2、搭建流程 2.2.1、配置系统环境2.2.2、安装 MySQL2.2.3、配置启动 MySQL2.2.4、修改密码、设置主从同步2.2.5、安装 MGR 插件 3、MySQL MGR 故…

Linux高级IO

文章目录 🥥IO的基本概念🍇钓鱼五人组🍈五种IO模型🍉高级IO重要概念同步通信 VS 异步通信阻塞 VS 非阻塞 🍊其他高级IO🍋阻塞IO🍋‍🟩非阻塞IO 🥥IO的基本概念 什么是IO…

摄像头模块烟火检测

工作原理 基于图像处理技术:分析视频图像中像素的颜色、纹理、形状等特征。火焰通常具有独特的颜色特征,如红色、橙色等,且边缘呈现不规则形状,还会有闪烁、跳动等动态特征;烟雾则表现为模糊、无固定形状,…

4.3 线性回归的改进-岭回归/4.4分类算法-逻辑回归与二分类/ 4.5 模型保存和加载

4.3.1 带有L2正则化的线性回归-岭回归 岭回归,其实也是一种线性回归,只不过在算法建立回归方程的时候1,加上正则化的限制,从而达到解决过拟合的效果 4.3.1.1 API 4.3.1.2 观察正则化程度的变化,对结果的影响 正则化力…

CSS outline详解:轮廓属性的详细介绍

什么是outline? outline(轮廓)是CSS中一个有趣的属性,它在元素边框(border)的外围绘制一条线。与border不同的是,outline不占用空间,不会影响元素的尺寸和位置。这个特性使它在某些…

设计模式.

设计模式 一、介绍二、六大原则1、单一职责原则(Single Responsibility Principle, SRP)2、开闭原则(Open-Closed Principle, OCP)3、里氏替换原则(Liskov Substitution Principle, LSP)4、接口隔离原则&am…

硬件工程师思考笔记02-器件的隐秘角落:磁珠与电阻噪声

目录 引言 一、磁珠:你以为的“噪声克星”,可能是高频杀手 1. 磁珠的阻抗特性与误区 2. 案例:磁珠引发的5G射频误码率飙升 二、电阻:静默的噪声制造者 1. 电阻噪声的两种形态 2. 案例:ADC精度被电阻噪声“偷走” 三、设…

mysql 不是内部或外部命令,也不是可运行的程序或批处理文件

mysql 不是内部或外部命令,也不是可运行的程序或批处理文件 前言描述1、🌱环境变量配置(高级系统设置):2、🌱环境变量配置(系统属性):3、🌱环境变量配置&…

极客说|利用 Azure AI Agent Service 创建自定义 VS Code Chat participant

作者:卢建晖 - 微软高级云技术布道师 「极客说」 是一档专注 AI 时代开发者分享的专栏,我们邀请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」&a…

在rtthread中,scons构建时,它是怎么知道是从rtconfig.h找宏定义,而不是从其他头文件找?

在rtthread源码中,每一个bsp芯片板级目录下都有一个 SConstruct scons构建脚本的入口, 在这里把rtthread tools/目录下的所有模块都添加到了系统路径中: 在tools下所有模块中,最重要的是building.py模块,在此脚本里面…

Redis基础--常用数据结构的命令及底层编码

零.前置知识 关于时间复杂度,按照以下视角看待. redis整体key的个数 -- O(N)当前key对应的value中的元素个数 -- O(N)当前命令行中key的个数 -- O(1) 一.string 1.1string类型常用命令 1.2string类型内部编码 二.Hash 哈希 2.1hash类型常用命令 2.2hash类型内部编码 2.3ha…