(五)机器学习 - 数据分布

数据分布(Data Distribution)是指数据在不同值或值区间内的分布情况,它描述了数据点在整个数据集中是如何分散或集中的。数据分布可以通过多种方式来分析和表示,包括图形和数值方法。

常见的数据分布特征和描述数据分布的方法:

  1. 对称性

    • 对称分布:数据在均值(平均值)或中位数周围对称分布,即数据的左半部分是右半部分的镜像。正态分布是对称分布的一个典型例子。
    • 偏斜分布:数据不是对称的,可能向右(正偏斜)或向左(负偏斜)延伸。正偏斜意味着数据的尾部在右侧,而负偏斜意味着数据的尾部在左侧。
  2. 集中趋势

    • 均值(Mean):所有数据点的平均值。
    • 中位数(Median):将数据点按大小排序后位于中间位置的值。
    • 众数(Mode):数据集中出现次数最多的值。
  3. 离散程度

    • 方差(Variance):衡量数据点偏离均值的程度,方差越大,数据越分散。
    • 标准差(Standard Deviation):方差的平方根,与原始数据具有相同的单位,用于衡量数据的离散程度。
    • 极差(Range):数据集中最大值和最小值之间的差。
  4. 形状

    • 数据分布的形状可以是多种多样的,包括正态分布、偏斜分布、双峰分布、均匀分布等。
  5. 图形表示

    • 直方图(Histogram):用条形图表示数据在不同区间的频率或数量。
    • 箱线图(Boxplot):显示数据的最小值、第一四分位数(Q1)、中位数、第三四分位数(Q3)和最大值,以及可能的异常值。
    • 散点图(Scatter Plot):显示两个变量之间的关系。
    • 密度图(Density Plot):平滑的曲线,显示数据的分布密度。
  6. 数值表示:

    • 百分位数(Percentiles):数据中低于某个值的百分比。
    • 四分位数(Quartiles):将数据分为四等份,每份包含25%的数据点。

 

例子:

1、Ptython 创建一个包含 250 个介于 0 到 5 之间的随机浮点数的数组: 

import numpyx = numpy.random.uniform(0.0, 5.0, 250)print(x)

 2、使用 Python 模块 Matplotlib 绘制直方图:

import numpy
import matplotlib.pyplot as pltx = numpy.random.uniform(0.0, 5.0, 250)plt.hist(x, 5)
plt.show()

直方图解释:

我们使用上例中的数组绘制 5 条柱状图。

第一栏代表数组中有多少 0 到 1 之间的值。

第二栏代表有多少 1 到 2 之间的数值。

得到的结果是:

52 values are between 0 and 1
48 values are between 1 and 2
49 values are between 2 and 3
51 values are between 3 and 4
50 values are between 4 and 5

 数组值是随机数,不会在您的计算机上显示完全相同的结果。

END. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/490730.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【恶意软件检测论文】用于 Android 恶意软件检测的混合 ML-DL 方法

目录 摘要1. 引言2. 文献综述传统检测方法机器学习方法混合方法最新进展移动恶意软件检测的挑战 3. 问题陈述4. 研究目标5. 提出的方法论1. 数据集获取2. 数据预处理3. 特征工程和选择4. 模型实现5. 模型评估6. 比较和分析 6. 结论 用于 Android 恶意软件检测的混合 ML-DL 方法…

Linux网络 UDP socket

背景知识 我们知道, IP 地址用来标识互联网中唯一的一台主机, port 用来标识该主机上唯一的一个网络进程,IPPort 就能表示互联网中唯一的一个进程。所以通信的时候,本质是两个互联网进程代表人来进行通信,{srcIp&…

STM32F407+LAN8720A +LWIP +FreeRTOS UDP通讯

STM32F407+LAN8720A +LWIP +FreeRTOS ping通 上一篇实现了LWIP ping 通 本篇实现UDP通讯 实现如下功能: 串口1空闲中断+DMA接收,收到数据用UDP发送UDP接收,收到数据用串口1发送STM32CUBEIDE配置和代码 1. 配置UARAT1的空闲中断+DMA接收 UART1接收到数据,释放信号量,在任…

Git-基础操作命令

目录 Git基础操作命令 case *查看提交日志 log 版本回退 get add . Git基础操作命令 我们创建并且初始化这个仓库以后,我们就要在里面进行操作。 Git 对于文件的增删改查存在几个状态,这些修改状态会随着我们执行Git的命令而发生变化。 untracked、…

简单的Java_Swing小项目

Swing小项目 无需任何额外配置,直接可以在eclipse用 非常简单的文件结构 简单的登录界面 进去后就大概是这么个样子 很久以前写的了,我就不一一打开展示了。内容和无UI版本差不多,只是用简单的Swing实现了界面化操作 数据是可以保存在…

回归任务与分类任务应用及评价指标

能源系统中的回归任务与分类任务应用及评价指标 一、回归任务应用1.1 能源系统中的回归任务应用1.1.1 能源消耗预测1.1.2 负荷预测1.1.3 电池健康状态估计(SOH预测)1.1.4 太阳能发电量预测1.1.5 风能发电量预测 1.2 回归任务中的评价指标1.2.1 RMSE&…

嵌入式学习(18)-stm32F407串口接收空闲中断+DMA

一、概述 在一些一次性接收大批量数据的引用场合,如果使用接收中断会频繁的进入接收中断影响代码的运行效率。为了解决这个问题可以使用串口的空闲中断DMA实现。 二、应用 在网上招了一些例程在STM32F407的平台上都没有跑通会出现各种异常,主要原因还…

Docker的镜像

目录 1. 镜像是什么??2. 镜像命令详解2.1 镜像命令清单2.2 docker rmi命令2.3 docker save命令2.4 docker load命令2.5 docker history命令2.6 docker import命令2.7 docker image prune命令2.8 docker build命令 3. 镜像的操作4. 离线迁移镜像5. 镜像存…

Git版本控制工具--介绍及安装

1.Git的简介 Git是目前世界上最先进的的分布式控制系统(没有之一)。 很多人都知道,Linus在1991年创建了开源的Linux,从此,Linux系统不断发展,已经成为最大的服务器系统软件了。 Linus虽然创建了Linux&…

【OJ题解】面试题三步问题

个人主页: 起名字真南的CSDN博客 个人专栏: 【数据结构初阶】 📘 基础数据结构【C语言】 💻 C语言编程技巧【C】 🚀 进阶C【OJ题解】 📝 题解精讲 目录 **题目链接****解题思路****1. 问题分析****2. 递归思路****3. 优化方案&a…

CTFHub解题笔记之Web信息泄露篇:11.HG泄露

1.题目描述 题目位置 网页显示 2.解题思路 ‌HG泄露是指Mercurial版本控制系统中的敏感信息被未经授权的个人或系统访问的情况。Mercurial(翻译过来是水银,所以通常简称为HG)是一种分布式版本控制系统,用于管理软件源代码或其…

linux网络编程 | c | 多线程并发服务器实现

多线程并发服务器 基于该视频完成 12-多线程并发服务器分析_哔哩哔哩_bilibili 通过的是非阻塞忙轮询的方式实现的 和阻塞等待的区别就是,阻塞是真的阻塞了,而这个方式是一直在问有没有请求有没有请求 linux | c | 多进程并发服务器实现-CSDN博客 …

R语言——缺失值处理

目录 缺失数据 1 R中的缺失值 2查看缺失值is.na() 3 去除缺失值 1 R中的缺失值 在R中,NA代表缺失值,NA是不可用(可能是0,可能是其他值,NA是未知的),notavailable的简称,用来存储…

快速上手:利用 FFmpeg 合并音频文件的实用教程

FFmpeg 是一个强大的多媒体处理工具,能够轻松地对音频、视频进行编辑和转换。本文将介绍如何使用 FFmpeg 来合并(拼接)多个音频文件为一个单一文件。无论您是想要创建播客、音乐混音还是其他任何形式的音频项目,这都是一个非常实用…

常见软件设计模式介绍:三层架构、MVC、SSM、EDD、DDD

三层架构(View Service Dao) 三层架构是指:视图层 view(表现层),服务层 service(业务逻辑层),持久层 Dao(数据访问层) 表现层:直接跟前…

重庆轨道交通2号线建桥地铁站自动化监测

1. 项目概述 本次项目位于重庆市轨道交通2号线中大渡口区的建桥站,轨道交通2号线是重庆市首条开通运营的城市轨道交通,也是中国首条开通运营的跨座式单轨线路。建桥站为轨道交通2号线延长线中的一站,本站为高架侧式,临近恒大麓山…

一、LRU缓存

LRU缓存 1.LRU缓存介绍2.LRU缓存实现3.LRU缓存总结3.1 LRU 缓存的应用3.2 LRU 缓存的优缺点 1.LRU缓存介绍 LRU是Least Recently Used 的缩写,意为“最近最少使用”。它是一种常见的缓存淘汰策略,用于在缓存容量有限时,决定哪些数据需要被删…

噪杂环境(房车改装市场)离线语音通断器模块

一直在坚持,却很难有机会上热门,在现在这个以流量为导向的时代,貌似很难靠所谓的坚守和热爱把产品成功的推向市场了。目前的客户仍然是以老客户为主,应用场景主要是房车改装,根据九客户的需求定制化一些模块。因为没有…

Rust之抽空学习系列(四)—— 编程通用概念(下)

Rust之抽空学习系列(四)—— 编程通用概念(下) 1、函数 函数用来对功能逻辑进行封装,能够增强复用、提高代码的可读 以下是函数的主要组成部分: 名称参数返回类型函数体 1.1、函数名称 在Rust中&…

深入了解IPv6——光猫相关设定:DNS来源、DHCPv6服务、前缀来源等

光猫IPv6设置后的效果对比图: 修改前: 修改后: 一、DNS来源 1. 网络连接 来源: 从上游网络(如运营商)获取 IPv6 DNS 信息,通过 PPPoE 或 DHCPv6 下发。 特点: DNS 服务器地址直…