工业大数据分析算法实战-day04

文章目录

  • day04
    • 统计分析
      • 概率分布
      • 参数估计
      • 假设检验
    • 统计分布拟合
      • 1.基于核函数的非参数方法
      • 2. 单概率分布的参数化拟合
      • 3. 混合概率分布估计
    • 线性回归模型
      • 1. OLS模型(普通最小二乘法)
      • 2. OLS模型检验
      • 3. 鲁棒线性回归
      • 4. 结构复杂度惩罚(正则化)
      • 5. PLS、LOESS回归、Kernel方法

day04

今天是学习该书籍的第4天,昨日2章节毕,开启第3章节-机器学习算法。ML是一类自动分析数据并获取规律,利用规律对未知数据进行预测的算法,类别可分为:有监督(分类、回归问题)、无监督(聚类、关联规则问题)、半监督、强化学习。当然ML的理论基础是来源于统计学、最优化等基础算法学科,该章节只列举了典型的算法,并不是穷举。

统计分析

统计分析主要分为:

  • 描述性统计:使用图表和数值方法会在和描述数据
    • 数据的概括性度量指标:分布集中趋势(均数、中位数、众数、分位数)、分布离散(方差/标准差、变异系数、MAE/RMSE)、分布形态(偏度、峰度)、变量线性相关关系(协方差、相关系数)
    • 数据图形展示:数据分析(分类/顺序变量使用饼图、图形图,数值变量使用直方图、盒须图、茎叶图),比较/相关(分类/顺序变量使用side-by-side条形图、堆叠条形图,数值变量使用散点图、趋势线)
  • 推断统计:利用样本数据推断总体特征的统计方法,实际上就是抽样,对总体分布进行参数估计和假设检验

假设总体的概率分布为pθ,θ就是概率分布的参数集合,pθ称为统计模型,根据θ参数空间数学性质,可分为以下两种,

  • 参数统计模型:参数集属于有限维空间,维度称为该统计模型的自由度
  • 非参数统计模型:参数集属于无穷维空间,常见的思路有核函数(使用局部相似)、随机仿真(蒙特卡罗方法),举个例子:在时序预测的时候常常有上下预测的置信区间,就是通过分解误差项进行建模,与原始项相加生成新的序列

概率分布

参数统计模型中可以有很小的参数空间拟合数据分布,所以第一步就是通过观察统计实验样本的直方图,从众多概率分布图中选择一个有参数分布作为假设分布

  • 常见的离散分布:二项分布、泊松分布、几何分布
  • 常见的连续分布:均匀分布、正态分布、t分布、χ2分布、F分布、指数分布等

大概流程判断:数据离散还是连续—>数据是否对称,如果不对称是正偏斜还是负偏斜—>数据是否有上下界—>数据极端值的分布情况。

image-20241214201016738

参数估计

通过样本数据量估计总体参数,参数估计可采用参数化模型,单总体(关心单一总体的某个参数,例如平均值、比例或方差)和双总体参数估计(关心两个总体之间参数的差异,比如均值差、比例差或方差比)和使用分布如下

image-20241214202244870

非参数方法可以使用随机采用的方法,把当前样本作为总体,不放回的抽取一些样本来做统计分析,比如Bootstrap(自助法)、Jackknife(刀切法)

假设检验

和参数估计想法一致,也是样本对总体进行推断,但是假设检验是线提出假设,然后通过样本信息验证假设成立。按照总体是否已知,假设检验可分为参数检验和非参数检验

image-20241214202942595

方面参数估计假设检验
定义通过样本数据估计总体参数的值。对关于总体参数的假设进行检验。
目标估计总体参数(如均值、方差)。判断假设是否成立(接受或拒绝假设)。
结果给出参数的点估计或区间估计。给出是否接受或拒绝原假设的结论。
统计方法使用点估计公式或置信区间公式。使用统计检验方法(如z检验、t检验等)。
示例估计平均身高为170cm。检验“平均身高是否等于170cm”。
联系参数估计为假设检验提供统计量和基础信息。假设检验的过程通常会依赖参数估计的结果。

参数估计 侧重于“估计”总体参数的值,通过样本给出点估计或区间估计。假设检验 侧重于“判断”某个关于总体参数的假设是否成立,通过统计检验做出决策。

统计分布拟合

参数估计假设检验可以帮助你了解总体的参数值(如均值、方差等)和检验假设是否成立,但它们并没有告诉你数据的 分布特性统计分布拟合的作用是帮助你 识别数据的真实分布,这样你就可以选择正确的统计方法进行分析,确保你的结论更准确、更符合实际情况。

举个例子,假设你要研究某工厂的生产设备的寿命。你做了以下分析:

  1. 参数估计:你用样本数据计算了设备的平均寿命,估计了一个总体均值。
  2. 假设检验:你假设设备的寿命大于50天,然后进行假设检验。

到这里,你只是了解了设备寿命的均值以及是否超过50天,但你并不清楚 设备寿命的具体分布是什么,比如是否有些设备寿命极短,而有些设备寿命特别长。这些信息对于后续的决策和预测非常重要。

这时,你可以进行 统计分布拟合

  • 你通过分布拟合分析,发现设备寿命服从 指数分布
  • 那么,你就可以根据 指数分布 来进一步计算设备发生故障的概率、寿命的可靠性分析等。

1.基于核函数的非参数方法

非参数方法不假设数据服从任何特定的概率分布,而是通过数据本身进行建模。基于核函数的非参数方法是一种常用的非参数估计方法,它通过使用一个核函数(如高斯核、均匀核等)来估计数据的概率密度函数(PDF)。这种方法的优点是能够灵活地拟合各种形态的分布,不需要假设数据来自于某个特定分布。

案例:假设你收集了一组数据,想要估计数据的分布情况,但你不确定数据服从正态分布、指数分布等任何已知分布。你可以使用核密度估计(Kernel Density Estimation, KDE)来估计数据的概率密度函数。这种方法通过在每个数据点附近放置一个“核”(通常是高斯核),并将所有核的贡献加起来,得到数据的平滑概率密度曲线。

  • 应用场景:核密度估计广泛用于数据分析中的探索性数据分析(EDA)。例如,在对某个地区的收入数据进行分析时,可以通过核密度估计查看收入的分布形态,发现收入是否呈现偏态分布、双峰分布等。

2. 单概率分布的参数化拟合

单概率分布的参数化拟合是指通过样本数据来估计某个特定概率分布(如正态分布、指数分布、泊松分布等)的参数。通常,基于一些假设(如数据符合正态分布),你使用样本数据来估计该分布的参数(如均值、方差、率参数等)。这种方法假设数据来源于一个具体的概率分布,因此它的适用前提是你能够确认或合理假设数据的分布类型。

案例:假设你有一组产品的寿命数据,且根据先验知识,认为这些产品的寿命服从 正态分布。你可以使用最大似然估计(MLE)或最小二乘法来估计正态分布的均值方差。一旦你获得了这些参数,就可以利用这个已知的分布模型来进行进一步的推断,比如计算产品寿命超过一定时间的概率。

  • 应用场景:比如在金融领域,常假设股价收益服从正态分布。你可以根据历史数据估计收益率的均值和方差,以便进行风险管理和资产配置。

3. 混合概率分布估计

混合概率分布是指由多个不同的分布组成的模型。在实际数据中,可能存在多个子群体,每个子群体的数据都服从不同的分布(如正态分布、指数分布等)。混合分布方法通过将这些不同的分布组合起来,来更好地拟合和描述数据的复杂结构。混合分布估计可以使用最大似然估计(MLE)等方法来估计各个子分布的参数和它们的权重。

案例:假设你正在分析一组人的身高数据,这些人来自不同的年龄段(如儿童、青少年和成年人)。每个年龄段的身高可能服从不同的正态分布。如果你将所有年龄段的人混合在一起,你可能得到一个 混合正态分布,即数据的分布可以看作是多个正态分布的加权平均。

  • 应用场景:混合分布模型在很多实际应用中都很常见。例如,在市场细分中,不同消费者群体的行为模式可能不同,可以使用混合分布来对这些群体进行建模;或者在医学中,患者的症状可能来源于不同类型的疾病,混合分布可以帮助我们从多个潜在病因中估计数据。
方法类型特点适用场景例子
基于核函数的非参数方法不假设数据服从任何特定分布,通过核函数估计数据的密度函数适用于数据分布未知,且无需假设具体的分布类型核密度估计,估计收入分布
单概率分布的参数化拟合假设数据服从某个已知分布,估计该分布的参数适用于已知或假定数据服从某个已知分布的情况正态分布参数估计(如估计产品寿命的均值和方差)
混合概率分布估计数据来自多个子群体,每个子群体的数据服从不同的分布适用于数据存在多个子群体,每个子群体的分布不同混合正态分布(如儿童、青少年和成人的身高数据分析)

线性回归模型

1. OLS模型(普通最小二乘法)

普通最小二乘法(OLS)是最基本的回归分析方法,目的是通过最小化预测值和实际观测值之间的误差平方和,找到一个拟合数据的最佳线性关系。假设你有一组数据,想知道自变量(比如设备的运行参数)如何影响因变量(比如机房的温度)。

  • 参数的置信区间:在回归模型中,每个自变量都会有一个“参数”(比如,设备运行功率对温度的影响程度)。置信区间告诉你你对这个参数估计的精确程度。比如,你预测设备功率增加1千瓦,机房温度增加0.5℃,95%的置信区间是[0.4℃, 0.6℃],这就意味着你95%的信心温度增幅会在这个范围内。
  • 参数与模型的显著度:显著度检验(通常用p值)判断你估计的参数是不是有意义的。如果p值小于0.05,意味着该自变量(比如设备功率)对温度的影响是显著的,可以放心地将其纳入模型。
  • 模拟的拟合优度(决定系数)表示模型能够解释多少数据的波动。比如,R²=0.85意味着你用模型预测温度,能够解释85%的温度变化。

例子:假设你想了解机房内温度如何受到不同设备的运行状态(如运行功率、风扇转速等)影响。你可以使用OLS模型建立一个回归方程,来预测机房温度与设备参数之间的关系。如果你得到的回归系数表示设备功率增加1千瓦,温度上升0.3℃,并且这个系数的p值小于0.05,说明这个关系是显著的。

2. OLS模型检验

4个统计假设检验:

  • 正态性:回归模型的误差项应该服从正态分布。如果误差不正态,回归结果可能不可靠。在机房场景中,如果温度的变化误差不服从正态分布,可能说明模型的假设不成立。
  • 独立性:数据点之间应该是独立的。如果不同设备的故障数据或温度数据相互关联,回归结果也可能失真。在机房里,如果设备之间存在某种依赖关系(如中央空调温度波动会影响其他设备的温度),需要特别注意。
  • 线性:模型假设自变量与因变量之间是线性关系。如果设备的功率和温度之间不是简单的线性关系(比如温度变化呈现出非线性的增长),OLS模型可能不适用。
  • 同方差性:模型的误差应该有相同的波动范围。如果机房温度变化在不同时间段的波动范围不一致(比如高温期的温度变化大),则可能存在异方差,OLS结果会受到影响。

例子:假设你在回归模型中使用了设备功率和风扇转速来预测机房的温度。如果你发现模型的误差图形呈现出非正态分布,或者随着时间变化波动增大,那么你就需要对模型的假设进行检验并做相应调整。

多重共线性(VIF检验):

当多个自变量之间存在很强的相关性时,回归模型可能会不稳定。比如设备的功率和风扇转速有很强的相关性,如果同时将它们放入回归模型中,可能会导致多重共线性问题。

  • VIF(方差膨胀因子)是用来检测多重共线性的方法。如果VIF值过大,说明这些自变量之间相关性太强,需要做调整(例如去除某些变量)。

例子:假设你有设备功率和风扇转速两个变量,它们高度相关(风扇转速与设备功率直接相关),那么这两个变量一起进入回归模型时,可能导致共线性问题。通过VIF检验,如果发现VIF过高,就需要调整模型,去除其中一个变量。

3. 鲁棒线性回归

传统的OLS回归对异常值非常敏感(比如机房中某次极端的设备故障可能影响温度变化)。鲁棒回归通过一些方法减少这些异常值的影响,得到更稳健的结果。

  • 分位数回归:与OLS回归只关注平均值不同,分位数回归关注数据的中位数(50%分位数)或者其他百分位数。这对于处理存在异常值的数据非常有用。
  • M估计与MM估计:这些方法是鲁棒回归的技术,通过加权或者调整方法,减少异常点对回归结果的影响。M估计通过改变样本中某些点的权重来降低异常值的影响。
  • LMS与LTS算法:这些算法通过对数据集进行加权和优化,减少极端值的影响,使得回归模型更稳定。

例子:如果机房设备在某个时间段出现故障,导致温度异常高(例如40℃),而这些异常值可能会影响回归模型的拟合,导致结果不可靠。使用鲁棒回归方法(如分位数回归或者M估计),可以减少这些极端温度值的影响,得到更为准确的回归模型。

4. 结构复杂度惩罚(正则化)

正则化方法可以防止模型过拟合,即模型太过复杂,以至于“记住”了训练数据中的噪声。在机房温度预测中,正则化可以帮助你减少不必要的变量,从而避免过拟合。

  • L1正则化(Lasso回归):Lasso回归通过加上一个惩罚项,减少不重要的自变量系数,甚至将一些系数收缩为零,从而进行特征选择。
  • L2正则化(Ridge回归):Ridge回归通过加权自变量的平方,避免过度依赖某些变量,从而避免过拟合。

例子:如果你在回归模型中使用了很多设备参数(如功率、风速、温度、湿度等),但其中有些参数对预测机房温度影响很小。使用Lasso回归可以自动剔除这些不重要的参数,确保模型不复杂且更易于解释。

5. PLS、LOESS回归、Kernel方法

  • PLS回归:适用于自变量之间高度相关的情况。比如,如果设备功率和风速两者之间高度相关,使用PLS回归可以帮助你更好地建模。

    • 例子:假设你在预测机房温度时,设备功率和风速是高度相关的,使用PLS回归可以帮助你解决多重共线性问题。
  • LOESS回归:归是一种局部加权回归方法,适合于数据之间关系复杂或非线性的情况。如果你认为设备功率与温度之间的关系不是简单的线性关系,LOESS回归可以帮助你建立一个更加灵活的模型。

    • 例子:假设温度与风速之间的关系不是线性的,使用LOESS回归可以帮助你拟合非线性关系。
  • Kernel方法:用于非线性回归。比如,机房中某些设备的影响可能并不是线性的,可以使用支持向量回归(SVR)等Kernel方法来建立更加复杂的模型。

    • 如果设备的多种运行参数共同影响温度,且影响关系复杂,Kernel方法可以帮助你捕捉这些复杂的非线性关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/489940.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Golang】Go语言编程思想(六):Channel,第四节,Select

使用 Select 如果此时我们有多个 channel,我们想从多个 channel 接收数据,谁来的快先输出谁,此时应该怎么做呢?答案是使用 select: package mainimport "fmt"func main() {var c1, c2 chan int // c1 and …

Python中的OpenCV详解

文章目录 Python中的OpenCV详解一、引言二、OpenCV基础操作1、OpenCV简介2、安装OpenCV3、图像读取与显示 三、图像处理技术1、边缘检测2、滤波技术 四、使用示例1、模板匹配 五、总结 Python中的OpenCV详解 一、引言 在当今数字化社会中,图像处理和计算机视觉技术…

基于python的Selenium webdriver环境搭建(笔记)

一、PyCharm安装配置Selenium环境 本文使用环境:windows11、Python 3.8.1、PyCharm 2019.3.3、Selenium 3.141.0 测试开发环境搭建综述 安装python和pycharm安装浏览器安装selenium安装浏览器驱动测试环境是否正确 这里我们直接从第三步开始 1.1 Seleium安装 …

LLMC:大语言模型压缩工具的开发实践

关注:青稞AI,学习最新AI技术 青稞Talk主页:qingkelab.github.io/talks 大模型的进步,正推动我们向通用人工智能迈进,然而庞大的计算和显存需求限制了其广泛应用。模型量化作为一种压缩技术,虽然可以用来加速…

【渗透测试】信息收集二

其他信息收集 在渗透测试中,历史漏洞信息收集是一项重要的工作,以下是相关介绍: 历史漏洞信息收集的重要性 提高效率:通过收集目标系统或应用程序的历史漏洞信息,可以快速定位可能存在的安全问题,避免重复…

TQ15EG开发板教程:使用SSH登录petalinux

本例程在上一章“创建运行petalinux2019.1”基础上进行,本例程将实现使用SSH登录petalinux。 将上一章生成的BOOT.BIN与imag.ub文件放入到SD卡中启动。给开发板插入电源与串口,注意串口插入后会识别出两个串口号,都需要打开,查看串…

微信小程序5-图片实现点击动作和动态加载同类数据

搜索 微信小程序 “动物觅踪” 观看效果 感谢阅读,初学小白,有错指正。 一、功能描述 a. 原本想通过按钮加载背景图片,来实现一个可以点击的搜索button,但是遇到两个难点,一是按钮大小调整不方便(网上搜索…

学习笔记:从ncsi/nc-si协议和代码了解网络协议的设计范式

学习笔记:从ncsi/nc-si协议和代码了解网络协议的设计范式 参考文档: https://www.dmtf.org/standards/published_documents https://www.dmtf.org/dsp/DSP0222 https://www.dmtf.org/sites/default/files/standards/documents/DSP0222_1.2.0.pdf参考代…

3D 生成重建030-SV3D合成环绕视频以生成3D

3D 生成重建030-SV3D合成环绕视频以生成3D 文章目录 0 论文工作1 论文方法2 实验结果 0 论文工作 论文提出了Stable Video 3D (SV3D)——一个用于生成围绕三维物体的高分辨率图像到多视角视频的潜在视频扩散模型。最近关于三维生成的文献提出了将二维生成模型应用于新视图合成…

3D 生成重建035-DiffRF直接生成nerf

3D 生成重建035-DiffRF直接生成nerf 文章目录 0 论文工作1 论文方法2 实验结果 0 论文工作 本文提出了一种基于渲染引导的三维辐射场扩散新方法DiffRF,用于高质量的三维辐射场合成。现有的方法通常难以生成具有细致纹理和几何细节的三维模型,并且容易出…

Spark执行计划解析后是如何触发执行的?

在前一篇Spark SQL 执行计划解析源码分析中,笔者分析了Spark SQL 执行计划的解析,很多文章甚至Spark相关的书籍在讲完执行计划解析之后就开始进入讲解Stage切分和调度Task执行,每个概念之间没有强烈的关联,因此这中间总感觉少了点…

探索Python的魔法工具箱:functools

文章目录 探索Python的魔法工具箱:functools背景库介绍安装简单库函数使用方法lru_cachepartialreducecmp_to_keytotal_ordering 场景应用缓存数据库查询结果固定函数参数计算序列的累积和自动补全比较方法将比较函数转换为key函数 常见Bug及解决方案Bug 1: lru_cac…

leetcode 3266 K次乘运算后的最终数组II 题解

题目大意 原题面 给你一个数组 nums,然后进行 k 轮游戏,每轮游戏都会选择数组当中最小的元素然后乘上一个数 multiplier(题目给出),问你 k 轮游戏结束之后,这个数组长什么样子,所有的元素要对 …

事务管理与锁机制

title: 事务管理与锁机制 date: 2024/12/14 updated: 2024/12/14 author: cmdragon excerpt: 在数据库系统中,事务管理至关重要,它确保多个数据库操作能够作为一个单一的逻辑单元来执行,从而维护数据的一致性和完整性。一个良好的事务管理系统能够解决并发操作带来的问题…

各种消息中间件介绍

消息中间件是一种在分布式系统中实现消息传递的软件架构,它允许不同的应用程序或系统组件之间异步地交换信息。 1. Apache Kafka Kafka是一个分布式流处理平台,能够处理高吞吐量的数据。它主要用于构建实时数据管道和流应用程序。 • Broker:…

mall-admin-web开源项目搭建教程(图文)

本章教程,介绍如何在本地部署运行mall-admin-web这个开源项目。 开源地址:https://gitee.com/macrozheng/mall-admin-web mall-admin-web是一个电商后台管理系统的前端项目,基于Vue+Element实现。主要包括商品管理、订单管理、会员管理、促销管理、运营管理、内容管理、统计…

使用FastGPT制做一个AI网站日志分析器

越来越的多网站面临每天上千次的扫描和各类攻击,及时发现攻击IP,并有效的屏蔽不良访问成为网站安全的重要保障,这里我们使用AI来完成对网站日志的日常分析。 我们来使用FastGPT来制做一个AI网站日志析器,下面就开始: …

npm : 无法加载文件 D:\nodejs\npm.ps1

问题描述 npm run serve 启动一个Vue项目,报错如下: npm : 无法加载文件 D:\nodejs\npm.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.microsoft.com/fwlink/? LinkID135170 中的 about_Execution_Policies。…

UE4_贴花_贴花基础知识一

贴花可以将材料和各种材料元素投影到表面上。您可以使用它们来添加独特的效果。贴花 是一种可以投射到网格体(包括静态网格体和骨骼网格体)上的材质。无论这些网格体的移动性(Mobility)是静态(Static)还是可…

ShardingSphereProxy:快速入门

使用 Docker 运行 ShardingSphere 在基于 Docker 安装 ShardingSphere 时,按照官方文档《使用 Docker :: ShardingSphere》所提供的步骤操作即可。 在运行ShardingSphereProxy之前,我们需要基于我们的测试场景修改配置文件,我测试场景中主要…