【初识扫盲】厚尾分布

厚尾分布(Fat-tailed distribution)是一种概率分布,其尾部比正态分布更“厚”,即尾部的概率密度更大,极端值出现的概率更高。

一、厚尾分布的特征

  1. 尾部概率大

    • 在正态分布中,极端值(如距离均值很远的值)出现的概率非常小。例如,对于一个标准正态分布(均值为0,标准差为1),数据落在距离均值3个标准差之外的概率约为0.27%。然而,在厚尾分布中,这种极端值出现的概率要大得多。以柯西分布(一种典型的厚尾分布)为例,它没有定义方差,其尾部的概率密度衰减速度比正态分布慢很多。在柯西分布中,数据落在距离“中心位置”(类似正态分布的均值)较远区域的概率显著高于正态分布。这就意味着在厚尾分布中,出现极端异常值的可能性更大。
  2. 峰度高

    • 峰度是衡量分布形状的一个指标,它反映了分布的尖峭程度和尾部的厚重程度。厚尾分布通常具有较高的峰度。正态分布的峰度为0(以它为基准),而厚尾分布的峰度大于0。高峰度意味着分布的中间部分(峰部)更尖,同时尾部更厚。例如,学生t分布(自由度较小时)是一种厚尾分布,当自由度较小时,它的峰度比正态分布高,这使得它在描述一些金融资产收益率等数据时,能更好地捕捉到极端波动的情况。
  3. 均值和方差的特性

    • 对于一些厚尾分布,其均值和方差可能不存在或者不具有实际意义。以柯西分布为例,它的均值和方差都是未定义的。这是因为其尾部太厚,极端值对均值和方差的计算影响过大,导致这些统计量无法收敛到一个有限的值。这与正态分布等轻尾分布不同,正态分布的均值和方差都是良好定义的,且具有实际的统计意义,可以很好地描述数据的集中趋势和离散程度。

二、厚尾分布的应用场景

  1. 金融领域
    • 在金融市场中,资产价格的波动往往不符合正态分布。例如,股票价格的收益率分布通常具有厚尾特征。这是因为股票市场会受到各种突发事件(如政治动荡、公司丑闻等)的影响,导致价格出现极端的上涨或下跌。厚尾分布能够更好地描述这种极端波动的情况。像学生t分布就被广泛用于金融风险建模,如在计算投资组合的风险价值(Value at Risk,VaR)时,使用厚尾分布可以更准确地估计极端市场情况下投资组合可能遭受的损失。
  2. 保险领域
    • 保险理赔金额的分布也常常是厚尾的。因为虽然大部分理赔金额可能比较小(如一些小额的财产损失),但是偶尔会出现一些巨额的理赔,如自然灾害导致的大规模财产损失。厚尾分布能够更合理地反映这种理赔金额分布的特点,帮助保险公司更准确地评估风险和制定保险费率。例如,帕累托分布是一种厚尾分布,它在描述大额保险理赔数据时效果很好,能够更好地捕捉到大额理赔出现的概率,从而为保险公司的风险管理和定价提供依据。
  3. 网络流量分析
    • 网络流量数据也呈现出厚尾分布的特性。大部分时间网络流量可能处于较低水平,但是偶尔会出现流量的突发高峰,如大型在线活动期间。厚尾分布可以用来建模这种网络流量的波动情况,有助于网络运营商更好地规划网络资源,应对可能出现的流量高峰,避免网络拥堵等问题。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t, norm# 设置自由度
df = 3# 生成x值,这里从-5到5,共100个点
x = np.linspace(-5, 5, 100)# 计算学生t分布的概率密度函数值
y_t = t.pdf(x, df)# 计算正态分布的概率密度函数值,均值为0,标准差为1
y_norm = norm.pdf(x, 0, 1)# 绘制学生t分布图像
plt.plot(x, y_t, label=f"Student's t distribution (df={df})", color='blue')# 绘制正态分布图像
plt.plot(x, y_norm, label="Normal distribution (mean=0, std=1)", color='red', linestyle='--')# 添加标题和标签
plt.title("Comparison of Student's t Distribution and Normal Distribution")
plt.xlabel("x")
plt.ylabel("Probability Density")# 添加图例
plt.legend()# 显示图像
plt.show()

在这段代码中,我们增加了对正态分布的计算和绘制。使用scipy.stats中的norm模块来计算正态分布的概率密度函数值,这里设置正态分布的均值为0,标准差为1,这是标准正态分布的参数。

  • 图像对比分析
    • 尾部:在图像的两端(尾部),学生t分布(蓝色曲线)的概率密度明显高于正态分布(红色虚线)。这表明在学生t分布中,极端值(距离中心位置较远的值)出现的概率更大,这就是厚尾分布的典型特征。
    • 峰部:在图像的中间部分(峰部),学生t分布的峰值相对较低,而正态分布的峰值较高。这说明正态分布的数据更集中于均值附近,而学生t分布的数据分布相对更分散,这也是厚尾分布与轻尾分布在数据集中趋势描述上的差异。
    • 整体形状:从整体形状上看,学生t分布的曲线更“丰满”,尾部更“肥厚”,而正态分布的曲线更“瘦高”,尾部迅速衰减。这种形状差异直观地反映了两种分布在描述数据极端波动能力上的不同,厚尾分布更适合描述那些极端波动较为频繁的数据,如金融资产收益率等。

在这里插入图片描述

下面是一个绘制柯西分布和正态分布对比图的代码示例:

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import cauchy, norm# 生成x值,这里从-10到10,共400个点
x = np.linspace(-10, 10, 400)# 计算标准柯西分布的概率密度函数值
y_cauchy = cauchy.pdf(x, loc=0, scale=1)# 计算标准正态分布的概率密度函数值
y_norm = norm.pdf(x, loc=0, scale=1)# 绘制柯西分布图像
plt.plot(x, y_cauchy, label='Cauchy Distribution', color='blue')# 绘制正态分布图像
plt.plot(x, y_norm, label='Normal Distribution', color='red', linestyle='--')# 添加标题和标签
plt.title('Comparison of Cauchy and Normal Distributions')
plt.xlabel('x')
plt.ylabel('Probability Density')# 添加图例
plt.legend()# 显示图像
plt.show()

代码解释

  1. 导入库

    • numpy 用于生成数据点。
    • matplotlib.pyplot 用于绘图。
    • scipy.stats 中的 cauchynorm 模块分别用于计算柯西分布和正态分布的概率密度函数值。
  2. 生成x值

    • np.linspace(-10, 10, 400) 生成从-10到10的400个等间距的点,这些点将用于计算概率密度函数值。
  3. 计算概率密度函数值

    • cauchy.pdf(x, loc=0, scale=1) 计算标准柯西分布的概率密度函数值。
    • norm.pdf(x, loc=0, scale=1) 计算标准正态分布的概率密度函数值。
  4. 绘制图像

    • plt.plot(x, y_cauchy, label='Cauchy Distribution', color='blue') 绘制柯西分布的图像。
    • plt.plot(x, y_norm, label='Normal Distribution', color='red', linestyle='--') 绘制正态分布的图像,使用虚线表示。
  5. 添加标题和标签

    • plt.title('Comparison of Cauchy and Normal Distributions') 添加标题。
    • plt.xlabel('x')plt.ylabel('Probability Density') 分别添加x轴和y轴的标签。
  6. 添加图例

    • plt.legend() 添加图例,显示每条曲线的标签。
  7. 显示图像

    • plt.show() 显示图像。

图像对比分析

  • 尾部:柯西分布的尾部明显比正态分布的尾部更厚,这意味着柯西分布中极端值出现的概率更高。这使得柯西分布更适合描述那些极端波动较为频繁的数据,如金融资产收益率等。
  • 峰部:柯西分布的峰值相对较低,而正态分布的峰值较高。这表明正态分布的数据更集中于均值附近,而柯西分布的数据分布相对更分散。
  • 整体形状:柯西分布的曲线更“丰满”,尾部更“肥厚”,而正态分布的曲线更“瘦高”,尾部迅速衰减。

通过这种对比,可以更直观地理解厚尾分布(柯西分布)与轻尾分布(正态分布)的差异。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/2116.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

--- 多线程编程 基本用法 java ---

随着时代的发展,单核cpu的发展遇到了瓶颈,而要提高算力就要发展多核cpu,他能允许多个程序同时运行,这时并发编程他能利用到多核的优势,于是就成为了时代所趋了 其实多进程编程也能进行实现并发编程,只不过…

Linux网络_套接字_UDP网络_TCP网络

一.UDP网络 1.socket()创建套接字 #include<sys/socket.h> int socket(int domain, int type, int protocol);domain (地址族): AF_INET网络 AF_UNIX本地 AF_INET&#xff1a;IPv4 地址族&#xff0c;适用于 IPv4 协议。用于网络通信AF_INET6&#xff1a;IPv6 地址族&a…

idea分支合并代码

步骤一 首先把两个分支的代码都提交了&#xff0c;保持和远程仓库一致&#xff0c;不要有任何没提交的代码。如果一些程序的yml配置文件&#xff0c;不想提交&#xff0c;可以复制一个&#xff0c;不受git管理。如果有没有提交的代码&#xff0c;合并分支的时候就会提示那些代…

Java安全—SPEL表达式XXESSTI模板注入JDBCMyBatis注入

前言 之前我们讲过SpringBoot中的MyBatis注入和模板注入的原理&#xff0c;那么今天我们就讲一下利用以及发现。 这里推荐两个专门研究java漏洞的靶场&#xff0c;本次也是根据这两个靶场来分析代码&#xff0c;两个靶场都是差不多的。 https://github.com/bewhale/JavaSec …

docker虚拟机平台未启用问题

在终端中输入如下代码&#xff0c;重启电脑即可 Enable-WindowsOptionalFeature -Online -FeatureName VirtualMachinePlatform 对于Docker Desktop - Unexpected WSL error问题 参考链接 解决WSL2与docker冲突问题

微服务主流框架和基础设施介绍

概述 微服务架构的落地需要解决服务治理问题&#xff0c;而服务治理依赖良好的底层方案。当前&#xff0c;微服务的底层方案总的来说可以分为两 种&#xff1a;微服务SDK &#xff08;微服务框架&#xff09;和服务网格。 微服务框架运行原理&#xff1a; 应用程序通过接入 SD…

微信小程序集成Vant Weapp移动端开发的框架

什么是Vant Weapp Vant 是一个轻量、可靠的移动端组件库&#xff0c;于 2017 年开源。 目前 Vant 官方提供了 Vue 2 版本、Vue 3 版本和微信小程序版本&#xff0c;并由社区团队维护 React 版本和支付宝小程序版本。 官网地睛&#xff1a;介绍 - Vant Weapp (vant-ui.gith…

(STM32笔记)十二、DMA的基础知识与用法 第二部分

我用的是正点的STM32F103来进行学习&#xff0c;板子和教程是野火的指南者。 之后的这个系列笔记开头未标明的话&#xff0c;用的也是这个板子和教程。 DMA的基础知识与用法 二、DMA传输设置1、数据来源与数据去向外设到存储器存储器到外设存储器到存储器 2、每次传输大小3、传…

C语言 - 可变参数函数 va_list、va_start、va_arg、va_end

目录 一、_INTSIZEOF宏分析 二、可变参数函数介绍 1、va_list 2、va_start 3、va_arg 4、va_end 三、使用介绍 示例1&#xff1a; 示例2&#xff1a; 一、_INTSIZEOF宏分析 #define _INTSIZEOF(n) ((sizeof(n)sizeof(int)-1)&~(sizeof(int) - 1) ) 功能&#x…

【Rust自学】12.2. 读取文件

12.2.0. 写在正文之前 第12章要做一个实例的项目——一个命令行程序。这个程序是一个grep(Global Regular Expression Print)&#xff0c;是一个全局正则搜索和输出的工具。它的功能是在指定的文件中搜索出指定的文字。 这个项目分为这么几步&#xff1a; 接收命令行参数读…

记一次OpenEuler Linux磁盘分区表损坏的数据恢复

问题复现 原本有一台GIS地图服务器存放大量数据&#xff0c;突然有一天磁盘满了&#xff0c;于是运维人员照常进行磁盘扩容。但由于误操作&#xff0c;导致使用fdisk的时候把分区表损坏了&#xff0c;表现如下&#xff1a; 这里可以看到启动时能看到xvda被分为了xvda1和xvda2…

二手车交易系统的设计与实现(代码+数据库+LW)

摘 要 如今社会上各行各业&#xff0c;都喜欢用自己行业的专属软件工作&#xff0c;互联网发展到这个时候&#xff0c;人们已经发现离不开了互联网。新技术的产生&#xff0c;往往能解决一些老技术的弊端问题。因为传统二手车交易信息管理难度大&#xff0c;容错率低&#xf…

【大模型系列篇】数字人音唇同步模型——腾讯开源MuseTalk

之前有一期我们体验了阿里开源的半身数字人项目EchoMimicV2&#xff0c;感兴趣的小伙伴可跳转至《AI半身数字人开箱体验——开源项目EchoMimicV2》&#xff0c;今天带大家来体验腾讯开源的数字人音唇同步模型MuseTalk。 MuseTalk 是一个实时高品质音频驱动的唇形同步模型&#…

如何禁用 PySpark 在运行时打印信息

我已经开始使用 PySpark。PySpark 的版本是3.5.4&#xff0c;它是通过 进行安装的pip。 这是我的代码&#xff1a; from pyspark.sql import SparkSession pyspark SparkSession.builder.master("local[8]").appName("test").getOrCreate() df pyspark…

HTML拖拽功能(纯html5+JS实现)

1、HTML拖拽--单元行拖动 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><…

GLM: General Language Model Pretraining with Autoregressive Blank Infilling论文解读

论文地址&#xff1a;https://arxiv.org/abs/2103.10360 参考&#xff1a;https://zhuanlan.zhihu.com/p/532851481 GLM混合了自注意力和masked注意力&#xff0c;而且使用了2D位置编码。第一维的含义是在PartA中的位置&#xff0c;如5 5 5。第二维的含义是在Span内部的位置&a…

华为数通HCIE备考经验分享

在分享我的考试心得前我先介绍一下我自己&#xff0c;我叫郑同学&#xff0c;22岁&#xff0c;就读于深圳信息职业技术学院移动通信技术专业&#xff0c;在2024年的9月&#xff0c;我成功获得了HCIE-Datacom证书。 考证契机 我的备考之旅始于去年2023年的华为ICT大赛。在这场…

Web开发(二)CSS3基础与进阶

Web开发&#xff08;二&#xff09;CSS3基础与进阶 写在前面 参考黑马程序员前端Web教程做的笔记&#xff0c;主要是想后面自己搭建网页玩。 这部分是前端HTML5CSS3移动web视频教程的CSS3基础与进阶部分&#xff0c;包括CSS3的选择器、文字控制属性、背景属性、显示模式等CS…

使用PWM生成模式驱动BLDC三相无刷直流电机

引言 在 TI 的无刷直流 (BLDC) DRV8x 产品系列使用的栅极驱动器应用中&#xff0c;通常使用一些控制模式来切换MOSFET 开关的输出栅极。这些控制模式包括&#xff1a;1x、3x、6x 和独立脉宽调制 (PWM) 模式。   不过&#xff0c;DRV8x 产品系列&#xff08;例如 DRV8311&…

mac 安装docker

1、下载docker 进入 /Applications/Docker.app/Contents/MacOS/Docker Desktop.app/Contents/Resources目录 把app.asar 文件备份 将下载的中文包复制进去。修改成一样的名字 [汉化包下载地址](https://github.com/asxez/DockerDesktop-CN)