Python特征工程 — 1.3 对数与指数变换

目录

1 对数变换

1.1 对数变换的概念

1.2 对数变换实战

2 指数变换

2.1 指数变换的概念

2.2 指数变换实战

3 Box-Cox变换

3.1 Box-Cox变换概念

3.2 Box-Cox变换实战


1 对数变换

1.1 对数变换的概念

特征对数变换和指数变换是数据预处理中的两种常用技术,它们可以帮助改善数据的分布特性,从而提高某些模型的性能。

对数变换通常用于减少数据的偏斜性(skewness),它将原始数据的每个值转换为该值的自然对数或以10为底的对数。对于具有重尾分布的数据,对数变换时很好的处理方式。公式为:

1.2 对数变换实战

下面代码的目的是通过生成具有重尾分布的数据,并对其进行对数变换,来展示对数变换对数据分布的影响。

import numpy as np
import matplotlib.pyplot as plt# 设置随机种子以获得可复现的结果
np.random.seed(0)# 生成具有重尾分布的数据(例如,使用帕累托分布)
data = np.random.pareto(a=1, size=2000)# 对数变换,这里使用10为底对数
# 为了避免对数变换中的问题,添加一个小的常数(例如1)
log_data = np.log10(data + 1)# 绘制原始数据的直方图
plt.figure(figsize=(14, 5))  # 调整图形大小以便更清晰的展示
plt.subplot(1, 2, 1)  # 1行2列的第一个图
plt.hist(data, bins=50, color='blue', alpha=0.7, log=True)  # 使用对数刻度
plt.title('Original Data (Log Scale)')
plt.xlabel('Value')  # 添加x轴标签
plt.ylabel('Frequency (log scale)')  # 添加y轴标签,说明y轴是频率的对数刻度# 绘制对数变换后数据的直方图
plt.subplot(1, 2, 2)  # 1行2列的第二个图
plt.hist(log_data, bins=30, color='green', alpha=0.7)  # 正常刻度
plt.title('Log-transformed Data')
plt.xlabel('Value')  # 添加x轴标签
plt.ylabel('Frequency')  # 添加y轴标签# 显示图形
plt.tight_layout()  # 调整布局以避免标签重叠
plt.show()

下面是对代码的分析和对数变换前后作用的解释:

  • 使用np.random.pareto(a=2.0, size=2000)生成了2000个服从帕累托分布的数据点。帕累托分布是一种典型的重尾分布,其特点是大部分数据点集中在较小的值附近,而少数数据点是极端大的值。
  • 对原始数据进行以10为底的对数变换,使用np.log10(data + 1)。这里添加了1来避免对数函数在0处未定义的问题。

运行结果如下:

在原始数据的直方图上使用对数刻度,可以清晰地看到数据的重尾特性,即直方图的右侧有一个长尾,对数变换后的数据直方图可能看起来更加紧凑,极端大值的影响被减少

2 指数变换

2.1 指数变换的概念

指数变换通常用于处理具有极端值或非常不均匀分布的数据,它将原始数据的每个值转换为该值的指数函数,指数变换可以放大较小的值而压缩较大的值,有助于减少极端值的影响。公式为:

2.2 指数变换实战

指数变换主要应用与图像处理领域,可参考如下的文章:https://www.cnblogs.com/wancy/p/17819610.html

这段代码演示了如何对一组非正态分布的正值数据进行指数变换,并可视化变换前后的数据分布。

import numpy as np
import matplotlib.pyplot as plt# 生成数据:使用gamma分布生成非正态分布的正值数据
data = np.random.gamma(shape=1.0, scale=1.0, size=1000)# 归一化数据到[0, 1]区间
data_normalized = data / np.max(data)# 应用指数变换
exp_data_normalized = np.exp(data_normalized - 1)  # 减1保证变换后数据不会全为0# 反归一化到原始数据的范围
exp_data = exp_data_normalized * np.max(data)# 绘制原始数据的直方图
plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
plt.hist(data, bins=30, color='blue', alpha=0.7)
plt.title("Original Data")# 绘制指数变换后数据的直方图
# 截断数据以避免过大的值
threshold = np.percentile(exp_data, 99)  # 取99百分位数作为阈值
exp_data[exp_data > threshold] = threshold
plt.subplot(1, 2, 2)
plt.hist(exp_data, bins=30, color='green', alpha=0.7)
plt.title("Exponential Transformed Data")# 添加坐标轴标签
plt.xlabel('Value')
plt.ylabel('Frequency')# 显示图形
plt.tight_layout()
plt.show()

下面是对代码的分析:

  • 使用numpyrandom.gamma函数生成一组非正态分布的正值数据,这种分布通常产生偏斜的数据,具有重尾特性。
  • 将数据归一化到[0, 1]区间。这是通过将每个数据点除以数据的最大值来实现的。归一化有助于在变换过程中保持数据的尺度一致性。
  • 反归一化到原始数据的范围。通过将变换后的数据乘以原始数据的最大值来实现。

直方图显示了变换前后数据分布的对比,指数变换后的数据可能更加均匀或具有更小的偏斜度。

两种变换的使用场景和要求

这两种变换通常用于以下情况:

  • 当数据具有非线性特征时,对数变换可以帮助线性化数据。
  • 当数据的方差随着均值的增加而增加时(即方差与均值成正比),对数变换可以稳定方差。
  • 当数据包含极端值或离群点时,指数变换可以帮助减少这些值的影响。

两种变换对数据要求:在应用这些变换之前,需要考虑数据的特性和模型的需求。例如,对数变换不适用于零或负值,因为对数函数在这些值上是未定义的。而指数变换则可以处理负值。

3 Box-Cox变换

3.1 Box-Cox变换概念

平方根变换和对数变换可以简单推广为Box-Cox变换。Box-Cox变换是一种在统计建模中常用的数据变换方法,由George E.P. Box和David Cox在1964年提出,用于处理连续的、正值的、偏斜分布的数据,以便它们更符合正态分布的要求。这种变换特别适用于线性回归模型中,当响应变量不满足正态分布时,通过变换可以使模型满足线性、正态性、独立性以及方差齐性的假设条件。

Box-Cox变换的一般形式为:

其中,y是原始数据,λ 是变换参数 。

box-cox变换的主要作用:是将数据进行归一化,使得数据更加符合统计假设。在实际应用中,box-cox变换常用于解决回归分析和方差分析中的数据不满足正态分布的问题,从而提高模型的准确度和可靠性。

box-cox变换优点:

  • 提高模型预测准确性:将非正态分布的数据进行box-cox变换后,可以使数据更加符合正态分布,从而提高模型预测的准确性。
  • 统计推断更可靠:在进行统计推断时,如果假设数据符合正态分布,但实际上并不符合,可能会导致结果的错误。通过box-cox变换将数据转换为正态分布后,统计推断的结果更加可靠。
  • 处理异方差性:对于具有异方差性的数据,进行box-cox变换可以使数据更加平滑,从而更容易处理异方差性。

box-cox变换缺点:

  • 数据必须为正数:box-cox变换要求数据必须为正数,因此无法处理包含负数的数据集。
  • 参数需要选择:box-cox变换中的参数λ需要根据数据集进行选择,不同的λ值可能会导致不同的结果。因此,需要进行多次试验来找到最适合的λ值。例如,当 λ=0 时,Box-Cox变换退化为对数变换;当λ=−1 时为倒数变换;当λ=0.5 时为平方根变换。
  • 数据范围影响变换效果:box-cox变换对于数据的范围敏感,如果数据集范围较小,可能会导致变换效果不佳,或者导致出现数值问题

3.2 Box-Cox变换实战

下面代码演示了如何使用Box-Cox变换对一组非正态分布的正值数据进行处理,并可视化原始数据和变换后数据的分布情况。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats# 假设有一组非正态分布的正值数据
# 这里我们使用一个偏态分布的示例数据集
data = np.random.gamma(shape=2.0, scale=2.0, size=1000)# 应用Box-Cox变换,并找到最优的lambda值
transformed_data, optimal_lambda = stats.boxcox(data)# 打印最优的lambda值
print(f"Optimal lambda value: {optimal_lambda}")# 绘制原始数据的直方图
plt.figure(figsize=(14, 6))
plt.subplot(1, 2, 1)
plt.hist(data, bins=30, color='blue', alpha=0.7)
plt.title("Original Data")
# 添加坐标轴标签
plt.xlabel('Value')
plt.ylabel('Frequency')# 绘制变换后数据的直方图
plt.subplot(1, 2, 2)
plt.hist(transformed_data, bins=30, color='green', alpha=0.7)
plt.title(f"Box-Cox Transformed Data \n(lambda = {optimal_lambda})")# 添加坐标轴标签
plt.xlabel('Value')
plt.ylabel('Frequency')# 显示图形
plt.tight_layout()
plt.show()
  • 首先使用伽马分布生成一组非正态分布的正值数据,伽马分布是一种偏态分布,常用于模拟具有重尾分布的数据。
  • 进一步使用scipy.stats.boxcox函数对数据进行Box-Cox变换。该函数返回变换后的数据transformed_data和最优的lambda值optimal_lambda。最优的lambda值是通过极大似然估计得到的,用于确定最佳的Box-Cox变换形式。
  • 最后使用matplotlib库绘制原始数据和变换后数据的直方图。

原始数据(伽马分布)具有偏态分布,Box-Cox变换旨在通过非线性变换减少数据的偏态,使数据更接近正态分布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/368248.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工厂自动化相关设备工业一体机起到什么作用?

在当今的制造业领域,工厂自动化已成为提高生产效率、保证产品质量和降低成本的关键。在这一进程中,工业一体机作为一种重要的设备,发挥着不可或缺的作用。 工业一体机是自动化生产线上的控制中心。它能够整合和处理来自各个传感器、执行器和其…

【机器学习】机器学习与医疗健康在疾病预测中的融合应用与性能优化新探索

文章目录 引言第一章:机器学习在医疗健康中的应用1.1 数据预处理1.1.1 数据清洗1.1.2 数据归一化1.1.3 特征工程 1.2 模型选择1.2.1 逻辑回归1.2.2 决策树1.2.3 随机森林1.2.4 支持向量机1.2.5 神经网络 1.3 模型训练1.3.1 梯度下降1.3.2 随机梯度下降1.3.3 Adam优化…

ctfshow-web入门-命令执行(web71-web74)

目录 1、web71 2、web72 3、web73 4、web74 1、web71 像上一题那样扫描但是输出全是问号 查看提示:我们可以结合 exit() 函数执行php代码让后面的匹配缓冲区不执行直接退出。 payload: cvar_export(scandir(/));exit(); 同理读取 flag.txt cinclud…

kali下安装使用蚁剑(AntSword)

目录 0x00 介绍0x01 安装0x02 使用1. 设置代理2. 请求头配置3. 编码器 0x00 介绍 蚁剑(AntSword)是一个webshell管理工具。 官方文档:https://www.yuque.com/antswordproject/antsword 0x01 安装 在kali中安装蚁剑,分为两部分&am…

AI 驱动的数据中心变革与前景

文章主要探讨了AI计算时代数据中心的转型,涉及计算技术的多样性、规格尺寸和加速器的发展、大型语言模型(LLM)的发展、功耗和冷却趋势、基准测试的重要性以及数据中心的发展等方面。为大家提供深入了解AI基础设施发展的视角。 计算技术的多样…

IDEA 一键部署Docker

以部署示例服务(sevnce-demo)为例。 配置服务器 地址、账号、密码根据实际情况填写 配置镜像仓库 地址、账号、密码根据实际情况填写 编写Dockerfile 在sevnce-demo根目录下右键,选择创建Dockerfile。 # 基础镜像 FROM sevnce-registry.c…

使用Vue CLI方式创建Vue3.0应用程序

Vue CLI 是一个基于 Vue.js 进行快速开发的完整系统。新版本的 Vue CLI 的包名由原来的 vue-cli 改成了 vue/cli。 在开发大型项目时,需要考虑项目的组织结构、项目构建和部署等问题。如果手动完成这些配置工作,工作效率会非常低。为此,Vue.…

【博士每天一篇文献-综述】A survey on few-shot class-incremental learning

阅读时间:2023-12-19 1 介绍 年份:2024 作者:田松松,中国科学院半导体研究所;李璐思,老道明大学助理教授;李伟军,中国科学院半导体研究所AnnLab; 期刊: Neu…

新型发电系统——光伏行业推动能源转型

一、发展背景 “十四五”期间,随着“双碳”目标提出及逐步落实,本就呈现出较好发展势头的分布式光伏发展有望大幅提速。就“十四五”光伏发展规划,国家发改委能源研究所可再生能源发展中心副主任陶冶表示,“双碳”目标意味着国家…

【linux】网络基础(3)——tcp协议

文章目录 TCP协议概括TCP头部格式TCP连接管理建立连接(三次握手)数据传输确认应答机制捎带应答 滑动窗口丢包问题 拥塞控制延时应达 终止连接(四次挥手) TCP协议概括 TCP是一个面向连接的协议,在传输数据之前需要建立连…

04.C1W3.Vector Space Models

目录 Vector Space ModelsWord by Word and Word by DocWord by Document DesignWord by Document DesignVector Space Euclidean DistanceEuclidean distance for n-dimensional vectors Euclidean distance in PythonCosine Similarity: IntuitionCosine SimilarityPrevious …

2024鲲鹏昇腾创新大赛集训营Ascend C算子学习笔记

异构计算架构(CANN) 对标英伟达的CUDA CuDNN的核心软件层,向上支持多种AI框架,向下服务AI处理器,发挥承上启下的关键作用,是提升昇腾AI处理器计算效率的关键平台。主要包括有各种引擎、编译器、执行器、算…

Tomcat的安装和虚拟主机和context配置

一、 安装Tomcat 注意:安装 tomcat 前必须先部署JDK 1. 安装JDK 方法1:Oracle JDK 的二进制文件安装 [rootnode5 ~]# mkdir /data [rootnode5 ~]# cd /data/ [rootnode5 data]# rz[rootnode5 data]# ls jdk-8u291-linux-x64.tar.gz [rootnode5 data]…

七、函数练习

目录 1. 写一个函数可以判断一个数是不是素数。(素数只能被1或其本身整除的数) 2. 一个函数判断一年是不是闰年。 3.写一个函数,实现一个整形有序数组的二分查找。 4. 写一个函数,每调用一次这个函数,使得num每次增…

Python 面试【★★★★】

欢迎莅临我的博客 💝💝💝,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

营销故事之扩大牙膏开口

职场营销故事“扩大牙膏开口”又可以说是“牙膏开口扩大1毫米”,为十大经典营销故事之一。某品牌的牙膏,包装精美,品质优良,备受顾客喜爱,连续10年营业额保持10%-20%的增幅。可到了第11年,销售业绩却停滞不…

实时数仓Hologres OLAP场景核心能力介绍

作者:赵红梅 Hologres PD OLAP典型应用场景与痛点 首先介绍典型的OLAP场景以及在这些场景上的核心痛点,OLAP典型应用场景很多,总结有四类:第一类是BI报表分析类,例如BI报表,实时大屏,数据中台等…

AntV学习笔记

文章目录 G6 图可视化引擎简单上手复杂一点的案例 S2 多维交叉分析表格简单的一个vue3使用S2的例子 G6 图可视化引擎 G6 是一个简单、易用、完备的图可视化引擎,它在高定制能力的基础上,提供了一系列设计优雅、便于使用的图可视化解决方案。能帮助开发者…

Linux高并发服务器开发(十)反应堆模型和线程池模型

文章目录 1 epoll反应堆2 线程池流程代码 3 复杂版本线程池代码 1 epoll反应堆 文件描述符 监听事件 回调函数 进行封装 创建socket设置端口复用绑定监听创建epoll树将监听文件描述符lfd上epoll树,对应的事件节点包括:文件描述符,事件epoll…

如何在Docker容器中,修改MySQL密码

如果MySQL运行在Docker容器中,修改MySQL密码的方法稍有不同。以下是如何在Docker中修改MySQL密码的步骤: 方法1:使用MySQL命令行工具 1. 找到MySQL容器的ID或者名字: docker ps 2. 进入MySQL容器: docker exec -i…