【机器学习】连续属性离散化与sklearn.preprocessing.KBinsDiscretizer

1. KBinsDiscretizer的定义

KBinsDiscretizer是 scikit-learn 库中的一个类,用于将连续数据离散化成区间(bins)。这个类通过将特征值分配到 k 个等宽的区间(bins)来实现离散化,并且可以配置不同的编码方式来输出结果。

2. 主要参数

主要参数:
• n_bins:指定每个特征要产生的区间(bins)数量。如果是一个整数,则应用于所有特征;如果是一个数组,则每个元素对应一个特征的 bins 数量。
• encode:指定编码方式,可以是onehot、onehot-dense或ordinal。onehot会将结果用 one-hot 编码并返回稀疏矩阵;onehot-dense会返回密集数组;ordinal会返回整数形式的 bin 标识符。
• strategy:定义 bins 宽度的策略,可以是uniform、quantile或kmeans。uniform表示所有 bins 在每个特征中具有相同的宽度;quantile表示所有 bins 在每个特征中包含相同数量的点;kmeans基于每个特征上独立执行的 k-means 聚类过程定义 bins。
• dtype:输出的数据类型,支持 np.float32 和 np.float64。
• subsample:为了计算效率,最大样本数用于拟合模型。如果设置为 None,则使用所有训练样本来计算确定 binning 阈值的分位数。
• random_state:用于 subsampling 的随机数生成。

3. 属性

属性:
• bin_edges:每个 bin 的边界,包含不同形状的数组。
• n_bins:每个特征的 bins 数量,如果 bins 宽度太小(即,=1e-8),则会被移除并发出警告。
• n_features_in:在拟合过程中看到的特征数量。
• feature_names_in:在拟合过程中看到的特征名称,仅当 X 有全部为字符串的特征名称时定义。
功能:KBinsDiscretizer可以将连续特征转换为离散特征,这对于某些模型(如线性模型)可能有益,因为它们可能无法很好地处理连续数据。离散化后的数据可以用于引入非线性,增强模型的表现力和可解释性。

4. 示例

示例1:

from sklearn.preprocessing import KBinsDiscretizer
X = [[-2, 1, -4, -1],[-1, 2, -3, -0.5],[0, 3, -2, 0.5],[1, 4, -1, 2]]
est = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
est.fit(X)
Xt = est.transform(X)
print(Xt)

输出结果:
在这里插入图片描述
示例2:

import numpy as np
from sklearn.preprocessing import KBinsDiscretizer
X = np.array([[ -3., 5., 15 ],[  0., 6., 14 ],[  6., 3., 11 ]])
est =KBinsDiscretizer(n_bins=[3, 2, 2], encode='ordinal').fit(X)
Xs=est.transform(X)                      
print(Xs)

n_bins=[3, 2, 2] 表示:

  • 第一个特征(X 的第一列)被分成了3个箱子。
  • 第二个特征(X 的第二列)被分成了2个箱子。
  • 第三个特征(X 的第三列)也被分成了2个箱子。

输出结果:
在这里插入图片描述

这个类提供了一种灵活的方式来处理连续数据,使其适应于需要离散特征的机器学习算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/463140.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenGL入门002——顶点着色器和片段着色器

文章目录 一些概念坐标转换阶段顶点着色器片段着色器VBOVAO 实战简介main.cppCMakeLists.txt最终效果 一些概念 坐标转换阶段 概述: 模型空间、世界空间、视图空间和裁剪空间是对象在3D场景中经历的不同坐标变换阶段。每个空间对应渲染管道的一个步骤,…

使用 Elastic、OpenLLMetry 和 OpenTelemetry 跟踪 LangChain 应用程序

作者:来自 Elastic Bahubali Shetti Langchain 应用程序的使用正在增长。构建基于 RAG 的应用程序、简单的 AI 助手等的能力正在成为常态。观察这些应用程序更加困难。考虑到现有的各种选项,本博客展示了如何将 OpenTelemetry 检测与 OpenLLMetry 结合使…

【Linux】从零开始使用多路转接IO --- select

碌碌无为,则余生太长; 欲有所为,则人生苦短。 --- 中岛敦 《山月记》--- 从零开始认识五种IO模型 1 前言2 认识多路转接select3 多路转接select等待连接4 完善代码5 总结 1 前言 上一篇文章我们讲解了五种IO模型的基本概念,并…

客户端与微服务之间的桥梁---网关

当我们创建好了N多个微服务或者微服务的实例之后,每个服务暴露出不同的端口地址,一般对于客户端请求,只需要请求一个端口,要隔离客户端和微服务的直接关系,保证微服务的安全性和灵活性,避免敏感信息的泄露。…

docker部署nginx+nacos+redis+java镜像和容器

nginx镜像制作 Dockerfile内容: # 基础镜像 FROM nginx # author MAINTAINER ruoyi# 挂载目录 VOLUME /home/ruoyi/projects/ruoyi-ui # 创建目录 RUN mkdir -p /home/ruoyi/projects/ruoyi-ui # 指定路径 WORKDIR /home/ruoyi/projects/ruoyi-ui # 复制conf文件到路…

MiniWord

1.nuget 下载配置 2.引用 3. var value = new Dictionary<string, object>() { ["nianfen"] = nianfen, ["yuefen"] = yuefen, ["yuefenjian1"] = (int.Par…

SpringBoot篇(简化操作的原理)

目录 一、代码位置 二、统一版本管理&#xff08;parent&#xff09; 三、提供 starter简化 Maven 配置 四、自动配置 Spring&#xff08;引导类&#xff09; 五、嵌入式 servlet 容器 一、代码位置 二、统一版本管理&#xff08;parent&#xff09; SpringBoot项目都会继…

Jetson OrinNX平台CSI相机导致cpu load average升高问题调试

1. 前言 硬件: Orin NX JP: 5.1.2, R35.4.1 用v4l2-ctl --stream-mmap -d0 命令去获取相机数据时, 用top查看cpu使用情况, CPU占用率很低,但load average在1左右, 无任何程序运行时,load average 为0 用ps -aux 查看当前进程情况,发现有两个系统进程vi-output, …

Iceoryx2:高性能进程间通信框架(中间件)

文章目录 0. 引言1. 主要改进2. Iceoryx2 的架构3. C示例代码3.1 发布者示例&#xff08;publisher.cpp&#xff09;3.2 订阅者示例&#xff08;subscriber.cpp&#xff09; 4. 机制比较5. 架构比较6. Iceoryx vs Iceoryx2参考资料 0. 引言 Iceoryx2 是一个基于 Rust 实现的开…

获取Hive表备注

DESCRIBE EXTENDED 表名;先获取Detailed Table Information这行的data_type字段数据&#xff0c;进行正则匹配&#xff0c;拿到表备注&#xff0c;如下&#xff1a; String str ReUtil.get("parameters:\\{(?!.*?\\().*transient_lastDdlTime.*?comment(.*?)\\}&quo…

OTFS的基本原理(通俗易懂)

一、OTFS调制解调原理 Orthogonal Time Frequency Space Modulation | IEEE Conference Publication | IEEE Xplore OTFS原论文提出的方法可以概括为 可以概括为 Xdd (延迟多普勒域数据) ----> ISFFT(辛有限傅里叶变换) ---->海森堡变换 延迟多普勒域数据 …

数据结构与算法——Java实现 53.力扣938题——二叉搜索树的范围和

生命的意义 在于活出自我 而不是成为别人眼中的你 —— 24.11.3 938. 二叉搜索树的范围和 给定二叉搜索树的根结点 root&#xff0c;返回值位于范围 [low, high] 之间的所有结点的值的和。 示例 1&#xff1a; 输入&#xff1a;root [10,5,15,3,7,null,18], low 7, high 15 …

顺德自闭症全托管学校:专业照顾,细心呵护

在顺德及周边地区&#xff0c;寻找一所能够为自闭症儿童提供专业照顾与细心呵护的全托管学校&#xff0c;是许多家庭的迫切需求。自闭症儿童在社交、语言和行为上所面临的挑战&#xff0c;需要更为专业的教育环境和细致入微的关怀。而位于广州的星贝育园自闭症儿童寄宿制学校&a…

【react】基础知识点学习

1. 创建项目 npm install -g create-react-app npx create-react-app my-app cd my-app npm startindex.js为入口文件&#xff0c;App.js为根组件。 如何将react应用挂载在页面上&#xff1f; 将App组件渲染到id为root的DOM元素中 2. JSX JSX是|avaScript和XML(HTML)的缩写…

基于 JAVASSM 框架沙县小吃点餐系统

基于 JAVASSM 框架&#xff08;即 Java Spring Spring MVC MyBatis&#xff09;开发一个沙县小吃点餐系统。 步骤一&#xff1a;需求分析 明确系统需要实现的功能&#xff0c;比如&#xff1a; 用户注册和登录浏览菜单添加菜品到购物车下单并支付订单管理后台管理&#…

apt的编译安装(古老通讯)

Ubuntu系统的防火墙关闭&#xff1a; ufw disable 第一步&#xff1a;Ubuntu 安装依赖环境 apt -y install libpcre3-dev zlib1g-dev libssl-dev build-essential 如果出现无法下载则在末尾处假如 --fix missing如下图所示 出现下图则为安装成功 第二步&#xff1a; useradd…

基于微信小程序的校园失物招领系统的研究与实现(V4.0)

博主介绍&#xff1a;✌stormjun、8年大厂程序员经历。全网粉丝15w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&…

有向无环图的拓扑排序——CSP-J1真题讲解

【题目】 考虑一个有向无环图&#xff0c;该图包括4条有向边&#xff1a;(1,2)&#xff0c;(1,3)&#xff0c;(2,4)&#xff0c;和(3,4)。以下哪个选项是这个有向无环图的一个有效的拓扑排序&#xff1f;&#xff08; &#xff09; A. 4, 2, 3, 1 B. 1, 2, 3, 4 C. 1, 2, 4…

selenium操作已开启的浏览器,方便调试

一、谷歌浏览器配置&#xff1a; 在所安装的谷歌下面&#xff0c;执行下面命令&#xff0c;打开谷歌浏览器&#xff0c;用来selenium的操作&#xff1a; 注意事项&#xff1a;端口需要不被占用&#xff0c;--user-data-dir"D:\workspace\chrome-data"这个路径需要有…

DAY75WEB 攻防-验证码安全篇接口滥用识别插件复用绕过宏命令填入滑块类

知识点&#xff1a; 1、验证码简单机制-验证码过于简单可爆破 2、验证码重复使用-验证码验证机制可绕过 3、验证码智能识别-验证码图形码被可识别 4、验证码接口调用-验证码触发接口可枚举 图片验证码-识别插件-登录爆破&接口枚举 验证码识别绕过等技术适用于&#x…