离散化:将数值属性转换为分类属性。
输出 数据:具有离散化值的数据集
设置离散化的默认方法。 选择变量以为每个变量设置特定的离散化方法。将鼠标悬停在变量上显示区间。
离散化方法
Keep numeric(保持数值):保持变量不变。
Remove (移除):移除变量。
Natural binning(自然分箱):为变量的值范围找到合适的阈值,例如10、20、30或0.2、0.4、0.6、0.8。我们可以设置所需的箱数;实际箱数将取决于区间。
Fixed width(固定宽度):使用用户定义的箱宽度。箱的边界将是宽度的倍数。例如,如果宽度为10,变量的值范围从35到68,结果的箱将分别是<40、40-50、50-60、>60。此方法不适用于时间变量。如果宽度太大(导致单个区间)或太小(导致超过100个区间),变量将被移除。
Time interval(时间区间):与固定宽度类似,但适用于时间变量。我们指定宽度和时间单位,例如4个月或3天。箱的边界将是区间的倍数;例如,使用4个月,箱总是包括Jan-Mar、Apr-Jun、Jul-Sep和Oct-Dec。
Equal-frequency (等频分割):将属性分为给定数量的区间,实例数量大致相同。
Equal-width(等宽分割):均匀地将最小值和最大观测值之间的范围分割成区间。
Entropy-MDL (信息增益-MDL):由Fayyad和Irani发明的自顶向下的离散化方法,递归地在最大信息增益的切点分割属性,直到增益低于切的最低描述长度。这种离散化可以产生任意数量的区间,包括单个区间,在这种情况下,变量被认为无用(被移除)。
Custom (自定义):允许输入一个递增的、用逗号分隔的阈值列表。这不适用于时间变量。
使用默认设置(对于特定设置而非默认设置启用)将方法设置为“默认设置”。
视频教程:关注我不迷路, 抖音:Orange3dev
https://www.douyin.com/user/MS4wLjABAAAAicBGZTE2kX2EVHJPe8Ugk3_nlJk9Nha8OZh4Bo_nTu8
1-Orange3安装
2-Orange3汉化DIY
3-Orange3创建快方式
4-数据导入(文件&数据表格组件)
5-数据导入(Python组件)
6-Python库安装(SQL表组件)
7-数据导入(Mysql)
8-数据导入(数据绘画和公式组件)
9-数据修改(域编辑和保存组件)
10-数据可视化(调色板&数据信息组件)
11-数据可视化(特征统计组件)
12-数据预处理(行选择组件)
13-特征选择(Rank组件)
14-数据转换(数据采样组件)
15-数据预处理(列选择组件)
16-数据预处理(转置组件)
17-数据预处理(合并数据组件)
18-数据预处理(连接组件)无主表且列数不同
19-数据预处理(连接组件)主附表
20-数据预处理(索引选择器组件)
21-数据预处理(唯一组件)
22-数据预处理(列聚合组件)
23-数据预处理(分组组件)
24-数据预处理(透视图表组件)
25-数据预处理(转换器组件)-表格互为模板
26-数据预处理(转换器组件)-转换示例
27-数据预处理(预处理器组件)-基本信息
28-数据预处理(预处理器组件)-特征选择
29-数据预处理(预处理器组件)-填充缺失值并标准化特征
30-数据预处理(预处理器组件)-离散化连续变量
31-数据预处理(预处理器组件)-连续化离散变量
32-数据预处理(预处理器组件)-主成分分析PCA与CUR分解
33-数据预处理(缺失值处理组件)
34-数据预处理(连续化组件)
35-数据预处理(离散化组件)
36-数据预处理(随机化组件)
37-数据预处理(清理特征组件)-清理未使用特征值及常量特征
38-数据预处理(宽转窄组件)
39-数据预处理(公式组件)
40-数据预处理(分类器组件)
41-数据预处理(创建实例)
42-数据预处理(Python代码组件)