数据挖掘实验(一)数据规范化【最小-最大规范化、零-均值规范化、小数定标规范化】

一、数据规范化的原理

数据规范化处理是数据挖掘的一项基础工作。不同的属性变量往往具有不同的取值范围,数值间的差别可能很大,不进行处理可能会影响到数据分析的结果。为了消除指标之间由于取值范围带来的差异,需要进行标准化处理。将数据按照比例进行缩放,使之落入一个特定的区域,便于进行综合分析。

1.1.最小-最大规范化

clear;clc;
A = [78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571];new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
% 计算每列的最小值和最大值
min_vals = min(A);
max_vals = max(A);% 对每个元素进行最小-最大规范化
normalized_A = (A - min_vals) ./ (max_vals - min_vals)* (new_mx - new_mi) + new_mi;;disp(normalized_A);

MATLAB支持广播机制的,在进行矩阵运算时,可以自动扩展维度较小的矩阵,使其与维度较大的矩阵相匹配,从而实现逐元素的运算。

在MATLAB中,要实现广播机制,需要满足以下条件:

  • 运算的两个矩阵相应维度的大小要么相同,要么其中一个为1。
  • 运算符必须是逐元素的运算符,如.*、./、.\、.^等,不能是矩阵乘法*或矩阵除法/。
  • 如果运算的两个矩阵都是列向量或者行向量,那么它们可以直接进行逐元素运算,无需扩展维度。

disp函数是MATLAB中用于在命令行窗口中显示输出的函数。它可以显示各种类型的数据,包括数字、字符串、矩阵等。 

A = [78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571];
new = input("请输入需要映射到的新区间。输入格式示例:[0,1]\n");
new_mi = new(1);
new_mx = new(2);
B = mapminmax(A',new_mi ,new_mx)';
fprintf("\n经过最小最大规范化后:\n"); 
disp(B)

Matlab有一个现成的函数可以实现最小-最大规范化,它就是 mapminmax() 函数

[Y,PS] = mapminmax(X,YMIN,YMAX)

其中X是要规范化的矩阵或向量,YMIN和YMAX是指定的区间端点(默认为-1和1),Y是规范化后的矩阵或向量,PS是一个结构体,包含了规范化所用的参数,如最小值、最大值、缩放因子等。如果要对另一个矩阵或向量应用相同的规范化参数,可以使用 mapminmax(‘apply’,X,PS) 函数。

代码运行结果

输入的新区间范围为[0,1]:

原数据:
A =78         521         602        2863144        -600        -521        224595        -457         468       -128369         596         695        1054190         527         691        2051101         403         470        2487146         413         435        2571请输入需要映射到的新区间。输入格式示例:[0,1]
[0,1]经过最小最大规范化后:
B =0.0744    0.9373    0.9235    1.00000.6198         0         0    0.85090.2149    0.1196    0.8133         00    1.0000    1.0000    0.56371.0000    0.9423    0.9967    0.80410.2645    0.8386    0.8150    0.90930.6364    0.8470    0.7862    0.9296

 1.2零-均值规范化

clear;clc;%% 数据存入A
A=[78 521 602 2863	
144 -600 -521 2245	
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];A_mean=mean(A); % mean求的是每列的均值
A_std=std(A); % std求的是每列的标准差
[n,m]=size(A);
B=(A-A_mean)./A_std;fprintf("原数据:"); 
disp(A);
fprintf("经过零均值规范化后:"); 
disp(B);
代码运行结果
原数据:
A =78         521         602        2863144        -600        -521        224595        -457         468       -128369         596         695        1054190         527         691        2051101         403         470        2487146         413         435        2571经过零均值规范化后:
B =-0.9054    0.6359    0.4645    0.79810.6047   -1.5877   -2.1932    0.3694-0.5164   -1.3040    0.1474   -2.0783-1.1113    0.7846    0.6846   -0.45691.6571    0.6478    0.6752    0.2348-0.3791    0.4018    0.1521    0.53730.6504    0.4216    0.0693    0.5956
clear;clc;%% 数据存入A
A=[78 521 602 2863	
144 -600 -521 2245	
95 -457 468 -1283
69 596 695 1054
190 527 691 2051
101 403 470 2487
146 413 435 2571];B = zscore (A); % 沿每列计算标准差fprintf("原数据:"); 
disp(A);
fprintf("经过零均值规范化后:"); 
disp(B);

Matlab有一个现成的函数可以实现零-均值规范化,它就是 zscore() 函数1。这个函数可以计算一个数组或向量中元素的标准差,并返回每个元素的 z 分数,即对数据进行中心化和缩放处理,使其均值为 0,标准差为 1。

Z = zscore (X) % 计算X沿第一个非单一维度的标准差
Z = zscore (X,flag) % 指定标准差的类型
Z = zscore (X,flag,'all') % 使用X中所有值的均值和标准差
Z = zscore (X,flag,dim) % 指定沿哪个维度计算
Z = zscore (X,flag,vecdim) % 指定沿多个维度计算
[Z,mu,sigma] = zscore ( ___) % 还返回均值和标准差

 1.3小数定标规范化

clear;clc;%% 数据存入A
A = [78 521 602 2863144 -600 -521 224595 -457 468 -128369 596 695 1054190 527 691 2051101 403 470 2487146 413 435 2571];mx = max(abs(A)); % 求每列绝对值最大的数mx
len = floor(log10(mx))+1; % 求mx的位数len
B = A ./ (10.^len); % 将A中每个元素除以10^lenfprintf("原数据:\n"); 
disp(A);
fprintf("经过小数定标规范化:\n"); 
disp(B);
代码运行结果
原数据:
A =78         521         602        2863144        -600        -521        224595        -457         468       -128369         596         695        1054190         527         691        2051101         403         470        2487146         413         435        2571经过小数定标规范化后:
B =0.0780    0.5210    0.6020    0.28630.1440   -0.6000   -0.5210    0.22450.0950   -0.4570    0.4680   -0.12830.0690    0.5960    0.6950    0.10540.1900    0.5270    0.6910    0.20510.1010    0.4030    0.4700    0.24870.1460    0.4130    0.4350    0.2571

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/150961.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sheng的学习笔记-【中文】【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第一周测验

课程1_第1周_测验题 目录:目录 第一题 1.“人工智能是新电力” 这个比喻指的是什么? A. 【  】人工智能为我们的家庭和办公室的个人设备供电,类似于电力。 B. 【  】通过“智能电网”,人工智能正在传递新一波的电力。 C. …

计算机竞赛 车道线检测(自动驾驶 机器视觉)

0 前言 无人驾驶技术是机器学习为主的一门前沿领域,在无人驾驶领域中机器学习的各种算法随处可见,今天学长给大家介绍无人驾驶技术中的车道线检测。 1 车道线检测 在无人驾驶领域每一个任务都是相当复杂,看上去无从下手。那么面对这样极其…

springboot-admin整合及使用

0. 官方文档及示例 官方文档 示例代码:Spring-Boot-Admin-Demo 1. 概述 Spring Boot Admin(SBA)是一个开源的社区项目,用于管理和监控 Spring Boot 应用程序。应用程序可以通过 http 的方式,或 Spring Cloud 服务发现机制注册到 SBA 中,然…

【nvm】Node Version Manager(NVM)安装配置以及使用(WIN版)

NVM 包管理工具 安装 访问NVM-Windows的GitHub页面:点击nvm-setup.exe。 根据提示进行下一步,文件位置选择自定义位置 验证安装是否成功 nvm version 。如果成功,它将显示NVM的版本号。 使用 nvm list available查看所有的可以被下载…

柯桥生活口语学习,英语中初次见面,除了Nice to meet you,还能说什么?

第一印象非常重要。所以当你第一次见到某人时,留下一个好印象很重要,尤其是当你面对一个重要的工作或者面对某个对你来说可能非常特别的人时。 下面我列出了一些最常用的说“很高兴见到你”的表达方法,也包括对方的回答,除了nice …

OLED透明屏技术在智能手机、汽车和广告领域的市场前景

OLED透明屏技术作为一种新型的显示技术,具有高透明度、触摸和手势交互、高画质和图像显示效果等优势,引起了广泛的关注。 随着智能手机、汽车和广告等行业的快速发展,OLED透明屏技术也在这些领域得到了广泛的应用。 本文将介绍OLED透明屏技…

网络安全总结

前言 本文内容主要摘抄网络规划设计师的教材和腾讯-SUMMER课堂,主要对网络安全进行简单梳理和总结 OSI安全体系 X轴表示8种安全机制,Y轴表示OSI7层模型,Z轴表示5种安全服务,图中X是水平,Y轴竖直,Z轴向外…

手边酒店V2独立版小程序 1.0.21 免授权+小程序前端安装教程

手边酒店小程序独立版酒店宾馆订房系统支持创建多个小程序,让每一个客户单独管理属于自己的小程序。系统无需授权,小程序端用户授权也是采用最新接口。 缺点不开源不影响使用,播播资源安装测试下来未发现或出现BUG情况,用户授权接…

03_Node.js模块化开发

1 Node.js的基本使用 1.1 NPM nodejs安装完成后,会跟随着自动安装另外一个工具npm。 NPM的全称是Node Package Manager,是一个NodeJS包管理和分发工具,已经成为了非官方的发布Node模块(包)的标准。 2020年3月17日&…

网络安全面试题汇总(附答案)

作为从业多年的网络安全工程师,我深知在面试过程中面试官所关注的重点及考察的技能点。网络安全作为当前信息技术领域中非常重要的一部分,对于每一个从事网络安全工作的人员来说,不仅需要掌握一定的技术能力,更需要具备全面的综合…

SSCI及SCI撰写|立足于审稿进行论文修改

一、回复审稿意见视角下的论文改进 (一)常见审稿意见分类(改进向) 意见分类研究主题方面真实案例研究主题研完没有提供新的信息This is clearly a students paper Although it is adequately written it offers no new informat…

超自动化加速落地,助力运营效率和用户体验显著提升|爱分析报告

RPA、iPaaS、AI、低代码、BPM、流程挖掘等在帮助企业实现自动化的同时,也在构建一座座“自动化烟囱”。自动化工具尚未融为一体,协同价值没有得到释放。Gartner于2019年提出超自动化(Hyperautomation)概念,主要从技术组…

英特尔参与 CentOS Stream 项目

导读红帽官方发布公告欢迎英特尔参与进 CentOS Stream 项目,并表示 “这一举措不仅进一步深化了我们长期的合作关系,也构建在英特尔已经在 Fedora 项目中积极贡献的基础之上。” 目前,CentOS Stream 共包括以下特别兴趣小组(SIG&a…

第二证券:市盈率市净率市销率计算公式?

市盈率(Price-earnings ratio, P/E ratio)、市净率(Price-to-book ratio, P/B ratio)和市销率(Price-to-sales ratio, P/S ratio)都是出资者在分析公司股票时常常运用的点评方针。这些方针可以帮忙出资者判…

在Unity使用自定义网格生成一个球体

1.在Unity场景中新建一个空物体,在空物体上添加MeshRenderer和MeshFilter组件。 2.新建一个C#脚本命名SphereMesh,将脚本挂载到空物体上,如图: 运行场景就可以看到生成一个球体 全部代码如下: using UnityEngine;public class S…

ThreeJS-3D教学六-物体位移旋转

之前文章其实也有涉及到这方面的内容,比如在ThreeJS-3D教学三:平移缩放物体沿轨迹运动这篇中,通过获取轨迹点物体动起来,其它几篇文章也有旋转的效果,本篇我们来详细看下,另外加了tween.js知识点&#xff0…

类 ChatGPT 模型存在的局限性

尽管类ChatGPT模型经过数月的迭代和完善,已经初步融入了部分领域以及人们的日常生活,但目前市面上的产品和相关技术仍然存在一些问题,以下列出一些局限性进行详细说明与成因分析: 1)互联网上高质量、大规模、经过清洗…

【SQL Server】表死锁/解锁和sql语句分析

文章目录 表死锁查询锁的进程解锁 sql语句分析来源 表死锁 查询锁的进程 1 首先创建一个测试用的表: CREATE TABLE Test ( TID INT IDENTITY(1,1) ) 2 执行下面的SQL语句将此表锁住: SELECT * FROM Test WITH (TABLOCKX) 3 通过下面的语句可以查看…

[极客大挑战 2019]BabySQL 1

#做题方法# 进去之后做了简单的注入发现有错误回显,就进行注入发现过滤了sql语 后面进行了双写and payload: ?usernameadmin%27%20aandnd%20updatexml(1,concat(0x7e,dAtabase(),0x7e,version()),1)%20--&passwordadmi 接下来又 ?usernameadm…

零基础Linux_13(基础IO_文件)文件系统接口+文件描述符fd+dup2函数

目录 1. C语言的文件操作 1.1 C语言文件的写入 1.2 当前路径 1.3 文件操作模式 1.4 文件的读取和cat 2. 文件系统接口 2.1 系统调用与封装 2.2 open打开文件 2.2.1 flags标记位 2.2.2 open用法演示 2.3 close关闭文件和write写入文件和rede读取文件 2.3.1 O_TRUNC…