【数据挖掘】实验4:数据探索

实验4:数据探索

一:实验目的与要求

1:熟悉和掌握数据探索,学习数据质量分类、数据特征分析和R语言的主要数据探索函数。

二:实验内容

1:数据质量分析

2:统计量分析

3:贡献度分析

4:相关性分析

5:统计特征函数

三:课堂练习

【练习1】PPT-06第12页——检测餐饮销售数据缺失值和异常值

第一步:用setwd设置工作空间

setwd('C:\\Users\\86158\\Desktop')

getwd()

第二步:读入数据

saledata <- read.csv(file="catering_sale.csv", header=TRUE, fileEncoding="GB2312")

saledata

完整运行结果:

          日期    销量

1     2015/3/1   51.00

2    2015/2/28 2618.20

3    2015/2/27 2608.40

4    2015/2/26 2651.90

5    2015/2/25 3442.10

6    2015/2/24 3393.10

7    2015/2/23 3136.60

8    2015/2/22 3744.10

9    2015/2/21 6607.40

10   2015/2/20 4060.30

11   2015/2/19 3614.70

12   2015/2/18 3295.50

13   2015/2/16 2332.10

14   2015/2/15 2699.30

15   2015/2/14      NA

16   2015/2/13 3036.80

17   2015/2/12  865.00

18   2015/2/11 3014.30

19   2015/2/10 2742.80

20    2015/2/9 2173.50

21    2015/2/8 3161.80

22    2015/2/7 3023.80

23    2015/2/6 2998.10

24    2015/2/5 2805.90

25    2015/2/4 2383.40

26    2015/2/3 2620.20

27    2015/2/2 2600.00

28    2015/2/1 2358.60

29   2015/1/31 2682.20

30   2015/1/30 2766.80

31   2015/1/29 2618.80

32   2015/1/28 2714.30

33   2015/1/27 2280.80

34   2015/1/26 2414.00

35   2015/1/25 3130.60

36   2015/1/24 2716.90

37   2015/1/23 2930.80

38   2015/1/22 2504.90

39   2015/1/21 2559.50

40   2015/1/20 2168.60

41   2015/1/19 2436.40

42   2015/1/18 3234.30

43   2015/1/17 3061.00

44   2015/1/16 2900.10

45   2015/1/15 2646.80

46   2015/1/14 2615.20

47   2015/1/13 2124.40

48   2015/1/12 1958.00

49    2015/1/8 2259.10

50    2015/1/7 2419.80

51    2015/1/6 2775.00

52    2015/1/5 2594.90

53    2015/1/4 2468.30

54    2015/1/3 3004.30

55    2015/1/2 3313.30

56    2015/1/1 3613.60

57  2014/12/31 2655.90

58  2014/12/30 2644.30

59  2014/12/29 2565.30

60  2014/12/27 2525.90

61  2014/12/26 2778.00

62  2014/12/25 2542.10

63  2014/12/24 2473.30

64  2014/12/23 2240.10

65  2014/12/22 2575.00

66  2014/12/21 3802.80

67  2014/12/18 2274.70

68  2014/12/17 2687.20

69  2014/12/16 2577.80

70  2014/12/15 2583.00

71  2014/12/14 3282.60

72  2014/12/13 3113.70

73  2014/12/12 2661.40

74  2014/12/11 2553.20

75  2014/12/10 2511.30

76   2014/12/9 2710.30

77   2014/12/8 2468.10

78   2014/12/7 3041.50

79   2014/12/6 3178.90

80   2014/12/5 2594.40

81   2014/12/4 2381.10

82   2014/12/3 2415.00

83   2014/12/2 2236.40

84  2014/11/30 3207.20

85  2014/11/29 3059.50

86  2014/11/28 3039.10

87  2014/11/26 2817.50

88  2014/11/25 2891.80

89  2014/11/24 2470.10

90  2014/11/23 3556.60

91  2014/11/22 3397.70

92  2014/11/20 2761.60

93  2014/11/19 2618.20

94  2014/11/18 2758.30

95  2014/11/17 2614.30

96  2014/11/16 3437.10

97  2014/11/15 3250.00

98  2014/11/14 3063.70

99  2014/11/13 2839.20

100 2014/11/12 2360.90

101 2014/11/11 2158.50

102 2014/11/10 2005.50

103  2014/11/9 3236.40

104  2014/11/8   22.00

105  2014/11/7 2452.60

106  2014/11/6 2265.00

107  2014/11/5 2566.10

108  2014/11/4 2527.20

109  2014/11/3 2326.50

110  2014/11/2 2941.90

111  2014/11/1   60.00

112 2014/10/31 2520.90

113 2014/10/30 2446.20

114 2014/10/29 2549.40

115 2014/10/28 2449.30

116 2014/10/27 2162.50

117 2014/10/26 2781.30

118 2014/10/25 3060.60

119 2014/10/24 2064.00

120 2014/10/22 2439.70

121 2014/10/21 2476.20

122 2014/10/20 2478.30

123 2014/10/19 2826.20

124 2014/10/18 2924.80

125 2014/10/17 2417.50

126 2014/10/16 2450.10

127 2014/10/15 2533.00

128 2014/10/14 2238.70

129 2014/10/13 2388.80

130 2014/10/12 3291.30

131 2014/10/11 2738.80

132 2014/10/10 2344.10

133  2014/10/9 2068.80

134  2014/10/8 3185.30

135  2014/10/7 2778.60

136  2014/10/6 2921.10

137  2014/10/5 2524.30

138  2014/10/4 3057.10

139  2014/10/3 3039.60

140  2014/10/2 3193.40

141  2014/10/1 3075.40

142  2014/9/30 2847.60

143  2014/9/29 2311.40

144  2014/9/28 2327.30

145  2014/9/27 9106.44

146  2014/9/26 2616.60

147  2014/9/25 2620.20

148  2014/9/24 2616.40

149  2014/9/23 2655.80

150  2014/9/22 2310.70

151  2014/9/21 2935.80

152  2014/9/20 3017.90

153  2014/9/19 2625.50

154  2014/9/18 2752.70

155  2014/9/17 2181.50

156  2014/9/16 2440.50

157  2014/9/15 2422.80

158  2014/9/14 2583.60

159  2014/9/13 2728.90

160  2014/9/12 2525.30

161  2014/9/11 2531.70

162  2014/9/10 2300.50

163   2014/9/9 2097.50

164   2014/9/8 4065.20

165   2014/9/7 3555.20

166   2014/9/6 3462.50

167   2014/9/5 3033.10

168   2014/9/4 2926.10

169   2014/9/3 2431.40

170   2014/9/2 2706.00

171   2014/9/1 3049.90

172  2014/8/31 3494.70

173  2014/8/30 3691.90

174  2014/8/29 2929.50

175  2014/8/28 2760.60

176  2014/8/27 2593.70

177  2014/8/26 2884.40

178  2014/8/25 2591.30

179  2014/8/24 3022.60

180  2014/8/23 3052.10

181  2014/8/22 2789.20

182  2014/8/21 2909.80

183  2014/8/20 2326.80

184  2014/8/19 2453.10

185  2014/8/18 2351.20

186  2014/8/17 3279.10

187  2014/8/16 3381.90

188  2014/8/15 2988.10

189  2014/8/14 2577.70

190  2014/8/13 2332.30

191  2014/8/12 2518.60

192  2014/8/11 2697.50

193  2014/8/10 3244.70

194   2014/8/9 3346.70

195   2014/8/8 2900.60

196   2014/8/7 2759.10

197   2014/8/6 2915.80

198   2014/8/5 2618.10

199   2014/8/4 2993.00

200   2014/8/3 3436.40

201   2014/8/2 2261.70

第三步:缺失值检测并打印结果

sum(complete.cases(saledata))

sum(!complete.cases(saledata))

mean(!complete.cases(saledata))

saledata[!complete.cases(saledata),]

第四步:异常值检测箱线图(扩展)

boxplot(saledata$销量, main="销售数据异常值检测", ylab="销售额", na.rm = TRUE)

第五步:带有数值的异常值检测箱线图

# 异常值检测箱线图

sp <- boxplot(saledata$"销量", boxwex = 0.7)

title("销量异常值检测箱线图")

xi <- 1.1

sd.s <- sd(saledata[complete.cases(saledata), ]$"销量")

mn.s <- mean(saledata[complete.cases(saledata), ]$"销量")

points(xi, mn.s, col = "red", pch = 18)

arrows(xi, mn.s - sd.s, xi, mn.s + sd.s, code = 3, col = "pink", angle = 75, length = .1)

text(rep(c(1.05, 1.05, 0.95, 0.95), length = length(sp$out)),

     labels = sp$out[order(sp$out)], sp$out[order(sp$out)] +

       rep(c(150, -150, 150, -150), length = length(sp$out)), col = "red")

 

【练习2】PPT-06第32页——餐饮销售数据统计量分析

第一步:读入数据

sales <- saledata[, 2]

sales

 

第二步:计算均值

mean_ <- mean(sales, na.rm = T)

mean_

第三步:计算中位数

median_ <- median(sales, na.rm = T)

median_

第四步:计算极差

range_ <- max(sales, na.rm = T) - min(sales, na.rm = T)

range_


第五步:计算标准差

std_ <- sqrt(var(sales, na.rm = T))

std_

第六步:计算变异系数

variation_ <- std_ / mean_

variation_

第七步:计算四分位数间距

q1 <- quantile(sales, 0.25, na.rm = T)

q3 <- quantile(sales, 0.75, na.rm = T)

distance <- q3 - q1

a <- matrix(c(mean_, median_, range_, std_, variation_, q1, q3, distance),

            1, byrow = T)

colnames(a) <- c("均值", "中位数", "极差", "标准差", "变异系数",

                 "1/4分位数", "3/4分位数", "四分位间距")

print(a)

【练习3】PPT-06第37页——菜品盈利贡献度统计量分析

第一步:读取菜品数据

dishdata <- read.csv(file = "catering_dish_profit.csv",fileEncoding="GB2312")

dishdata

第二步:绘制帕累托图

barplot(dishdata[, 3], col = "blue1", names.arg = dishdata[, 2], width = 1,

        space = 0, ylim = c(0, 10000), xlab = "菜品", ylab = "盈利:元")

accratio <- dishdata[, 3]

for ( i in 1:length(accratio)) {

  accratio[i] <- sum(dishdata[1:i, 3]) / sum(dishdata[, 3])

}

par(new = T, mar = c(4, 4, 4, 4))

points(accratio * 10000 ~ c((1:length(accratio) - 0.5)), new = FALSE,

       type = "b", new = T)

axis(4, col = "red", col.axis = "red", at = 0:10000, label = c(0:10000 / 10000))

mtext("累积百分比", 4, 2)

points(6.5, accratio[7] * 10000, col="red")

text(7, accratio[7] * 10000,paste(round(accratio[7] + 0.00001, 4) * 100, "%"))

【练习4】PPT-06第45页——餐饮销售数据相关性分析

第一步:读取数据

cordata <- read.csv(file = "catering_sale_all.csv", header = TRUE,fileEncoding="GB2312")

cordata

完整运行结果:

        日期 百合酱蒸凤爪 翡翠蒸香茜饺 金银蒜汁蒸排骨 乐膳真味鸡 蜜汁焗餐包

1   2015/1/1           17            6              8         24         13

2   2015/1/2           11           15             14         13          9

3   2015/1/3           10            8             12         13          8

4   2015/1/4            9            6              6          3         10

5   2015/1/5            4           10             13          8         12

6   2015/1/6           13           10             13         16          8

7   2015/1/7            9            7             13          8          5

8   2015/1/8            9           12             13          6          7

9  2015/1/12            6            8              8          3         NA

10 2015/1/13            9           11             13          6          8

11 2015/1/14            6            7              8          9          4

12 2015/1/15            5            9              4          7          8

13 2015/1/16            9            7             11          9         11

14 2015/1/17           10            8             10          6         14

15 2015/1/18           13           12             12         10          9

16 2015/1/19            4            8             12         11          9

17 2015/1/20            6           12             10          9         11

18 2015/1/21            9           15              4         12          7

19 2015/1/22            3           10             13         13         13

20 2015/1/23            8            7              9         20          5

21 2015/1/24           11            6             11          8          7

22 2015/1/25           11            6              5         15          7

23 2015/1/26            4            7             10          7          6

24 2015/1/27            7            5              6          7         12

25 2015/1/28            8            8             12         14          8

26 2015/1/29            4           10             12          9          7

27 2015/1/30            6            7              7         11          7

28 2015/1/31            8            5             11         10          8

29  2015/2/1            8            6              7          9          6

   生炒菜心 铁板酸菜豆腐 香煎韭菜饺 香煎罗卜糕 原汁原味菜心

1        13           18         10         10           27

2        10           19         13         14           13

3         3            7         11         10            9

4         9            9         13         14           13

5        10           17         11         13           14

6         9           12         11          5            9

7         7           10          8         10            7

8         8            6         12         11            5

9         4            5          5          7           10

10        7            6          9          8            9

11        7            8          5          3           10

12        9           15          9         13            9

13        8           14          9          9           15

14       13           16          9          4           14

15       11            8         12          9           15

16        7           10          6         11           11

17        4            8         14          6           13

18        9            1          5         12            8

19        8           13          5         11           11

20       12            8          7          8           11

21        8            9          7         10            9

22       14           14          7          6            8

23       10            9         12          7            5

24       15            6         12          9            4

25       11            7         12         10            6

26        8            8         10         10           11

27        7            9         16         10           11

28       11            8         10         10            9

29        4            6         11          6            9

第二步:求出相关系数矩阵

cor(cordata[, 2:11])

【练习5】PPT-06第51页

Eg1:计算两个列向量的相关系数,采用Spearman方法

x = c(1:8)

y = c(2:9)

R = cor(x,y,method="spearman")

R

Eg2:计算20×5随机矩阵的协方差矩阵

X = matrix(rnorm(100),20,5)

R = cor(X)

R

四:实验知识点总结

1:数据质量分析是数据预处理的前提,其主要任务是检查原始数据中是否存在脏数据。脏数据主要包括:缺失值、异常值、不一致的值、重复数据和含有特殊符号的数据。

2:缺失值分析包括:(1)统计缺失值的变量个数;(2)统计每个变量的未缺失数;(3)统计变量的缺失数和缺失率;

3:异常值分析方法包括:(1)简单统计量分析;(2)3σ原则;(3)箱型图分析;

4:数据的不一致性是数据的矛盾性和不相容性,不一致数据的产生主要发生在数据集成的过程中。

5:数据特征分析的方法包括:(1)分布分析;(2)对比分析;(3)统计量分析;(4)周期性分析;(5)贡献度分析;(6)相关性分析;

6:常用的统计特征函数。

五:遇到的问题和解决方法

问题1:在读入csv数据时,出现以下报错。这个报错信息表明在尝试读取CSV文件时遇到了编码问题,即文件中可能包含了非标准ASCII字符。

解决1:直接指定读取文件的确切编码,此处使用GB2312。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/283923.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Session会话绑定

1.需求原因 用户的请求,登录的请求,经过负载均衡后落到后面的web服务器上,登录的状态/信息也会记录在web服务器上,就会导致不通的web服务器上,登录状态不统一,造成用户频繁需要登录 2.目标&#xff1a;如何实现会话保持/会话共享 方案一&#xff1a;登录状态写入cookie中.(wor…

二、阅读器的开发(初始)-- 1、阅读器简介及开发准备工作

1、阅读器工作原理及开发流程 1.1阅读器工作原理简介 电子书&#xff08;有txt、pdf、epub、mobi等格式&#xff09;->解析&#xff08;书名、作者、目录、封面、章节等&#xff09;->&#xff08;通过阅读器引擎&#xff09;渲染 -> 功能&#xff08;字号、背景色、…

C++ vector容器类型

vector类为内置数组提供了一种替代表示&#xff0c;与string类一样 vector 类是随标准 C引入的标准库的一部分 &#xff0c;为了使用vector 我们必须包含相关的头文件 &#xff1a; #include <vector> 使用vector有两种不同的形式&#xff0c;即所谓的数组习惯和 STL习…

只有IP地址怎么实现HTTPS访问?

只有IP地址也可以实现HTTPS访问。虽然大部分SSL证书通常是针对域名发放&#xff0c;但也存在专门针对IP地址发放的SSL证书&#xff0c;这类证书允许服务器通过HTTPS协议为其公网IP地址提供安全的Web服务。当服务器配置了基于IP地址的SSL证书后&#xff0c;用户可以通过“https:…

2024年阿里云2核4G服务器价格30元、165元和199元1年

阿里云2核4G服务器租用优惠价格&#xff0c;轻量2核4G服务器165元一年、u1服务器2核4G5M带宽199元一年、云服务器e实例30元3个月&#xff0c;活动链接 aliyunfuwuqi.com/go/aliyun 活动链接如下图&#xff1a; 阿里云2核4G服务器优惠价格 轻量应用服务器2核2G4M带宽、60GB高效…

Java代码基础算法练习-递归求数-2024.03.22

任务描述&#xff1a; 利用递归函数调用方式&#xff0c;将所输入的5个字符&#xff0c;以相反顺序打印出来。 任务要求&#xff1a; 代码示例&#xff1a; package march0317_0331;import java.util.Scanner;/*** m240322类&#xff0c;提供了一个反转输入字符串前5个字符的…

5G智能网关助力工业铸造设备监测升级

随着物联网技术的迅猛发展和工业4.0浪潮的推进&#xff0c;传统工业正面临着严峻的转型升级压力。在这一背景下&#xff0c;铸造行业——这一典型的传统重工业领域&#xff0c;也必须积极探索借助5G、物联网、边缘计算等技术提升生产经营效率的新路径。 本文就基于佰马合作伙伴…

论文笔记:液体管道泄漏综合检测与定位模型

0 简介 An integrated detection and location model for leakages in liquid pipelines 1 摘要 许多液体&#xff0c;如水和油&#xff0c;都是通过管道运输的&#xff0c;在管道中可能发生泄漏&#xff0c;造成能源浪费、环境污染和对人类健康的威胁。本文描述了一种集成的…

【联邦学习框架Fate1.11.1安装注意点】

官方文档&#xff1a;https://github.com/FederatedAI/FATE/blob/v1.11.1/deploy/standalone-deploy/README.zh.md 1.这里我们使用在主机中安装FATE(使用已编译的安装包) export version1.11.1 # 获取安装包 wget https://webank-ai-1251170195.cos.ap-guangzhou.myqcloud.co…

arm 解决Rk1126 画框颜色变色问题(RGB转NV12)

在Rv1126上直接对Nv12图像进行绘制时&#xff0c;颜色是灰色。故将Nv12转BGR后绘制图像&#xff0c;绘制完成后转成Nv12&#xff0c;BGR的图像颜色是正常的&#xff0c;但是NV12的图像颜色未画全&#xff0c;如图&#xff1a; 1.排查发现是RGB转NV12的函数出现问题&#xff0c…

【数据结构基础】之八大排序(C语言实现)

【数据结构基础】之八大排序(C语言实现&#xff09; &#x1f427; 冒泡排序♈️ 冒泡排序原理及代码实现♈️ 稳定性分析 &#x1f427; 选择排序♈️ 选择排序原理及代码实现♈️ 稳定性分析 &#x1f427; 插入排序♈️ 插入排序的原理及代码实现♈️ 稳定性分析 &#x1f4…

游戏服务端配置“热更”及“秒启动”终极方案(golang/ygluu/卢益贵)

游戏服务端配置“热更”及“秒启动”终极方案 ygluu 卢益贵 关键词&#xff1a;游戏微服务架构、游戏服务端热更、模块化解耦、golang 目录 一、前言 二、异步线程加载/重载方案 三、配置表碎片化方案 四、指针间接引用 五、重载通知 六、示例代码 七、相关连接 一、…

数字乡村引领新风尚:科技赋能农村实现全面进步

随着信息技术的迅猛发展&#xff0c;数字乡村正成为引领农村全面进步的新风尚。科技作为推动农村发展的强大引擎&#xff0c;正在深刻改变着传统农业的生产方式、农村的社会结构以及农民的生活方式&#xff0c;为农村经济社会的全面进步注入了新的活力和动力。本文将从数字乡村…

靶场拿下目标控制权

目标&#xff1a;登录目标网页的服务器&#xff0c;获取控制权原理&#xff1a;在网页上传大马来执行 网页&#xff1a;自己搭建的网站 网页的原本摸样 发现是metinfo 5.0.4版本&#xff0c;在网上搜索该版本建站的漏洞&#xff0c;搜索到有文件上传漏洞。 写一个html文件&a…

PwnLab靶场PHP伪协议OSCP推荐代码审计命令劫持命令注入

下载链接&#xff1a;PwnLab: init ~ VulnHub 安装&#xff1a; 打开vxbox直接选择导入虚拟电脑即可 正文&#xff1a; 先用nmap扫描靶机ip nmap -sn 192.168.1.1/24 获取到靶机ip后&#xff0c;对靶机的端口进行扫描&#xff0c;并把结果输出到PwnLab文件夹下&#xff0c;命名…

计算机网络——物理层(物理传输介质和物理层的设备)

计算机网络——物理层&#xff08;物理传输介质和物理层的设备 物理传输介质导向性传输介质双绞线同轴电缆光纤 非导向性传输介质无线电波多径效应 微波地面微波通信ISM 频段 卫星通信 物理层设备中继器集线器中继器和集线器的区别 我们今天进入物理层的物理传输介质和物理层的…

uniapp+uview 学习笔记(二)—— H5开发

文章目录 前言一、开发步骤1.创建项目2.安装组件库并导入使用3.封装请求4.国际化5.打包 总结 前言 本文主要介绍使用uniapp框架和uview组件库进行H5开发&#xff0c;需要用到的开发工具为HBuilder X。 一、开发步骤 1.创建项目 打开HBuilder X&#xff0c;在顶部栏目选择 新…

6、kubenetes 卷

1、什么是卷 在某些场景下&#xff0c;我们可能希望新的容器可以在之前容器结束的位 置继续运⾏&#xff0c;⽐如在物理机上重启进程。可能不需要&#xff08;或者不想要&#xff09; 整个⽂件系统被持久化&#xff0c;但又希望能保存实际数据的⽬录。 Kubernetes通过定义存储…

基于华为ensp的企业网络规划(新版)

基于华为ensp的企业网络规划&#xff08;新版&#xff09; 第一章 项目概述1.1 项目总体描述1.2 项目总体功能要求 第二章 可行性分析2.1 经济效益分析2.2 项目分析2.3 技术可行性分析2.4 项目风险分析 第三章 需求分析3.1 总体需求3.2 具体需求3.3 非功能需求 第四章 总体设计…

你是不是MySQL老司机?来看看这些explain结果你能解释吗?[害羞]

表结构表数据行数 这里Extra为什么是Filesort? 这里Extra为什么Using index 从这儿你可以猜出我MySQL的版本吗&#xff1f; 这里Extra为什么是NULL? 这里Extra为什么是Filesort? 你知道平时SQL该怎么写了吗&#xff1f;