目录
缺失数据
1 R中的缺失值
2查看缺失值is.na()
3 去除缺失值
1 R中的缺失值
在R中,NA代表缺失值,NA是不可用(可能是0,可能是其他值,NA是未知的),notavailable的简称,用来存储缺失信息。NA不等于0
用na.rm这个参数,可以跳过这个NA进行计算:
2查看缺失值is.na()
is.na(sleep)
查看数据集中的缺失值情况:
colSums(sleep)
rowSums(sleep)
可以看出每行每列的缺失值情况,只有全部没有NA才能进行求和:
3 去除缺失值
na.omit函数可以去除向量中的缺失值:
而处理数据框中的缺失值,则是则是将包会缺失值的每行都删掉。
处理前:
处理后:
其他缺失值:
1、缺失数据NaN,代表不可能的值
2、Inf表示无穷,分为正无穷Inf和负无穷Inf,代表无穷大或者无穷小,
区别:
1、NA是存在的值,但是不知道是多少
2、NaN是不存在的
3、Inf存在,是无无穷大后者无穷小,但是表示不可能的值.
也有函数对应查看:
> is.nan(0/0)
> is.infinite(1/0)