最近在自学R语言,但是从纯粹的理论开始学习太慢了而且没有实操不太行,所以目前是在实际应用中查漏补缺,遇到什么临时学什么,然后把笔记都一一记录下啦。分享出来一边是方便自己查找,另一方面也是想方便和我一样入门的菜鸟哈哈哈,这个系列将持续更新哦。其中有些图表来源于网络,如有侵权联系可删 ~
目录
一、R语言介绍
二、快捷键
二、R语言包的学习
(一)ggplot2
1、数据
2、函数
三、知识点合集
(一)回归的种类
一、R语言介绍
- R语言对大小写比较敏感,命名可以数字、字母和 . 以及 _ 开头,但是如果以 . 开头,那么后面不可以接数字。
- 基本命令要么是表达式要么就是赋值。
- 命令可以被 ; 隔开,也可以直接跳到下一行。
- 基本命令可以通过大括弧{ }构成一个复合表达式。
- R的基本数据类型包括数值型(numeric)、字符型(character)、复数型(complex)、逻辑型(logical);对象类型有向量、因子、数组、矩阵、数据框、列表、时间序列。
二、快捷键
- 退出R程序:q()
- 自动补全:tab
- 清空console:ctrl+L
- 中断当前计算:ESC
- 执行代码: Ctrl+Enter 或者Run
- 查找:Ctrl+F
- 保存:Ctrl+S
- 撤销:Ctrl+Z
- 恢复:Ctrl+Y
- 删除整行:Ctrl+D
- 批量选择:alt
- 注释:Ctrl+Shift+C
- 更新:点击Update
- 查看某个包:help(package=“rpart”)
- 设置断点:browser( )或debug( )
- 加载R数据包:require( )或library( )
- 重新运行上一段代码: Ctrl + Shift + P
- 执行整个文件: Ctrl + Shift + Enter
- 获取工作路径:在Console中输入getwd( )
- 安装Package:点击Install输入包名,或者在Console中输入install.packages(' ')
- 中文注释换乱码:【Tools】→【Global Options...】→【Code】→【Saving】,选择UTF-8.
- R中常用的符号:
- R中常用的函数:
二、R语言包的学习
(一)ggplot2
一款图形可视化的R包,核心理念是将绘图与数据分离,按图层作图,其中图层包括三层——数据层、几何图形层和美学层,有利于结构化思维,同时保有命令式作图的调整函数,使其更具灵活性,绘制出来的图形美观,同时避免繁琐细节。包含以下几个概念,以下这些不同层之间都是使用“+”连接起来的,也就是最终是以图层的形式进行叠加展示。
- 数据(Data)和映射(Mapping):数据映到图像
- 标度(Scale):数据取值映射到图形空间,其中最主要的是图形属性(aesthetic attributes,记作aes),例如用:颜色、大小、形状表示不同取值
- 几何对象(Geometric Object,记作geom):统计图中看到的实际元素,比如点、线、多边形等
- 统计变换(Statistics Transformation,记作stats):对数据进行某种汇总,如直方图,或将二维关系用线性模型解释
- 坐标系统(Coordinate System,记作coord):指的是数据如何映射到图形所在平面,提供作图所需的坐标轴和网格线
- 图层(Layer):将数据分解为子集,进行联合展示
- 分面(Facet):对所需的绘图操作进行一层一层叠加,最终得到所需图形,将绘图窗口分成若干个子窗口。
1、数据
在使用ggplot2的过程中,接受的数据集必须是以data.frame格式的。
2、函数
(1)ggplot( ):找到映射的对应关系,data=(数据集),新手训练的时候可以使用ggplot2中自带的mpg数据集进行练习。
(2)aes( ):映射函数,分别使用 x =(x轴坐标内容)
,y =(y轴坐标内容)
制定需要映射的变量。
(3)geom_point ( ):散点图绘制函数。
library(ggplot2)
ggplot(data=mpg,mapping=aes(x=cty,y=hwy))+geom_point()
这个地方的代码还可以拓展一下,函数的变化还是非常灵活的。
比如,按照年份这个变量变换颜色。
ggplot(data=mpg,mapping=aes(x=cty,y=hwy,color=factor(year)))+geom_point()
其实这里的"data=","x=","y="都可以省略,同时试着把factor省略。另外,这里的“color( )”放在ggplot( )中和geom_point( )中都是可以的,两个代码的图都是一样的哦。
ggplot(mpg,mapping=aes(cty,hwy,color=year))+geom_point()
ggplot(mpg,mapping=aes(cty,hwy))+geom_point(aes(color=year))
(4)geom_histogram( ):直方图绘制函数,针对连续变量。
library(ggplot2)
ggplot(data=mpg,mapping=aes(x=hwy))+geom_histogram()
(5)geom_bar( ):柱形图绘制函数,也称柱形图,针对离散变量。
(6)geom_density( ):密度图绘制函数。
(7)geom_box( ):箱线图绘制函数。
其他的一些几何对象变换可选。
(8)stat_smooth( ):拟合曲线。
ggplot(mpg,mapping=aes(cty,hwy,color=year))+geom_point()+stat_smooth()
其他的统计变换函数可选。
(9)facet_wrap( ):分面函数。
ggplot(mpg,mapping=aes(cty,hwy,color=year))+geom_point()+stat_smooth()+facet_warp(~year)
两张图在一行有点拥挤,可以指定行和列。其中,指定列使用ncol= ,指定行用nrow= 。
ggplot(mpg,mapping=aes(cty,hwy,color=year))+geom_point()+stat_smooth()+facet_wrap(~year,ncol=1)
(10)主题函数: labs( )、xlab()、ylab()、theme( )
ggplot(mpg,mapping=aes(cty,hwy,color=year))+geom_point()+stat_smooth()+facet_wrap(~year,ncol=1)+labs(x='每加仑城市公路行驶距离',y='每加仑高速公路行驶距离',title='汽车油耗与型号')
再来调整一下标题的位置和美观程度。
ggplot(mpg,mapping=aes(cty,hwy,color=year))+geom_point()+stat_smooth()+facet_wrap(~year,ncol=1)+labs(x='每加仑城市公路行驶距离',y='每加仑高速公路行驶距离',title='汽车油耗与型号')+theme(plot.title = element_text(hjust = 0.5))
ggplot(mpg,mapping=aes(cty,hwy,color=year))+geom_point()+stat_smooth()+facet_wrap(~year,ncol=1)+labs(x='每加仑城市公路行驶距离',y='每加仑高速公路行驶距离',title='汽车油耗与型号')+theme_bw()+theme(plot.title = element_text(hjust = 0.5),panel.grid = element_blank())
同时,ggplot2中提供很多可以直接使用的主题。比如theme_grey ()是默认主题,theme_bw( )是白色背景主题,theme_classic( )是经典主题。
三、知识点合集
(一)回归的种类
- 简单线性:一个量化的解释变量预测一个量化的响应变量(一个因变量、一个自变量)
- 多项式:一个量化的解释变量预测一个而量化的响应变量,模型关系是n阶多项式(一个预测变量,但同时包含变量的幂)
- 多元线性:两个或多个解释变量预测多个相应变量
- Logistic:一个或多个解释变量预测一个类别型变量
- 泊松:一个或多个解释变量预测一个代表频数的响应变量
- Cox比例风险:一个或多个解释变量预测一个事件发生的时间序列对误差项相关的时间序列数据建模
- 非线性:一个或多个量化的解释变量预测一个量化的响应变量,不过模型是非线性的
- 非参数:一个或多个量化的解释变量预测一个量化的响应变量,模型的形式源自数据形式,不事先设定
- 稳健:一个或多个量化的解释变量预测一个量化的响应变量,能抵御强影响点的干扰
- OLS回归:通过预测变量的加权和来预测量化的因变量,其中权重使通过数据估计而得以的参数,主要是使残差平方和最小。
- 用lm()拟合回归模型:格式是myfit <- lm(formula,data),formula指要拟合的模型形式,data是一个数据框,包含了用于拟合模型的数据,formula形式如下:Y~X1+X2+……+Xk (~左边为响应变量,右边为各个预测变量,预测变量之间用+符号分隔)。