超级干货 :手把手教你学习R语言(附资源链接)

作者:NSS;翻译:杨金鸿;校对:韩海畴,林亦霖;


本文约3000字,建议阅读7分钟
本文为带大家了解R语言以及分段式的步骤教程!


人们学习R语言时普遍存在缺乏系统学习方法的问题。学习者不知道从哪开始,如何进行,选择什么学习资源。虽然网络上有许多不错的免费学习资源,然而它们多过了头,反而会让人挑花了眼。


为了构建R语言学习方法,我们在Vidhya和DataCamp中选一组综合资源,帮您从头学习R语言。这套学习方法对于数据科学或R语言的初学者会很有用;如果读者是R语言的老用户,则会由本文了解这门语言的部分最新成果。


R语言学习方法会帮助您快速、高效学习R语言。


前言


在开始学习之前,第一个要回答的问题是:为什么要用R语言?或者R语言为何如此有用?


R语言是一门快速发展的开源软件,是SAS、STATA和SPSS这类商业软件的竞争对手。就业市场对R语言的需求正在迅速上升,微软等公司也同时承诺将致力让R语言成为数据科学通用语言。


看看由Revolution Analytics制作的90秒视频(https://www.youtube.com/watch?v=VlJnNSeO1uQ),您就知道R语言的用处。顺便说下,微软刚刚收购了Revolution Analytics。


步骤一:配置计算机环境


建立R语言学习环境最简单方法是通过综合R语言归档网络(CRAN)下载(https://cran.r-project.org/)到您的本地计算机上。可以选择Linux、Mac和Windows对应二进制文件下载。


您可能会考虑使用R语言自带的控制台,但我们建议您安装R语言集成开发环境(IDE)。RStudio(https://www.rstudio.com/)是最有名的IDE,它能让R语言编码更容易、更快,还能让您输入多行代码、处理图形、安装和维护程序,有效引导您的编程环境。RStudio此外可以选用基于eclipse的Architect(http://www.openanalytics.eu/architect)。如果需要安装图形用户界面GUI,请选择R-commander(http://www.rcommander.com/)或Deducer(http://www.deducer.org/pmwiki/index.php?n=Main.WindowsInstallation)


课后作业


  • 安装R和RStudio。


  • 安装Rcmdr、rattle和Deducer程序包。以及推荐或依赖的程序包,包括GUI。


  • 使用库命令加载安装程序,并打开GUI。


步骤二:R语言基础学习


您应该首先了解语言、库和数据结构基础知识。


如果您更倾向于在线交流方式学习R语法,DataCamp(https://www.datacamp.com/courses/free-introduction-to-r)提供的免费在线R教程是很好的资源。还可以选择后续课程:中级R编程(https://www.datacamp.com/courses/intermediate-r)。另一种学习方法是在线版本swirl(https://www.datacamp.com/swirl-r-tutorial),它能让您在类似RStudio环境中学习R语言。


在互动学习环境中,您可以选择参加Coursera(https://www.coursera.org/specializations/jhu-data-science)或Edx(https://www.edx.org/course/introduction-r-programming-microsoft-dat204x-0)上mooc课程。


除了上述在线资源,您还可以考虑以下优秀资源:


  • CRAN免费教学R语言(https://cran.r-project.org/doc/manuals/R-intro.pdf)

  • Jared Lander’s R for Everyone(http://www.jaredlander.com/r-for-everyone/)

  • Quick-R(http://statmethods.net/)



专门学习:阅读、数据帧、表、概述、描述、加载和安装包、使用绘图命令可视化数据。


课后作业


  • 使用DataCamp免费在线R教程,熟悉基本的R语法。


  • 创建Github(http://github.com/)账号。


  • 通过google帮助,解决安装过程中出现的问题。


  • 安装swirl包并学习R编程(见上文)


步骤三:了解R社


强大社区的存在是R语言发展迅速、大获成功的主要原因。社区中核心的是R语言的“包”生态系统。R语言程序包可以在CRAN、bioconductor、github和bitbucket中下载。在Rdocumentation(http://www.rdocumentation.org/)中,您可以轻松搜索来自CRAN、github和bioconductor中能满足您当前工作需要的程序包。与在R语言程序包生态系统同样重要的是,您可以在R endeavours上轻松获得帮助与反馈。首先,R内置帮助系统,您可以通过命令来访问。同时,在Analytics Vidhya Discussions,Stack OverflowR语言是增长最快语言。R-bloggers(http://www.r-bloggers.com/)汇集许多R语言爱好者写的博文。


课后作业:


  • 访问CranTask Views了解R语言生态系统。

  • http://r-bloggers.com上注册并订阅每日新闻。


步骤四:数据导入和操作


导入和操作数据是数据科学工作流程中重要步骤。R语言允许使用特定包导入不同数据格式,从而使您工作更轻松,如下:


  • readr:导入平面文件。

  • Readxl package:将excel文件转化为R语言。

  • haven package包:让您将SAS、STATA和SPSS数据文件导入R语言。

  • Databases:连接通过像RMySQL和RpostgreSQL包,使用DBI访问和操作。

  • rvest: 网页数据抓取。


一旦数据在工作环境中可用,您就可以使用下面程序包操作:


  • 整理数据的tidyr程序包。

  • stringr包处理字符串操作。

  • 对象数据帧,可以学习dplyr包输入和输出(https://www.datacamp.com/courses/dplyr-data-manipulation)。

  • 需要执行繁重数据争用任务?试试data.table程序包。

  • 执行时间序列分析?尝试一下像zoo,xts和quantmod程序包。


课后作业


  • 通过“导入数据进入R语言”课程,或阅读文章1、2、3、4。掌握导入数据软件包。

  • 通过RStudio观看Data Wrangling with R 。(https://www.rstudio.com/resources/webinars/data-wrangling-with-r-and-rstudio/)

  • 阅读并练习如何使用dplyr、tidyr和data.table程序包。


步骤五:有效数据可视化


自己创建数据可视化作品是一件很自豪的事情。然而,数据可视化既是一项技能,也是一门艺术。许多学者阅读Edward Tufte 的“可视化定量数据”原理,或者StephenFew的 “pitfalls on dashboard design”。也可以阅读NathanYau在FlowingData 写的博文,来获得创建R语言可视化灵感。


1. 平面图无处不在


R语言提供了多种创建图形方法,使用原理图创建图形是标准的方法。然而,有一些好的工具(或包)使用更简单的方式来创建,查看图形。


  • 在R语言中学习基本图形语法是数据可视化中一种实用方法。

  • 在R语言中ggplot是数据可视化中最重要的包,并且很受欢迎,网上有很多它的学习资源,比如在线ggplot2教程,cheatsheet ,和以及一本由哈德利韦翰编写的教学书。

  • ggvis程序包允许您使用基本图形语法创建交互式web图形(参见教程)。

  • 您知道Hans Rosling ted课程吗?教您如何的用googleVis(一个带有谷歌图表接口)来重建图表。

  • 如果您遇到了绘制数据的问题,这篇文章会对您有所帮助。在这个CRAN任务视图中可以查看到更多的可视化资源。或者查看R语言数据可视化指南。


2. 地图无处不在


您对分析空间可视化数据感兴趣吗?学习本教程:介绍R语言空间数据,您会轻松地使用这些包。


  • 源自Google maps和ggmap开放街道的静态图片,可用来创建可视化空间数据和模型。

  • Ari Lamstein’s中的choroplethr程序包。

  • tmap 程序包


640?wx_fmt=png


3. HTML插件


HTML插件是R语言可视化产品中非常有前景的插件,您可以用简单的方式创建交互式web可视化(参见RStudio教程),掌握这种可视化方法将会成为R语言学习中必备技能。其带来的视觉效果会给您朋友和同事留下深刻印象。


  • leaflet创建动态图片。

  • 使用dygraphs生成时间序列数据图表。

  • 互动表(datatable)

  • DiagrammeR创建图和流程图。

  • MetricsGraphics创建散点图、线图和直方图。


课后作业


  • 理解基本图形语法原理。

  • 学习ggplot2教程。

  • 使用RStudio环境学习html插件。


步骤六:数据挖掘、机器学习


对于新的统计数据学习方法,我们推荐下列资源:


  • Andrew Conway’s课程:R语言统计数据简介。

  • 杜克大学数据分析和统计推断。

  • R语言实用数据科学。

  • 约翰霍普金斯大学数据科学专业课程。

  • R语言数据科学使用指南。


如果您想提高机器学习能力,可以考虑从以下教程开始学习:


  • 机器学习算法要点。

  • 自行车共享大赛--一套R语言完整解决方案。

  • Kaggle上的机器学习课程。

  • 掌握机器学习。

  • 介绍机器学习。



确保在相关的CRAN任务视图中查看到R语言可用的机器学习资源。


课后作业


  • 从统计学课程开始入门。

  • 学习Kaggle上免费机器学习课程。

  • 看Rattle中的一些R语言数据挖掘书。

  • 可以从这本小册子上学习时间序列——A Little Book for Time Series in R .


步骤七:报告结果


与数据科学爱好者交流成果,分享见解是一件很重要的事情。幸运的是,R语言针对这个问题有一些非常实用工具。


第一个工具是R Markdown,采用knitr和pandoc复制方式生成您的数据分析结果报告。使用R markdown工具,R语言最终生成文档,替换R语言代码。文档可以是html、word、pfd、ioslides等格式。您可以通过本教程学到更多知识并使用cheatsheet作为参考资料。


第二个工具是ReporteRs,它是个创建Microsoft(Worddocx和Powerpoint pptx)和html R语言文档程序包,并可以在Windows、Linux、Unix和Mac OS系统上运行。像R Markdown工具一样自动生成R语言报告,点击这里我们来看看如何操作。


第三个是Shiny,目前R语言中最令人兴奋的工具。使R语言构建交互式web应用程序变得非常容易。您可以把分析报告转换为交互式web应用程序,您不需要了解HTML、CSS或Javascript相关知识。如果您想要学习Shiny ,请点击RStudio learning portal。


课后作业


  • 使用RMarkdown或ReporteRs创建第一个交互式报告。

  • 尝试构建一个Shiny应用。


练习


只有通过大量练习才能成为优秀R语言程序员。因此,要定期解决数据科学中的问题。我们的建议是赶紧开始与Kaggle上的数据科学家交流。

在解决问题中测试自己的R语言水平--练习中的问题。


步骤八:时间序列分析


R语言有一个用于专属任务视图时间序列。如果你想在R语言中做一些时间序列分析,这将是您开始的地方。您很快会发现工具的强大。


想要从在线资源中掌握时间序列分析是件不容易的事情。好的切入点是一本关于时间序列的书或者选择《原理与实践》这本书。在程序包方面,您需要熟悉Zoo与xts程序包。Zoo为您提供了常用的保存时间序列对象格式,而xts供了操作时间序列的数据集工具。


辅助资源: 时间序列综合教程。


课后作业


  • 选择上述列出的时间系列教程,开始您的分析。

  • 使用quantmod或quandl程序软件包下载财务数据,开始您的时间序列分析。

  • 使用诸如dygraphs的程序包创建您的可视化时间序列数据和分析。


文本挖掘一个重要工具


学习文本挖掘,您可以从edge课程中学习。虽然课程已经结束,但是您仍然可以访问这些课程。


练习


  • 文本挖掘竞赛--一套R语言的完整解决方案。


步骤九:成为R语言大师


现在您已经掌握了大部分R语言数据分析,是时候给出一些高级课程资源了。您很可能已经知道其中的一些内容,但不妨看看这些教程。


  • Hadley Wickham的高级R语言教程。

  • 在Hadoop、MongoDB或NoSQL中使用R语言。

  • 微软的RevoScaleR 程序包

 

原文链接:

https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/

作者:杨金鸿,北京护航科技有限公司员工,在业余时间喜欢翻译一些技术文档。喜欢阅读有关数据挖掘、数据库之类的书,学习java语言编程等,希望能在数据派平台上熟识更多爱好相同的伙伴,今后能在数据科学的道路上走的更远,飞的更远。

本文转自:数据派THU ;获授权;

END

合作请加QQ:365242293  

数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。

640?wx_fmt=png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/34237.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R语言---使用cgdsr包下载TCGA数据---笔记整理

原文链接:https://mp.weixin.qq.com/s?__bizMzAxMDkxODM1Ng&mid2247486492&idx1&sn3a7251244377fdd4b2a3aa5c8cd1131a&chksm9b484ca7ac3fc5b1a21202cf25ff15a8eec434424aa3e48787129fa6f5e66ebe57ffcb631772&scene21#wechat_redirect 一&…

R语言画词云图

词云图大家都很常见,主要是用来展示词语的频次,用来发现突出贡献的词语! 用于词云图的工具很多,但制作过程有些麻烦!今天我们来使用R语言做一下词云图,看看会有什么结果! 软件介绍 R RStudio 词云图教程 1.首先我们准备一个Excel文件,将单词或者词语,以及对应的频…

【教程】使用R语言绘制词云图

哈喽,大家好,我是木易巷~ 最近木易巷在了解R语言,今天给大家分享一下使用R语言绘制出词云图的教程。 什么是R语言 R语言是一个开源的数据分析环境,起初是由数位统计学家建立起来,以更好的进行统计计算和绘图。由于R可…

R语言入门——笔记(二)--包(package)的使用及RStudio的使用,加载包和数据集

一: 1.包(package)的使用 包是扩展R基本功能的机制,集成了众多函数。如果想使用某些函数而当前R中不存在,就可以找对应函数的包直接使用。 去哪里找包?如何使用包? CRAN: -install.packages…

1. R语言介绍、Rstudio的基本使用、帮助命令、内置数据集

b站课程视频链接:https://www.bilibili.com/video/BV19x411X7C6?p1 腾讯课堂(最新,但是要花钱,我花99元买了,感觉不错):https://ke.qq.com/course/3707827#term_id103855009 本笔记前面的笔记参照b站视频…

【R语言】如何直接调取Wind、iFinD数据接口教程

对于从事经济、金融研究类工作的新人们其实最先遇到的是主流金融终端使用问题。国内的氛围很奇怪,一碰上正儿八经能派上用场的东西业内人士总是讳莫如深,好像别人学去了他就马上失业,听说现在学个最基础的数据接口都动不动要付钱,…

R语言高级数据管理

文章目录 高级数据管理标准差绝对中位差分位数quantile()函数百分位数 数据预处理中心化标准化 (Standardization)数据中心化和标准化的区别归一化(Normalization)标准化和归一化 概率函数协方差控制流分支结构重复和循环 自定义函…

用R语言,生成微信聊天记录词云。

首先获取微信聊天记录:并导出为txt文件 基于R语言: #install.packages("jiebaRD") #install.packages("jiebaR") #install.packages("data.table") #install.packages("stringr") #install.packages("rJa…

R语言中自带的一些数据集

在用R语言做数据分析的时候,我们经常需要一些数据做实验,尤其当学会一个新的方法或者算法的时候,就想赶快编程实现一下。那么,问题来了,用什么数据好呢,什么样的数据适合做这种实验呢? 好在R语…

R语言---使用RTCGA包获取TCGA数据---笔记整理

原文链接:https://mp.weixin.qq.com/s?__bizMzAxMDkxODM1Ng&mid2247486585&idx1&sn3035f6420904aad2c8161b362cdeb472&chksm9b484cc2ac3fc5d479fc5bce3d68d4666b763652a21a55b281aad8c0c4df9b56b4d3b353cc4c&scene21#wechat_redirect 1.RTCGA…

R语言实操记录——获取包的三种渠道及安装包的三种方式

R语言 R语言实操记录——获取包的三种渠道及安装包的三种方式 文章目录 R语言一、获取包的三种渠道二、安装包的三种方式2.1、CRAN2.2、Bioconductor2.3、Github注意 一、获取包的三种渠道 渠道1 、CRAN:R语言的官网,里面包含有绝大多部分领域的大部分…

【R语言】2022年末特辑——ggsci包色版最详分享

目录 一、前言二、官方教程2.1 NPG2.2 AAAS2.3 NEJM2.4 Lancet2.5 JAMA2.6 JCO2.7 UCSCGB2.8 d32.9 locuszoom2.10 igv2.11 uchicago2.12 startrek2.13 tron2.14 futurama2.15 rickandmorty2.16 simpsons2.17 gsea2.18 material 三、讨论 一、前言 部分新手直接化用代码跑出来…

R语言txt文件自定义词云图

在R语言中获取txt文件文本,并进行词频统计,然后自定义词云图。 先获取txt文本 wordfreqs read.table("E:\\Python实训\\哔哩哔哩弹幕爬取\\dan_mu.txt",encoding "UTF-8")这是事先用python爬虫准备好的B站番剧(排球少…

基于R语言分析自带数据集heart

本文将对R语言中自带的heart数据集进行分析。本文会包含所有代码,尽可能多的使用有关可视化的函数以及数据分析的模型。 一、研究概述 1.1 数据集简介 数据集来源:使用R语言 glmpalh 包中自带的数据heart.data 数据集内容:该数据集描述了45…

摸鱼的小贤在瞎搞R - R语言内置数据集的使用

系列文章目录 1-R语言的安装及使用(还没写这个,太简单了不太想写) 2-R语言内置数据集的使用 …… 文章都会尽量详细,话多请见谅(我是话痨 文章目录 系列文章目录1. 查看包中有哪些数据集2. 查看某一特定数据集的基本信…

ChatGPT对高校人才培养模式的挑战与应对策略思考

酷吗?输入指令后直接就能生成一大串代码,即使不懂相关技术也能玩转编程,这就是ChatGPT赋予你的“新能力”,除了写代码,ChatGPT还能帮你执行各种五花八门的任务。 AI工具如ChatGPT在行业中的广泛应用对于行业的人才结…

如何使用SMS向客户传递服务信息?指南在这里!

关键词:SMS运营、实时聊天客服、聊天机器人 SMS作为一种客户服务策略正变得越来越流行。了解如何使用它,并在此获得一些有用的模板。 通过SMS发送客户服务信息是提升客户体验的一种强有力的方式,并使客户获得超出他们预期的快乐。它是最近许…

SMS Call---发送短信和打电话的方法

发送短信的方法 有两种方法可以实现发送短信,其一是使用intent-startActivity,URI数据格式为"smsto:num",调用的action为Intent.ACTION_SENDTO: Uri uri Uri.parse("smsto:5554"); Intent it new Intent(I…

ChatGPT token访问和API访问的区别,哪个更适合企业级应用?

文章目录 先介绍一下ChatGPT token访问和API访问的区别ChatGPT token访问和API访问哪种更适合企业级应用?如何搭建一个本地可以使用的 ChatGPT 聊天页面?微信公众号上如何对接 ChatGPT 并支持聊天? 先介绍一下 ChatGPT是基于OpenAI的GPT-4模…

UI设计:模仿淘宝App首页

UI设计:模仿淘宝App首页