数据分析中的Excel、R、Python、SPSS、SAS和SQL

作为一直想入门数据分析的童鞋们来说,如何选定一门面向数据分析的编程语言或工具呢?注意是数据分析,而不是大数据哦,数据分析是基础了。

 

数据分析的工具千万种,综合起来万变不离其宗。无非是数据获取、数据存储、数据管理、数据计算、数据分析、数据展示等几个方面。而被提到频率最高的如Excel、R、Python、SPSS、SAS、SQL等。那么,这些工具本身到底有什么特点呢,应该如何合理的使用来解决数据分析的各种问题?

 

最简单的是EXCEL,它不仅是简单的而且是必备的。正所谓初级学图表,中级学函数透视表,高级学习VBA。EXCEL功能的强大只有那些正真学过它的人才能知道,我们反对任何关于EXCEL复杂,不实用的说法。在学完VBA之后,EXCEL几乎能解决你在日常工作中遇到的所有问题。EXCEL是你成为数据分析师的必备条件。

 

对于一个初级的数据分析师来说,刚开始如果能精通SQL与Excel再会点SPSS之类的就差不多了。SPSS对用户的要求是只要会点击菜单就可以了,有编程窗口但是一般没人用,用户多是受到过一些统计训练的,但不需要高深的分析能力,市场调研用的比较多,统计专业的学生一般要求掌握。

 

再往后,你可能就需要精通一门统计分析软件了,一般说来如果是互联网行业可能R语言是最为流行,因为R语言是开源的,不过上手还是需要长期的学习;SPSS界面友好型,不过一般是市场研究用的比较多,如果你会用SPSS编程,其实功能还是比较强大的,建议如果想先练手可以学这个,上手快;SAS一般是金融企业特别是银行业和医学统计,银行业人员有一些是用SAS做统计,一般是银行业内部人做的,另一种是给银行业做数据挖掘的公司,不过正版一年也要上百万,不是土豪也用不起,而且SAS学习没人指导很难学;所以看童鞋们的选择,想在传统或者咨询公司做的SPSS比较合适,想去金融特别是银行业SAS不错,想进互联网公司学R语言可能是比较明智。

 

再就是Python。Python在这些工具里面是综合功能最强大的,但是这些功能分散在第三方库里面,没有得到有机的整合,所以学习成本还是比较高的。Python与R不同,Python是一门多功能的语言。数据统计是更多是通过第三方包来实现的。具体来说,常用的Python在统计上面的Package有这样一些:

 

1、Numpy与Scipy。这两个包是Python之所以能在数据分析占有一席之地的重要原因。其中Numpy封装了基础的矩阵和向量的操作,而Scipy则在Numpy的基础上提供了更丰富的功能,比如各种统计常用的分布和算法都能迅速的在Scipy中找到。

 

2、Matplotlib。这个Package主要是用来提供数据可视化的,其功能强大,生成的图标可以达到印刷品质,在各种学术会议里面出镜率不低。依托于Python,可定制性相对于其他的图形库更高。还有一个优点是提供互动化的数据分析,可以动态的缩放图表,用做Adhoc analysis非常合适。

 

3、Scikit Learn。非常好用的MachineLearning库,适合于用于快速定制原型。封装几乎所有的经典算法,易用性极高。

 

4、Python标准库。这里主要是体现了Python处理字符串的优势,由于Python多功能的属性和对于正则表达式的良好支持,用于处理文本是再合适不过的了。

Python是一套比较平衡的语言,各方面都可以,而R是在统计方面比较突出。R的优势在于有包罗万象的统计函数可以调用,特别是在时间序列分析方面(主要用在金融分析与趋势预测)无论是经典还是前沿的方法都有相应的包直接使用;相比Python在这方面贫乏不少。Python的优势在于其胶水语言的特性,一些底层用C写的算法封装在Python包里后性能非常高效。

 

总之R和SAS是专业性比较强的统计软件,统计专业学生必备,SPSS是更大众化的统计软件,Python不是统计软件,而是一种可以用来做各种事情的语言。R和Python现在越来越受到各大公司的喜欢,也必定会成为将来的发展趋势。Python的功能可远远不止用来分析数据,它可以用来开发,建站,写个小APP什么的。我们所知道的果壳网,知乎,DROPBOX等可都是用Python写得哦。如果你能同时学会Python和R,在数据科学领域肯定就游刃有余了。

 


名称

特点

适用场景

出现频数

1

Excel

一般非大量数据分析的人员可以满足大部分需求

财务、金融、产品经理等一般数据量处理需求

较高,作为普通技能

2

R语言

兼容性强,语言程序化也强,在编程语言方面需要投入的精力比Python大,但适用面较广

最常用数据分析工具之一,兼容性强

高频工具之一

3

Python

Life is too short,I use Python

以语言简单,注重数据分析的高效著称,尤其是在文本处理等数据结构化方面有很好优势

编程类数据分析,如文本字符等非结构化数据的处理

高频工具之一

4

SQL

数据库处理和分析的必备技能,属于数据库方面的基本工具

侧重数据库方面,如数据仓库等,作为Oracle等数据库方面的基础知识不可或缺

高频工具之一

5

SPSS

统计分析功能强大,侧重于统计分析类模型

建模能力已经不局限于统计了,在预测、机器学习方面也有很多包

频率一般

6

SAS

金融大数据分析

金融风控建模较多

金融投资数据建模常用工具之一

7

Matlab

矩阵计算等数学专用建模工具

强大的各种工具包,以及仿真能力

侧重于数据本身的计算,院校科研用的较多

 

总的来说,不同工具各有擅场,最关键的当然还在于业务的掌握和数学方法的掌握(统计学和机器学习等核心方法)。但磨刀不误砍柴工,把基本工具掌握熟练了百利无一弊。而当你要做大数据分析的时候,还会用到Hadoop等工具(实际上这些工具都是可以结合Hadoop大数据平台联合起来用的,后面专题介绍)。而且,工具不是万能的,业务和数据建模方法才是万法之源。不要被工具迷花了眼哦!


工欲善其事,必先利其器!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54331.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SPSS数据分析-交叉表分析

交叉表(交叉列联表) 分析法是一种以表格的形式同时描述两个或多个变量的联合分布及其结果的统计分析方法,此表格反映了这些只有有限分类或取值的离散变量的联合分布。 当交叉表只涉及两个定类变量时,交叉表又叫做相依表。 交叉列联表分析易于理解&#x…

用SPSS做数据分析(1)

写在前面: 爬虫今天停更一天,今天是周六,今天要把最近网课学习SPSS课程做个总结和回顾,明天继续更新爬虫的内容,今天这篇文章主要是SPSS中的数据管理,一些关于数据的简单操作,是属于SPSS中比较基础的内容,希望看完博客能动手亲自实践一下,会有奇效 文章目录 写在前面:SPSS数据…

spss分析方法-T检验

t检验&#xff0c;也称student t检验&#xff08;Students t test&#xff09;&#xff0c;主要用于样本含量较小&#xff08;例如n < 30&#xff09;&#xff0c;总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率&#xff0c;从而比较两个平均数的差异…

用SPSS进行多变量数据分析

用SPSS进行多变量数据分析 1.将所给的数据输入SPSS 22.0中文版。分别设置变量为温度&#xff0c;体重1、2、3、4&#xff1b;体重&#xff0c;温度5、10、15、20、30。 2.用SPSS进行作图&#xff08;过程略&#xff09;。 3.对数据进行多因素变量分析&#xff0c;具体操作如…

利用SPSS做数据分析①(了解SPSS)

话不多说&#xff0c;上才艺&#xff0c;BGM&#xff0c;BGM&#xff0c;BGMBGM。。。哈哈哈哈 不闹了&#xff0c;接下来让我们一起认识一个非常好用的数据分析工具&#xff1a;SPSS 1、SPSS是什么&#xff1f; SPSS是广大统计爱好者和数据分析师最熟悉的名字&#xff0c;它…

SPSS:数据分析

目录 1、数据采集 2、数据是否服从正态分布 3、T检验&#xff08;T Test&#xff09; 4、方差分析&#xff08;ANOVA&#xff09; 5、卡方检验&#xff08;Chi-square Test&#xff09; 6、灰色关联度分析&#xff08;Grey Relation Analysis&#xff0c;GRA&#xff09;…

SPSS数据分析

第一题 表1 居民健康状况调查情况 编号 身高 &#xff08;cm&#xff09; 体重 &#xff08;kg&#xff09; 代谢综合征 性别 胆固醇 &#xff08;mmol/L&#xff09; 1 173.0 87.5 0 0 4.17 2 168.0 74.5 1 0 5.43 3 159.5 60.2 0 0 5.15 4 175.2 …

明着呼吁暂停,暗着囤积GPU,马斯克暗度陈仓玩得溜

众所周知&#xff0c;此前马斯克纠集了上千名科技工作者对生成式人工智能的深度训练表示了质疑&#xff0c;呼吁暂停继续对深度人工智能的训练&#xff0c;哪怕先暂停六个月。呼吁的尘埃还没有彻底落地&#xff0c;就传出了马斯克已经悄悄地囤积了上万枚GPU&#xff0c;构建自己…

小红薯笔记/帖子采集工具

小红书【笔记/帖子】采集工具 链接&#xff1a; http://106.53.68.168:9920/xhs-keyword-spider 规则及操作 &#xff08;1&#xff09;规则&#xff1a; 按照关键词抓取规则&#xff1a;标题中或者正文内容中包含该关键词都能被抓取下来。多种搜索模式可选&#xff0c;分别…

Python实现微信自动发送消息

目标&#xff1a; ①Python定时发送微信消息&#xff1b; ②Python实时发送微信消息。 使用键位编码win32api、win32con 或者send_keys实现发送微信消息。 首先以win32api、win32con为例&#xff1a; """ 实现定时自动发送消息 """import tim…

2020年中国数字阅读产品营销洞察报告

全民阅读七入政府工作报告&#xff0c;数字阅读行业乘政策东风。数字阅读行业市场规模2020年预计突破200亿&#xff0c;彰显数字阅读平台具有较高的媒体价值。同时&#xff0c;数字阅读用户规模突破4亿&#xff0c;用户使用时长波动式增长&#xff0c;对平台黏性高。 数字阅读…

数据驱动的互联网营销和运营专用名词速览

来源&#xff1a;网站分析在中国 数据猿官网 | www.datayuan.cn 今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云云社区 最基本的名词&#xff08;14个&#xff09; Ads&#xff1a;就是广告&#xff08;名词…

Day06-数据分析在各行各业的应用与数据思维

数据分析在各行各业的应用 数据分析在各行各业的应用 计算机、金融、财务会计、医药专业、艺术专业、语言类专业、法律专业、设计、电商 相信很多人都听到过不少次数据分析这一词&#xff0c;而数据分析这个次近几年来随着互联网的快速发展&#xff0c;成为商业世界中的流行语…

广告营销用户点击预测分析

广告营销用户点击预测分析 零、数据集以及数据集简介以及任务分析一、数据预处理1、加载检查数据&#xff08;1&#xff09;特殊特征&#xff08;2&#xff09;特殊特征的处理&#xff08;3&#xff09;特殊特征处理后生成的新特征 2、数据类型与缺失值处理&#xff08;1&#…

雅思阅读真经总纲_雅思天团集训课流程介绍

欢迎宝宝们来到我们为期7天的雅思天团集训营&#xff0c;下面来给大家介绍一下这7天你将如何度过~ 课程简介及课前准备 本次课程时间为7天&#xff0c;第一天需要同学们提早到场进行签到&#xff0c;最后一天还给同学们安排了有关留学的讲座&#xff0c;为大家介绍2021年留学政…

全渠道数字化营销平台

01 互联网行业背景 在数字经济时代&#xff0c;用户面临的消费场景和沟通场景都更加碎片化。因此&#xff0c;企业急需一款数字化营销工具打造属于自己的用户数据池&#xff0c;深入整合、挖掘现有数据&#xff0c;以更高效、更个性化的方式进行营销活动&#xff0c;实现与用户…

数字化营销服务-如何进行数字化营销?

1、数字营销服务&#xff1a;如何进行数字营销&#xff1f; 第二点是数字营销对比电视、广播等传统营销方式的解读&#xff1b; 第三点是数字营销带来的红利的解读。很多人认为数字营销是一种低成本获取流量的方式&#xff0c;但这其实是一种偏见&#xff1b; (2)尽可能的数…

【PythonBA】商业分析:Business Analytics 的理解

猛戳订阅! 👉 《一起玩蛇》🐍 📜 本章目录: Ⅰ. BA 的基础概念 0x00 什么是商业分析(Business Analytics) 0x01 Explain 和 Predict

利用大数据精准营销,给消费者一个选You的理由!

【数据猿导读】大数据是社会科学重要的进展&#xff0c;但企业要精准抓住未来&#xff0c;经理人要拥有更好的决断力&#xff0c;还是要基于对不同人、不同性的理解&#xff0c;而不仅是科技工具的使用而已。 官网 | www.datayuan.cn 微信公众号ID | datayuancn 尺有所短&#…

关于数字化营销,最通俗的讲解在这里

文章来源&#xff1a;微信公众号接地气学堂 作者&#xff1a;接地气的陈老师 营销向来是各种玄幻词汇出没之地&#xff0c;特别是阿里高调大喊“数字化转型”以后&#xff0c;又冒出来一个“数字化营销”。搞得很多做数据的同学一脸蒙圈&#xff1a;咋个又数字化了&#xff0…