大数据分析应用-初级
第一部分 基础知识
一、大数据法律法规、政策文件、相关标准
二、计算机基础知识
三、信息化基础知识
四、密码学
五、大数据安全
六、数据库系统
七、数据仓库.
第二部分 专业知识
一、大数据技术与应用
二、大数据分析模型
三、数据科学
数据可视化
- 大数据分析应用-初级
- 前言
- 一、BI(Business Intelligence)的概念及应用
- 二、常见可视化图形的概念
- 练习题目
前言
数据可视化
1、了解BI(Business Intelligence)的概念及应用。
2、了解常见可视化图形(散点图、折线图、饼图、环图、柱状图)的概念,具有初步的可视化图形展示数据的能力。
一、BI(Business Intelligence)的概念及应用
一、概念
定义
- 商业智能(Business Intelligence,简称 BI)是一套完整的解决方案,用于将企业中现有的数据进行有效的整合、提取、分析和展示。它帮助企业的管理者和决策者通过数据洞察企业的运营状况、发现问题、识别机会,从而做出更明智的业务决策。
- 从技术角度讲,BI 涵盖了数据仓库(Data Warehouse)、联机分析处理(OLAP - On - Line Analytical Processing)、数据挖掘(Data Mining)和报表工具(Reporting Tools)等多种技术。数据仓库是存储大量结构化数据的系统,为后续的分析提供数据基础。OLAP 允许用户从多个维度对数据进行快速分析,例如按时间、地域、产品类别等维度分析销售数据。数据挖掘则侧重于发现数据中的潜在模式和关系,如通过关联规则挖掘发现购买某种产品的客户同时也可能购买其他相关产品。报表工具用于以直观的图表和表格形式展示分析结果。
数据处理流程
- 数据收集:从各种数据源(如企业资源规划系统 ERP、客户关系管理系统 CRM、数据库、文件系统等)获取数据。这些数据源可能包含结构化数据(如数据库中的表格数据)、半结构化数据(如 XML 或 JSON 格式的数据)和非结构化数据(如文本文件、图像等,不过在传统 BI 中主要关注结构化数据)。
- 数据清洗:对收集到的数据进行预处理,包括处理缺失值(如用均值、中位数或其他合适的方法填充缺失的数值)、纠正错误数据(如将错误的日期格式更正)、去除重复数据等操作,以提高数据质量。
- 数据转换:将数据转换为适合分析的形式。例如,将数据标准化,使不同范围的数值能够在同一尺度上进行比较;或者对数据进行编码,将分类数据转换为数字形式以便于计算机处理。
- 数据分析:这是核心步骤,运用统计分析、数据挖掘等方法对数据进行处理。例如,计算销售数据的平均值、中位数、标准差等统计指标,或者通过聚类分析将客户分为不同的群体,以便进行针对性的营销。
- 数据可视化与报告:将分析结果以直观的图表(如柱状图、折线图、饼图等)、图形(如地图、流程图等)和报告的形式展示出来,使决策者能够快速理解数据含义。
二、BI的应用
BI可以应用于各个行业和领域,包括但不限于:
- 金融行业:客户行为分析、风险管理等。通过BI,金融机构可以更好地了解客户需求,优化产品和服务,同时降低风险。
- 零售业:销售数据分析、库存管理等。BI可以帮助零售商追踪销售数据,分析市场趋势,优化库存管理,降低成本。
- 医疗保健:患者数据分析、资源配置等。通过BI,医疗机构可以更好地了解患者需求,优化资源配置,提高服务质量。
- 制造业:生产流程优化、质量控制等。BI可以帮助制造商优化生产流程,提高产品质量,降低成本。
- 销售和市场营销:BI可以追踪销售数据、分析市场趋势、评估市场份额和竞争对手活动,帮助企业制定有效的销售策略。
- 供应链管理:BI可以监控供应链运作情况,优化库存管理,降低成本并提高效率。
- 客户关系管理:BI可以帮助企业了解顾客需求、分析顾客行为和偏好,提供个性化的产品和服务。
- 财务管理:BI可以对企业财务数据进行分析和预测,帮助企业管理风险、优化财务决策。
- 人力资源管理:BI可以分析员工数据、评估绩效和满意度,帮助企业招聘、培训和留住人才。
二、常见可视化图形的概念
散点图(Scatter Plot)
- 概念:散点图是一种用笛卡尔坐标系展示两个变量之间关系的图形。它将数据集中的每个数据点以坐标(x,y)的形式绘制在平面上,其中 x 轴和 y 轴分别代表两个不同的变量。通过观察这些点的分布情况,可以直观地发现变量之间是否存在某种关联,如正相关(点的分布呈现从左下角到右上角的趋势)、负相关(从左上角到右下角的趋势)或者没有明显的相关性(点的分布比较杂乱)。
- 应用场景示例:假设研究学生的学习时间和考试成绩之间的关系。将学习时间作为 x 轴变量,考试成绩作为 y 轴变量,每个学生的数据点(学习时间,考试成绩)就构成了散点图。如果大部分点呈现从左下角到右上角的趋势,就可以初步判断学习时间和考试成绩可能存在正相关关系,即学习时间越长,考试成绩越高。
- 制作要点:
- 确定 x 轴和 y 轴所代表的变量,要确保变量的选择有实际意义,能够体现出想要探究的关系。
- 适当调整坐标轴的刻度范围,以完整地展示数据点的分布情况,避免数据点过于集中在某个区域或者超出坐标轴范围。
折线图(Line Chart)
- 概念:折线图主要用于展示数据随时间或其他连续变量的变化趋势。它通过将一系列数据点按照顺序用直线连接起来,清晰地反映出数据的增减变化情况。折线图中的横轴通常代表时间或其他连续的序列,纵轴代表相应的数据值。
- 应用场景示例:在股票市场中,用折线图来展示某只股票在一段时间内(如一个月、一年)的价格走势。横轴是日期,纵轴是股票价格。通过折线的上升和下降,可以很直观地看到股票价格的波动情况,投资者可以据此分析股票的走势,如上涨趋势、下跌趋势或者盘整阶段。
- 制作要点:
- 数据点的顺序要按照时间或连续变量的顺序排列,这样连接起来的折线才能正确地反映变化趋势。
- 为了更清晰地展示趋势,可以添加趋势线(如线性趋势线、多项式趋势线等),并且标注出关键的数据点(如最大值、最小值、转折点等)。
饼图(Pie Chart)
- 概念:饼图是用于展示各部分占总体比例关系的圆形统计图表。整个圆代表总体,各个扇形的大小表示相应部分占总体的百分比。饼图能够直观地呈现出各部分之间的相对大小关系。
- 应用场景示例:分析一家公司的业务收入来源结构。假设公司有产品 A、产品 B 和服务 C 三种主要业务,将公司的总收入看作一个整体(即 100%),分别计算产品 A、产品 B 和服务 C 的收入占总收入的百分比,然后用饼图展示。通过扇形的大小,可以快速看出哪种业务收入占比最大,哪种业务占比最小。
- 制作要点:
- 一般情况下,饼图的部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分。
- 要按照一定的顺序(如从大到小等)排列扇形,并且标注出每个扇形所代表的类别名称和占比数值,最好还能加上不同的颜色或图案来增强区分度。
环图(Doughnut Chart)
- 概念:环图可以看作是中间有一个空洞的饼图。它和饼图类似,也是用于展示各部分占总体的比例关系。不过,环图可以在中间的空洞部分添加其他信息,如总数值、另一个相关的指标等,并且可以通过嵌套环来展示更复杂的层次结构。
- 应用场景示例:在市场调研中,调查消费者对不同品牌手机的偏好情况。用外环表示不同品牌手机的市场占有率,在内环的空洞部分可以显示总的调查人数或者手机市场的总规模。如果要进一步细分品牌手机的不同型号的市场占有率,还可以通过嵌套的内层环来展示。
- 制作要点:
- 与饼图类似,部分数量过多会使图形复杂。对于嵌套环图,要注意合理安排各层环所代表的内容,并且确保每层环的比例计算正确,颜色搭配要清晰,便于区分不同的层次。
柱状图(Bar Chart)
- 概念:柱状图是一种以长方形的长度为变量来展示数据的统计图。它通常用于比较不同类别之间的数据大小。柱状图的横轴代表不同的类别,纵轴代表数据的数值大小,每个类别对应的数值用一个垂直的柱子来表示,柱子的高度与该类别数据的大小成正比。
- 应用场景示例:比较不同城市的人口数量。将城市名称作为横轴的类别,人口数量作为纵轴的数据。每个城市对应的柱子高度就反映了该城市的人口数量,通过柱子的高低对比,可以很容易地看出哪个城市人口最多,哪个城市人口最少。
- 制作要点:
- 柱子之间要保持适当的间隔,以便区分不同的类别。间隔过窄会使图形显得拥挤,间隔过宽可能会影响视觉上的比较效果。
- 可以添加数据标签在柱子上,直接显示每个类别对应的数值,并且根据需要可以对柱子进行颜色填充或图案装饰,增强视觉吸引力。同时,要注意纵轴刻度的起始值,避免因为刻度设置不当而造成数据对比的误导。
练习题目
单选题
(1)以下哪项不是 BI 的核心技术?( )
A. 数据仓库
B. 机器学习算法(如深度学习)
C. 联机分析处理(OLAP)
D. 报表工具
答案:B
解析:BI 主要涵盖数据仓库、联机分析处理(OLAP)和报表工具等技术。数据仓库用于存储数据,OLAP 用于多角度分析数据,报表工具用于展示结果。机器学习算法(如深度学习)虽然在数据分析中有应用,但不是 BI 的核心技术,BI 更侧重于传统的数据处理和分析方式来支持商业决策。
(2)BI 在企业中的主要作用是( )
A. 代替人工进行数据分析
B. 存储海量数据
C. 帮助管理者做出更明智的决策
D. 进行数据加密
答案:C
解析:BI 的主要目的是整合、分析企业数据,通过数据洞察来帮助企业的管理者和决策者发现问题、识别机会,从而做出更明智的业务决策。它不是完全代替人工分析,数据存储主要是数据仓库的功能,数据加密不是其主要作用。
(3)要展示一个班级学生的身高分布情况,最合适的图形是( )
A. 折线图
B. 饼图
C. 柱状图
D. 散点图
答案:C
解析:柱状图适合用于比较不同类别(这里是不同身高区间)之间的数据大小。可以将身高区间作为横轴,每个区间内的学生人数作为纵轴,通过柱子的高度直观地比较各身高区间的人数多少。折线图主要用于展示变化趋势,饼图用于展示比例关系,散点图用于展示两个变量之间的关系,都不适合展示身高分布情况。
(4)如果想观察某产品的市场份额随时间的变化情况,应该选择( )
A. 环图
B. 折线图
C. 散点图
D. 柱状图
答案:B
解析:折线图用于展示数据随时间或其他连续变量的变化趋势。在这里,将时间作为横轴,产品的市场份额作为纵轴,通过折线的变化可以清晰地看到市场份额随时间的增减情况。环图主要用于展示比例关系,散点图用于展示两个变量的关系,柱状图主要用于比较不同类别之间的数据大小,不符合要求。
多选题
(1)BI 的数据处理流程包括以下哪些步骤?( )
A. 数据收集
B. 数据清洗
C. 数据转换
D. 数据分析
E. 数据可视化与报告
答案:ABCDE
解析:BI 的数据处理流程是一个完整的体系。首先要从各种数据源收集数据,然后对收集的数据进行清洗,去除错误和不完整的数据。接着进行数据转换,使其适合分析。之后进行数据分析,挖掘有价值的信息。最后通过数据可视化与报告的方式将分析结果展示出来。
(2)BI 可以应用于以下哪些企业领域?( )
A. 销售与市场营销
B. 财务管理
C. 供应链管理
D. 人力资源管理
答案:ABCD
解析:在销售与市场营销领域,可用于销售分析、客户分析和营销活动评估等;在财务管理领域,可用于财务报表分析、预算与成本控制、财务风险管理;在供应链管理领域,用于库存管理、供应商管理和物流配送管理等;在人力资源管理领域,可用于员工绩效分析、人力资源规划等。
(3)以下哪些图形可以用于展示数据的比例关系?( )
A. 饼图
B. 环图
C. 柱状图
D. 散点图
答案:AB
解析:饼图是专门用于展示各部分占总体比例关系的图形,整个圆代表总体,各个扇形表示各部分占比。环图和饼图类似,也用于展示各部分占总体的比例关系,还可以在中间添加其他信息。柱状图主要用于比较不同类别之间的数据大小,散点图用于展示两个变量之间的关系,它们一般不用于展示比例关系。
(4)散点图可以帮助我们发现( )
A. 变量之间的正相关关系
B. 变量之间的负相关关系
C. 变量之间的因果关系
D. 变量之间没有明显相关性
答案:ABD
解析:通过观察散点图中点的分布情况,可以直观地发现变量之间是否存在正相关(点从左下角到右上角分布)、负相关(点从左上角到右下角分布)或者没有明显的相关性(点分布杂乱)。但是散点图本身不能确定变量之间的因果关系,因果关系需要通过更深入的实验或分析来确定。
判断题
(1)BI 主要关注非结构化数据。( )
答案:错误
解析:传统的 BI 主要关注结构化数据,如数据库中的表格数据,尽管现在也在逐渐融合半结构化和非结构化数据处理技术,但结构化数据仍然是其重点关注的对象,因为结构化数据更易于按照既定的规则进行处理和分析。
(2)数据仓库是 BI 的一个组成部分。( )
答案:正确
解析:数据仓库是 BI 的重要组成部分,它为后续的数据分析提供了数据存储的基础,将企业中各个数据源的数据整合到一个数据仓库中,方便进行统一的管理和分析。
(3)在制作饼图时,部分数量越多越好。( )
答案:错误
解析:在制作饼图时,一般部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分,这样才能直观地展示各部分占总体的比例关系。
(4)折线图的横轴必须是时间。( )
答案:错误
解析:折线图的横轴通常是时间或其他连续变量。它主要用于展示数据随时间或连续变量的变化趋势,但不局限于时间,例如可以是产品的编号(如果产品编号有顺序意义)等连续的序列。