大数据技术与应用——数据可视化(山东省大数据职称考试)

  大数据分析应用-初级

第一部分 基础知识

       一、大数据法律法规、政策文件、相关标准

       二、计算机基础知识

       三、信息化基础知识

       四、密码学

       五、大数据安全

       六、数据库系统

       七、数据仓库.

第二部分 专业知识

       一、大数据技术与应用

       二、大数据分析模型

       三、数据科学


数据可视化

  • 大数据分析应用-初级
  • 前言
  • 一、BI(Business Intelligence)的概念及应用
  • 二、常见可视化图形的概念
  • 练习题目


前言

数据可视化

1、了解BI(Business Intelligence)的概念及应用。

2、了解常见可视化图形(散点图、折线图、饼图、环图、柱状图)的概念,具有初步的可视化图形展示数据的能力。


一、BI(Business Intelligence)的概念及应用

一、概念

定义

  • 商业智能(Business Intelligence,简称 BI)是一套完整的解决方案,用于将企业中现有的数据进行有效的整合、提取、分析和展示。它帮助企业的管理者和决策者通过数据洞察企业的运营状况、发现问题、识别机会,从而做出更明智的业务决策。
  • 从技术角度讲,BI 涵盖了数据仓库(Data Warehouse)、联机分析处理(OLAP - On - Line Analytical Processing)、数据挖掘(Data Mining)和报表工具(Reporting Tools)等多种技术。数据仓库是存储大量结构化数据的系统,为后续的分析提供数据基础。OLAP 允许用户从多个维度对数据进行快速分析,例如按时间、地域、产品类别等维度分析销售数据。数据挖掘则侧重于发现数据中的潜在模式和关系,如通过关联规则挖掘发现购买某种产品的客户同时也可能购买其他相关产品。报表工具用于以直观的图表和表格形式展示分析结果。

数据处理流程

  • 数据收集:从各种数据源(如企业资源规划系统 ERP、客户关系管理系统 CRM、数据库、文件系统等)获取数据。这些数据源可能包含结构化数据(如数据库中的表格数据)、半结构化数据(如 XML 或 JSON 格式的数据)和非结构化数据(如文本文件、图像等,不过在传统 BI 中主要关注结构化数据)。
  • 数据清洗:对收集到的数据进行预处理,包括处理缺失值(如用均值、中位数或其他合适的方法填充缺失的数值)、纠正错误数据(如将错误的日期格式更正)、去除重复数据等操作,以提高数据质量。
  • 数据转换:将数据转换为适合分析的形式。例如,将数据标准化,使不同范围的数值能够在同一尺度上进行比较;或者对数据进行编码,将分类数据转换为数字形式以便于计算机处理。
  • 数据分析:这是核心步骤,运用统计分析、数据挖掘等方法对数据进行处理。例如,计算销售数据的平均值、中位数、标准差等统计指标,或者通过聚类分析将客户分为不同的群体,以便进行针对性的营销。
  • 数据可视化与报告:将分析结果以直观的图表(如柱状图、折线图、饼图等)、图形(如地图、流程图等)和报告的形式展示出来,使决策者能够快速理解数据含义。

二、BI的应用

BI可以应用于各个行业和领域,包括但不限于:

  • 金融行业:客户行为分析、风险管理等。通过BI,金融机构可以更好地了解客户需求,优化产品和服务,同时降低风险。
  • 零售业:销售数据分析、库存管理等。BI可以帮助零售商追踪销售数据,分析市场趋势,优化库存管理,降低成本。
  • 医疗保健:患者数据分析、资源配置等。通过BI,医疗机构可以更好地了解患者需求,优化资源配置,提高服务质量。
  • 制造业:生产流程优化、质量控制等。BI可以帮助制造商优化生产流程,提高产品质量,降低成本。
  • 销售和市场营销:BI可以追踪销售数据、分析市场趋势、评估市场份额和竞争对手活动,帮助企业制定有效的销售策略。
  • 供应链管理:BI可以监控供应链运作情况,优化库存管理,降低成本并提高效率。
  • 客户关系管理:BI可以帮助企业了解顾客需求、分析顾客行为和偏好,提供个性化的产品和服务。
  • 财务管理:BI可以对企业财务数据进行分析和预测,帮助企业管理风险、优化财务决策。
  • 人力资源管理:BI可以分析员工数据、评估绩效和满意度,帮助企业招聘、培训和留住人才。

二、常见可视化图形的概念

散点图(Scatter Plot)

  • 概念:散点图是一种用笛卡尔坐标系展示两个变量之间关系的图形。它将数据集中的每个数据点以坐标(x,y)的形式绘制在平面上,其中 x 轴和 y 轴分别代表两个不同的变量。通过观察这些点的分布情况,可以直观地发现变量之间是否存在某种关联,如正相关(点的分布呈现从左下角到右上角的趋势)、负相关(从左上角到右下角的趋势)或者没有明显的相关性(点的分布比较杂乱)。
  • 应用场景示例:假设研究学生的学习时间和考试成绩之间的关系。将学习时间作为 x 轴变量,考试成绩作为 y 轴变量,每个学生的数据点(学习时间,考试成绩)就构成了散点图。如果大部分点呈现从左下角到右上角的趋势,就可以初步判断学习时间和考试成绩可能存在正相关关系,即学习时间越长,考试成绩越高。
  • 制作要点
    • 确定 x 轴和 y 轴所代表的变量,要确保变量的选择有实际意义,能够体现出想要探究的关系。
    • 适当调整坐标轴的刻度范围,以完整地展示数据点的分布情况,避免数据点过于集中在某个区域或者超出坐标轴范围。

折线图(Line Chart)

  • 概念:折线图主要用于展示数据随时间或其他连续变量的变化趋势。它通过将一系列数据点按照顺序用直线连接起来,清晰地反映出数据的增减变化情况。折线图中的横轴通常代表时间或其他连续的序列,纵轴代表相应的数据值。
  • 应用场景示例:在股票市场中,用折线图来展示某只股票在一段时间内(如一个月、一年)的价格走势。横轴是日期,纵轴是股票价格。通过折线的上升和下降,可以很直观地看到股票价格的波动情况,投资者可以据此分析股票的走势,如上涨趋势、下跌趋势或者盘整阶段。
  • 制作要点
    • 数据点的顺序要按照时间或连续变量的顺序排列,这样连接起来的折线才能正确地反映变化趋势。
    • 为了更清晰地展示趋势,可以添加趋势线(如线性趋势线、多项式趋势线等),并且标注出关键的数据点(如最大值、最小值、转折点等)。

饼图(Pie Chart)

  • 概念:饼图是用于展示各部分占总体比例关系的圆形统计图表。整个圆代表总体,各个扇形的大小表示相应部分占总体的百分比。饼图能够直观地呈现出各部分之间的相对大小关系。
  • 应用场景示例:分析一家公司的业务收入来源结构。假设公司有产品 A、产品 B 和服务 C 三种主要业务,将公司的总收入看作一个整体(即 100%),分别计算产品 A、产品 B 和服务 C 的收入占总收入的百分比,然后用饼图展示。通过扇形的大小,可以快速看出哪种业务收入占比最大,哪种业务占比最小。
  • 制作要点
    • 一般情况下,饼图的部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分。
    • 要按照一定的顺序(如从大到小等)排列扇形,并且标注出每个扇形所代表的类别名称和占比数值,最好还能加上不同的颜色或图案来增强区分度。

环图(Doughnut Chart)

  • 概念:环图可以看作是中间有一个空洞的饼图。它和饼图类似,也是用于展示各部分占总体的比例关系。不过,环图可以在中间的空洞部分添加其他信息,如总数值、另一个相关的指标等,并且可以通过嵌套环来展示更复杂的层次结构。
  • 应用场景示例:在市场调研中,调查消费者对不同品牌手机的偏好情况。用外环表示不同品牌手机的市场占有率,在内环的空洞部分可以显示总的调查人数或者手机市场的总规模。如果要进一步细分品牌手机的不同型号的市场占有率,还可以通过嵌套的内层环来展示。
  • 制作要点
    • 与饼图类似,部分数量过多会使图形复杂。对于嵌套环图,要注意合理安排各层环所代表的内容,并且确保每层环的比例计算正确,颜色搭配要清晰,便于区分不同的层次。

柱状图(Bar Chart)

  • 概念:柱状图是一种以长方形的长度为变量来展示数据的统计图。它通常用于比较不同类别之间的数据大小。柱状图的横轴代表不同的类别,纵轴代表数据的数值大小,每个类别对应的数值用一个垂直的柱子来表示,柱子的高度与该类别数据的大小成正比。
  • 应用场景示例:比较不同城市的人口数量。将城市名称作为横轴的类别,人口数量作为纵轴的数据。每个城市对应的柱子高度就反映了该城市的人口数量,通过柱子的高低对比,可以很容易地看出哪个城市人口最多,哪个城市人口最少。
  • 制作要点
    • 柱子之间要保持适当的间隔,以便区分不同的类别。间隔过窄会使图形显得拥挤,间隔过宽可能会影响视觉上的比较效果。
    • 可以添加数据标签在柱子上,直接显示每个类别对应的数值,并且根据需要可以对柱子进行颜色填充或图案装饰,增强视觉吸引力。同时,要注意纵轴刻度的起始值,避免因为刻度设置不当而造成数据对比的误导。


练习题目

单选题

(1)以下哪项不是 BI 的核心技术?( )

A. 数据仓库

B. 机器学习算法(如深度学习)

C. 联机分析处理(OLAP)

D. 报表工具

答案:B

解析:BI 主要涵盖数据仓库、联机分析处理(OLAP)和报表工具等技术。数据仓库用于存储数据,OLAP 用于多角度分析数据,报表工具用于展示结果。机器学习算法(如深度学习)虽然在数据分析中有应用,但不是 BI 的核心技术,BI 更侧重于传统的数据处理和分析方式来支持商业决策。

(2)BI 在企业中的主要作用是( )

A. 代替人工进行数据分析

B. 存储海量数据

C. 帮助管理者做出更明智的决策

D. 进行数据加密

答案:C

解析:BI 的主要目的是整合、分析企业数据,通过数据洞察来帮助企业的管理者和决策者发现问题、识别机会,从而做出更明智的业务决策。它不是完全代替人工分析,数据存储主要是数据仓库的功能,数据加密不是其主要作用。

(3)要展示一个班级学生的身高分布情况,最合适的图形是( )

A. 折线图

B. 饼图

C. 柱状图

D. 散点图

答案:C

解析:柱状图适合用于比较不同类别(这里是不同身高区间)之间的数据大小。可以将身高区间作为横轴,每个区间内的学生人数作为纵轴,通过柱子的高度直观地比较各身高区间的人数多少。折线图主要用于展示变化趋势,饼图用于展示比例关系,散点图用于展示两个变量之间的关系,都不适合展示身高分布情况。

(4)如果想观察某产品的市场份额随时间的变化情况,应该选择( )

A. 环图

B. 折线图

C. 散点图

D. 柱状图

答案:B

解析:折线图用于展示数据随时间或其他连续变量的变化趋势。在这里,将时间作为横轴,产品的市场份额作为纵轴,通过折线的变化可以清晰地看到市场份额随时间的增减情况。环图主要用于展示比例关系,散点图用于展示两个变量的关系,柱状图主要用于比较不同类别之间的数据大小,不符合要求。

多选题

(1)BI 的数据处理流程包括以下哪些步骤?( )

A. 数据收集

B. 数据清洗

C. 数据转换

D. 数据分析

E. 数据可视化与报告

答案:ABCDE

解析:BI 的数据处理流程是一个完整的体系。首先要从各种数据源收集数据,然后对收集的数据进行清洗,去除错误和不完整的数据。接着进行数据转换,使其适合分析。之后进行数据分析,挖掘有价值的信息。最后通过数据可视化与报告的方式将分析结果展示出来。

(2)BI 可以应用于以下哪些企业领域?( )

A. 销售与市场营销

B. 财务管理

C. 供应链管理

D. 人力资源管理

答案:ABCD

解析:在销售与市场营销领域,可用于销售分析、客户分析和营销活动评估等;在财务管理领域,可用于财务报表分析、预算与成本控制、财务风险管理;在供应链管理领域,用于库存管理、供应商管理和物流配送管理等;在人力资源管理领域,可用于员工绩效分析、人力资源规划等。

(3)以下哪些图形可以用于展示数据的比例关系?( )

A. 饼图

B. 环图

C. 柱状图

D. 散点图

答案:AB

解析:饼图是专门用于展示各部分占总体比例关系的图形,整个圆代表总体,各个扇形表示各部分占比。环图和饼图类似,也用于展示各部分占总体的比例关系,还可以在中间添加其他信息。柱状图主要用于比较不同类别之间的数据大小,散点图用于展示两个变量之间的关系,它们一般不用于展示比例关系。

(4)散点图可以帮助我们发现( )

A. 变量之间的正相关关系

B. 变量之间的负相关关系

C. 变量之间的因果关系

D. 变量之间没有明显相关性

答案:ABD

解析:通过观察散点图中点的分布情况,可以直观地发现变量之间是否存在正相关(点从左下角到右上角分布)、负相关(点从左上角到右下角分布)或者没有明显的相关性(点分布杂乱)。但是散点图本身不能确定变量之间的因果关系,因果关系需要通过更深入的实验或分析来确定。

判断题

(1)BI 主要关注非结构化数据。( )

答案:错误

解析:传统的 BI 主要关注结构化数据,如数据库中的表格数据,尽管现在也在逐渐融合半结构化和非结构化数据处理技术,但结构化数据仍然是其重点关注的对象,因为结构化数据更易于按照既定的规则进行处理和分析。

(2)数据仓库是 BI 的一个组成部分。( )

答案:正确

解析:数据仓库是 BI 的重要组成部分,它为后续的数据分析提供了数据存储的基础,将企业中各个数据源的数据整合到一个数据仓库中,方便进行统一的管理和分析。

(3)在制作饼图时,部分数量越多越好。( )

答案:错误

解析:在制作饼图时,一般部分数量不宜过多,否则会导致图形过于复杂,难以区分各部分。通常建议不超过 6 - 7 个部分,这样才能直观地展示各部分占总体的比例关系。

(4)折线图的横轴必须是时间。( )

答案:错误

解析:折线图的横轴通常是时间或其他连续变量。它主要用于展示数据随时间或连续变量的变化趋势,但不局限于时间,例如可以是产品的编号(如果产品编号有顺序意义)等连续的序列。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/491638.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【指南】03 CSC联系外导

确定外导 课题组有合作关系的国外导师与自己研究方向密切相关的国外导师国外高校官网、谷歌学术、Research Gate等平台检索不可以是中国港澳台的高校科研院所或机构注意外导所在高校排名和科研水平可列表记录注意外国签证政策 发送邮件 自我介绍简要介绍CSC介绍自己的研究对…

0基础学前端-----CSS DAY6

0基础学前端-----CSS DAY6 视频参考:B站Pink老师 今天是CSS学习的第六天,今天开始的笔记对应Pink老师课程中的CSS第三天的内容。 本节重点:CSS的三大特性以及CSS的盒子模型。 1.CSS的三大特性 CSS有三个重要特性:层叠性、继承性…

本地部署大模型QPS推理测试

目录 1、测试环境1.1、显卡1.2、模型1.3、部署环境1.3.1、docker1.3.2、执行命令 2、测试问题2.1、20字左右问题2.2、50字左右问题2.3、100字左右问题 3、测试代码3.1、通用测试代码3.2、通用测试代码(仅供参考) 4、测试结果4.1、通用测试结果4.2、RAG测…

测试工程师八股文04|计算机网络 和 其他

一、计算机网络 1、http和https的区别 HTTP和HTTPS是用于在互联网上传输数据的协议。它们都是应用层协议,建立在TCP/IP协议栈之上,用于客户端(如浏览器)和服务器之间的通信。 ①http和https的主要区别在于安全性。http是一种明…

【Tomcat】第一站:理解tomcat与Socket

目录 1. Tomcat 1.1 Tomcat帮助启动http服务器。 1.2 tomcat理解: 2. 计算机网络最基本的流程 2.1 信息是怎么来的? 2.2 端口是干什么的? 3. 简单的Socket案例 服务端 客户端 启动: 3.2 在Tomcat发送信息,看…

抖音SEO短视频矩阵源码系统开发分享

在数字营销的前沿阵地,抖音短视频平台凭借其独特的魅力和庞大的用户基础,已成为社交媒体领域一股不可小觑的力量。随着平台影响力的持续扩大,如何有效提升视频内容的可见度与流量成为了内容创作者关注的焦点。在此背景下,一套专为…

使用 DeepSpeed 微调 OPT 基础语言模型

文章目录 OPT 基础语言模型Using OPT with DeepSpeedmain.py 解析1、导入库和模块2、解析命令行参数3、main 函数3.1 设备与分布式初始化3.2 模型与数据准备3.3 定义评估函数3.4 优化器与学习率调度器设置3.5 使用 deepspeed 进行模型等初始化3.6 训练循环3.7 模型保存 4、dsch…

window QT/C++ 与 lua交互(mingw + lua + LuaBridge + luasocket)

一、环境与准备工作 测试环境:win10 编译器:mingw QT版本:QT5.12.3 下载三种源码: LuaBridge源码:https://github.com/vinniefalco/LuaBridge LUA源码(本测试用的是5.3.5):https://www.lua.org/download.html luasocket源码:https://github.com/diegonehab/luasocket 目…

边缘智能创新应用大赛获奖作品系列三:边缘智能强力驱动,机器人天团花式整活赋能千行百业

边缘智能技术快速迭代,并与行业深度融合。它正重塑产业格局,催生新产品、新体验,带动终端需求增长。为促进边缘智能技术的进步与发展,拓展开发者的思路与能力,挖掘边缘智能应用的创新与潜能,高通技术公司联…

中后台管理信息系统:Axure12套高效原型设计框架模板全解析

中后台管理信息系统作为企业内部管理的核心支撑,其设计与实现对于提升企业的运营效率与决策能力具有至关重要的作用。为了满足多样化的中后台管理系统开发需求,一套全面、灵活的原型设计方案显得尤为重要。本文将深入探讨中后台管理信息系统通用原型方案…

云计算HCIP-OpenStack03

书接上回: 云计算HCIP-OpenStack02-CSDN博客 10.KeyStone keystone-Openstack,IAM服务(统一身份认证)-云服务 建议先去了解Hadoop(大数据生态系统)中的kerberos(LDAPkerberos的鉴权机制&#xf…

el-table打印PDF预览,表头错位的解决方案

文章目录 背景与需求需求分析解决方案方案一:vue-print-nb插件安装引入使用 方案二安装使用 方案三 总结 背景与需求 本例以vue2项目为例,vue3与react等同理。 有个项目需要打印的功能,网页使用vue2写的,主体内容为表格el-table&a…

uniapp炫酷导航按钮及轮播指示器组件

一个拥有炫酷动效的导航按钮和指示器uniapp组件,帮你构建更炫酷的官网、宣传页、产品介绍等页面。 目前测试了vue2语法在h5和微信小程序的适配,其他平台理论上也能用。 下载及使用方法地址:iliya-desgin 展示: 目标页面出现在可视…

SAM大模型实践(一)

参考着segment-geospatial 项目主页的介绍,尝试复现一下Example-satallite的案例。 Satellite - segment-geospatialhttps://samgeo.gishub.org/examples/satellite/ 过程当中遇到了一些坑给大家做点分享,主要有几种情况,一个是torch…

如何为IntelliJ IDEA配置JVM参数

在使用IntelliJ IDEA进行Java开发时,合理配置JVM参数对于优化项目性能和资源管理至关重要。IntelliJ IDEA提供了两种方便的方式来设置JVM参数,以确保你的应用程序能够在最佳状态下运行。本文将详细介绍这两种方法:通过工具栏编辑配置和通过服…

解决电脑网速慢问题:硬件检查与软件设置指南

电脑网速慢是许多用户在使用过程中常见的问题,它不仅会降低工作效率,还可能影响娱乐体验。导致电脑网速慢的原因多种多样,包括硬件问题、软件设置和网络环境等。本文将从不同角度分析这些原因,并提供提高电脑网速的方法。 一、检查…

探索Starship:一款用Rust打造的高性能终端

在终端的世界里,效率和美观往往并行不悖。今天,我们要介绍的是一款名为Starship的终端工具,它以其轻量级、高颜值和强大的自定义功能,赢得了众多开发者的青睐。 安装 任选一种方式进行安装 Windows 🪟 # scoop scoo…

快速启动Go-Admin(Gin + Vue3 + Element UI)脚手架管理系统

Go-Admin 是一个基于 Gin Vue Element UI & Arco Design & Ant Design 的前后端分离权限管理系统脚手架。它包含了多租户支持、基础用户管理功能、JWT 鉴权、代码生成器、RBAC 资源控制、表单构建、定时任务等功能。该项目的主要编程语言是 Go 和 JavaScript。 ps&a…

SEC_ASA 第二天作业

拓扑 按照拓扑图配置 NTP,Server端为 Outside路由器,Client端为 ASA,两个设备的 NTP传输使用MD5做校验。(安全 V4 LAB考点) 提示:Outside路由器作为 Server端要配置好正确的时间和时区,ASA防…

《深入探究:C++ 在多方面对 C 语言实现的优化》

目录 一、C 在 C 上进行的优化二、C 关键字(C 98)三、C 的输入输出1. cin 和 cout 的使用2. cin、cout 和 scanf()、printf() 的区别 三、命名空间1. 命名空间的使用2. 嵌套命名空间3. 在多个头文件中使用相同的命名空间 四、函数缺省值1. 缺省值的使用2…