第一章练习
一. 单选题(共8题)
1
【单选题】规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是()?
- A、贫数据
- B、富数据
- C、大数据
- D、繁数据
我的答案:
C
2
【单选题】大数据的主要特征被总结为4V特征,以下哪个不属于大数据的4V特征?
- A、种类多(Variety)
- B、风险大(Venture)
- C、速度快(Velocity)
- D、体量大(Volume)
我的答案:
B
3
【单选题】下列哪种说法正确?
- A、1PB=1024KB
- B、1PB=1024TB
- C、1PB=1024GB
- D、1PB=1024EB
我的答案:
B
4
【单选题】下列哪个例子与大数据给我们的隐私带来了更多的威胁有关?
- A、谷歌翻译
- B、人口普查
- C、智能电表
- D、谷歌流感趋势预测
我的答案:
C
5
【单选题】大数据时代,其数据量的规模是以下哪种?
- A、少量的数据
- B、较多的数据
- C、海量的数据
- D、以上都不是
我的答案:
C
6
【单选题】谷歌流感趋势预测使用了下面哪种大数据?
- A、美国医院的病人数据
- B、网页搜索数据
- C、交通数据
- D、以上都不是
我的答案:
B
7
【单选题】如下关于大数据分析流程的哪一项是正确的?
- A、数据采集、数据清洗、数据管理、数据分析、数据呈现
- B、数据采集、数据分析、数据清洗、数据管理、数据呈现
- C、数据清洗、数据采集、数据呈现、数据分析、数据管理
- D、数据采集、数据呈现、数据分析、数据清洗、数据管理
我的答案:
A
8
【单选题】数据就是数字。
- A、正确
- B、错误
我的答案:
B
二. 判断题(共7题)
9
【判断题】在大数据时代,为了得到准确的分析结果,我们必须尽可能准确地收集数据。
我的答案:
错
10
【判断题】大数据分析强调因果关系而不是相关关系。
我的答案:
错
11
【判断题】大数据的数据废气就如大气中的废气一样无利用价值。
我的答案:
错
12
【判断题】移动互联网实现了人人相连、人物相联、物物相连。
我的答案:
对
13
【判断题】网球比赛与其他体育项目一样,涉及大量数据。
我的答案:
对
14
【判断题】人工智能不需要数据来建立其智能。
我的答案:
错
15
【判断题】互联网数据的实时性好,但真实性和数据质量劣与其他数据。
我的答案:
对
第二章练习
一. 单选题(共5题)
1
【单选题】下列选项中,哪一项不是大数据处理流程中的步骤?
- A、存储
- B、采集
- C、数据分析
- D、源数据
我的答案:
D
2
【单选题】( )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
- A、数据清洗
- B、数据集成
- C、数据变换
- D、数据归约
我的答案:
D
3
【单选题】数据仓库所存储的数据,通常具有一定特点,下列哪些不属于其特点的?()
- A、经常修改数据项的值
- B、数据大都反映历史
- C、数据来源多样
- D、面向特定主题
我的答案:
A
4
【单选题】下列哪个不是关系数据
- A、Sybase
- B、Oracle
- C、BigTable
- D、MySQL
我的答案:
C
5
【单选题】以下不是NoSQL数据库的是?
- A、MongoDB
- B、Hbase
- C、Redis
- D、DB2
我的答案:
D
二. 多选题(共6题)
6
【多选题】网络大数据主要通过什么方式进行采集?
- A、网络爬虫
- B、Scribe
- C、网站公开API
- D、Flume
我的答案:
ABC
7
【多选题】脏数据的表现形式有哪些?()
- A、数据缺失
- B、数据重复
- C、数据不一致
- D、数据不可用
我的答案:
ABCD
8
【多选题】按数据格式来划分,数据可以分为哪些类型?
- A、结构化数据
- B、非结构化数据
- C、半结构化数据
- D、物联网数据
我的答案:
ABC
9
【多选题】大数据的来源途径有许多,如下哪些属于大数据来源()
- A、传感器设备采集的数据
- B、人在微博上发表的记录
- C、计算机网络运行产生的日志
- D、网络爬虫得到的数据
我的答案:
ABCD
10
【多选题】数据集成需要解决的主要问题有()
- A、实体识别
- B、冗余问题
- C、数据值冲突的检测与处理
- D、缺失值填充
我的答案:
ABCD
11
【多选题】脏数据的表现形式有哪些?()
- A、数据缺失
- B、数据重复
- C、数据不一致
- D、数据不可用
我的答案:
ABCD
三. 判断题(共6题)
12
【判断题】网站数据仍然是网络爬虫的主要对象。
我的答案:
对
13
【判断题】数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成描述数据、预测数据等任务。
我的答案:
对
14
【判断题】数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。
我的答案:
对
15
【判断题】数据清洗可以提高数据的质量。
我的答案:
对
16
【判断题】HBase主要用来存储结构化数据。
我的答案:
错
17
【判断题】数据仓库是面向主题的。
我的答案:
对
第四章数据可视化练习
一. 单选题(共8题)
1
【单选题】那句话可以说明可视化的作用?
- A、画龙点睛
- B、一图胜千言
- C、力透纸背
- D、掷地有声
我的答案:
B
2
【单选题】数据的维度指的是?
- A、重要属性的数量
- B、属性值的大小
- C、属性的数量
- D、样本的数量
我的答案:
C
3
【单选题】下面属于映射数据到新的空间的方法是( )
- A、傅立叶变换
- B、特征加权
- C、渐进抽样
- D、维归约
我的答案:
A
4
【单选题】下列一般不用于可视化时间空间数据技术的是( )
- A、等高线图
- B、饼图
- C、曲面图
- D、矢量场图
我的答案:
B
5
【单选题】可视分析的运行过程可看做是( )的循环过程
- A、数据–>知识–>数据
- B、知识–>数据
- C、数据–>知识
- D、知识–>数据–>知识
我的答案:
A
6
【单选题】散点图矩阵通过()坐标系中的一组点来展示变量之间的关系
- A、一维
- B、二维
- C、三维
- D、多维
我的答案:
B
7
【单选题】()适用于多维数据,且每个维度必须可以排序。
- A、雷达图
- B、曲线图
- C、饼图
- D、直方图
我的答案:
A
8
【单选题】在百度迁徙中,以下哪些人贡献了数据?
- A、每一个中国人
- B、中国境内使用手机的人
- C、手机上安装了百度地图并开启位置,进行迁徙的人
我的答案:
C
二. 多选题(共1题)
9
【多选题】可视化可以
- A、作为大量工作记忆的外界辅助
- B、增强人类的认知能力
- C、让人们使用感知代替认知
- D、协助人类进行思考
我的答案:
ABCD
三. 判断题(共5题)
10
【判断题】可视化技术对于分析的数据类型通常不是专用性的。
我的答案:
对
11
【判断题】科学可视化最初被称为“科学计算之中的可视化”。
我的答案:
对
12
【判断题】数据可视化的目的就是生成酷炫的图表。
我的答案:
错
13
【判断题】可视分析以可视交互界面为通道,利用视觉感知通道和交互可视化,将人类的感知和认识通过可视化融入数据的处理,形成人脑智能和机器智能优势互补和相互提升,建立螺旋式的信息交流和知识提炼,完成理解、推理和决策等任务。
我的答案:
对
14
【判断题】人类的认知十分有限,在利用可视化探索数据的过程中毫无作用。
我的答案:
错
第六章描述性分析作业
一. 单选题(共3题)
1
【单选题】统计全国各姓氏的人数时,使用了以下哪种数据分析方法?
- A、数据的频数分析
- B、数据的集中趋势分析
- C、数据的离散趋势分析
- D、数据的分布度量
我的答案:
A
2
【单选题】皮尔逊相关系数不可能出现以下哪个值?
- A、1.2
- B、0.5
- C、-1
- D、0
我的答案:
A
3
【单选题】数据62,85,76,79,92,84,86,90,91的中位数是
- A、62
- B、85
- C、76
- D、79
我的答案:
B
二. 判断题(共4题)
4
【判断题】直观上看,如果数据点比较分散,标准差就大;反之,标准差就小。
我的答案:
对
5
【判断题】相比于均值,中位数具有更好的抗干扰性,不易受极端值的影响。
我的答案:
对
6
【判断题】直观上看,如果数据点比较分散,标准差就大;反之,标准差就小。
我的答案:
对
7
【判断题】只有数据个数为奇数时才存在中位数。
我的答案:
错
第七章机器学习作业
一. 单选题(共9题)
1
【单选题】决策树中不包含一下哪种结点( )
- A、根结点(root node)
- B、内部结点(internal node)
- C、外部结点(external node)
- D、叶结点(leaf node)
我的答案:
C
2
【单选题】根据信息增益来构造决策树的算法是( )
- A、ID3决策树
- B、递归
- C、归约
- D、FIFO
我的答案:
A
3
【单选题】以下哪一个不是分类问题?
- A、判断人脸图像与身份证照片是否为同一人
- B、预测明天是否会下雨
- C、判断一个古董是真品还是赝品
- D、预测明天的温度
我的答案:
D
4
【单选题】当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( )
- A、分类
- B、聚类
- C、关联分析
- D、主成分分析
我的答案:
B
5
【单选题】相似度矩阵可以用相似度表示还可以用( )表示。
- A、时间
- B、距离
- C、空间
- D、维度
我的答案:
B
6
【单选题】在基本K均值算法里,当邻近度函数采用( )的时候,合适的质心是簇中各点的中位数。
- A、曼哈顿距离
- B、欧几里德距离
- C、余弦距离
- D、Bregman散度
我的答案:
A
7
【单选题】BIRCH是一种( )
- A、分类器
- B、聚类算法
- C、关联分析算法
- D、特征选择算法
我的答案:
B
8
【单选题】常用的训练方式,除了监督学习和无监督学习,还有( )
- A、强化学习
- B、自主学习
- C、怠惰学习
- D、放弃学习
我的答案:
A
9
【单选题】过拟合导致的主要问题是?
- A、计算资源的浪费
- B、训练准确性降低
- C、测试准确性降低
- D、出现虚假相关
我的答案:
C
二. 判断题(共8题)
10
【判断题】分类的目的是找到每个样本特征到类别的对应法则。
我的答案:
对
11
【判断题】聚类目的是找到每个样本潜在的类别并将同类别的样本放在一起。
我的答案:
对
12
【判断题】当对一个事物认知是确定的,这时对应的熵值最大。
我的答案:
错
13
【判断题】KNN属于聚类算法。
我的答案:
对
14
【判断题】对于二维且线性可分的训练数据,支持向量机有唯一的分界线。
我的答案:
对
15
【判断题】K均值可以很好的处理不同密度的数据。
我的答案:
错
16
【判断题】通过房屋的面积和卧室数量来预测房价属于回归问题。
我的答案:
对
17
【判断题】增大训练数据量可以对抗过拟合。
我的答案:
对