《大数据分析》期末考试整理

一、单项选择题(1*9)

1.大数据发展历程:出现阶段、热门阶段和应用阶段  P2

2.大数据影响        P3

1)大数据对科学活动的影响

2)大数据对思维方式的影响

3)大数据对社会发展的影响

4)大数据对就业市场的影响

3. 人类在科学研究上先后经历了实验理论计算数据思维四种范式        P3

4.大数据特征:数据量大、数据类型繁多、数据产生速度快数据价值密度低        P5

5.ETL:提取转换加载        P7

6.大数据处理框架可分为三类:批处理系统流处理系统混合处理系统        P12

7.Requests状态码:200 成功,404 失败

8.正则表达式:

9.Scrapy命令:P88

10.pandas一维数组、二维数组、方法的使用

在pandas库中有两个最基本的数据类型,即Series和DataFrame。其中Series代表一维数组,DataFrame代表二维数组。P277

sum()                对每一列求和

sum(1)              对每一行求和

df- * / ()             做减法、乘法、除法

append()           对行或列扩充

reindex()           重新简历一个新的索引对象

drop()               丢弃不需要的数据值

sort_index()   对数据值 排序

idxmin              统计最小值索引

idxmax             统计最大值索引

cumsum           对数据值进行累加

11.python的使用

二、填空题(1*12)

1.命令:pip install beautifulsoup4

2.大数据类型:结构化数据非结构化数据半结构化数据

3.大数据存储是将数量巨大且难以收集、处理、分析的数据集合持久化到计算机中

4.大数据框架是可以进行大数据分析处理工具的集合,主要用于负责对大数据系统中的数据进行计算。

5.大数据获取方式包括爬虫爬取、用户留存、用户上传、数据交易和数据共享

6.UA:UserAgent

7.Scrapy是使用Python语言编写的开源网络爬虫框架,也是一个为了爬取网站数据,提取结构性数据而编写的应用框架,简单易用并且是跨平台的。

8.目前实现数据抽取的方式:关系库中的数据抽取非关系库中的数据抽取

数据抽取的关键技术:时间戳、触发器方式、全量删除插入

9.大数据分析与挖掘的主要内容:可视化分析和数据挖掘算法的选择

三、判断并改错(3*5)

1.Request对象用于描述一个HTTP请求,由Spider产生

2.Response对象用于描述一个HTTP响应

3.云数据库并非是一种全新的数据库技术,而只是以服务的方式提供数据库功能。

4.元组数据的元素不能改变,只能读取

5.Spider在项目中名称必须独一无二

6.Python的整型类似于Java的BigInteger类型,它的长度不受限制

7.Python区分整型和浮点型的唯一方式就是看有没有小数点

8.Python中布尔类型可以被当作整数来对待

9.min-max标准化方法是对原始数据进行线性变换

四、简答题(4*2)

大数据发展历程:出现阶段、热门阶段和应用阶段  P2

大数据影响        P3

1)大数据对科学活动的影响

2)大数据对思维方式的影响

3)大数据对社会发展的影响

4)大数据对就业市场的影响

大数据对思维方式的影响:

1.人们处理的数据从样本数据变成全部数据

2.人们不得不接受数据的混杂性,放弃对精确性的追求

3.人类通过对大数据的处理放弃对因果关系的渴求,转而关注相关关系

大数据特征:数据量大、数据类型繁多、数据产生速度快数据价值密度低        P5

大数据与云计算的联系:

        大数据与云计算都较好地代表了IT界发展的趋势,二者相互联系,密不可分。云计算就是计算机硬件资源的虚拟化,而大数据是对海量数据的高效处理。

区别:

        1.在概念上两者有所不同,云计算改变了IT,而大数据改变了业务。然而大数据必须有云作为基础架构才能得以顺畅运营

        2.大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的,是业务层的产品,大数据的决策者是业务层。

        综上,大数据与云计算二者已经彼此渗透,密不可分。

大数据与人工智能的区别:

1.在概念上两者有所不同,大数据和云计算可以理解为技术上的概念,人工智能是应用层面的概念,人工智能的技术前提是云计算和大数据

2.在实现上,大数据主要是依靠海量数据来帮助人们对问题做出更好判断和分析,而人工智能是一种计算形式,它允许机器执行认知功能。

综上所述,虽然它们有很大区别,但人工智能和大数据仍然能够很好地协同工作。二者相互促进,相互发展。

数据清洗流程:

1.预处理

2.缺失值清洗

3.格式与内容清洗

4.逻辑错误清洗

5.多余的数据清洗

6.关联性验证 

数据标准化是通过一定的数学变换方式将原始数据按照一定的比例进行转换,使之落入一个小的特定区间内 

数据抽取流程:

1.获取数据

2.整理、检查和清洗数据

3.将清洗好的数据集成,并建立抽取模型

4.开展数据抽取与数据转换工作

5.将转换后的结果进行临时存放

6.确认数据,并将数据最终应用于数据挖掘中

Spider开发流程:

1.继承scrapy.Spider

2.为Spider命名

3.设置爬虫的起始爬取点

4.实现页面的解析 

五、名词解释(3*2)

1.大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

2.1秒定律:要在秒级时间范围内给出分析结果,若超出这个时间,数据就失去价值了

3.大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值,然后给用户提供解决方案或决策参考

4.网络爬虫又称网络机器人、网络蜘蛛,是一种通过既定规则能够自动提取网页信息的程序

5.数据可视化是关于数据视觉表现形式的科学技术研究

6.大数据存储是将数量巨大且难以收集、处理、分析的数据集持久化到计算机中

7.数据清洗的含义是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声

8.数据抽取是指从数据源中抽取对企业有用的或感兴趣的数据的过程

9.网页数据提取

10.数据采集又称数据获取,是指利用某些装置从系统外部采集数据并输入系统内部的一个接口

11.数据标准化是通过一定的数学变换方式将原始数据按照一定的比例进行转换,使之落入一个小的特定区间内 

六、阅读程序(10*1)

还要看P52代码

 七、操作题(10*4)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/351528.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为云EI生态

1、人工智能技术趋势 2、华为AI发展思路 3、华为云EI:让企业更智能 4、华为云服务全景图 5、基础平台类服务 6、MLS:解决特性到模型应用的完整过程 7.DLS 8.GES超大规模一体化图分析与查询 9、EI视觉认知 10、EI语音语义 11、OCR:提供高精度光学文字自动…

Oracle 打开钱包 ORA-28368: cannot auto-create wallet

ORA-28368: cannot auto-create wallet 开启钱包抱错,看下钱包信息 SQL> select * from v$encryption_wallet;WRL_TYPE -------------------- WRL_PARAMETER -------------------------------------------------------------------------------- STATUS ------…

[Golang] go-kit 介绍和使用 (微服务实现工具)

文章目录 1.go-kit 介绍1.1 go-kit 三层结构 2.go-kit 实例 1.go-kit 介绍 go-kit是一个分布式的开发工具集,在大型的组织(业务)中可以用来构建微服务,其解决了分布式系统中大多数常见问题,因此,使用者可以…

Qt自定义日志输出

Qt自定义日志输出 简略版&#xff1a; #include <QApplication> #include <QDebug> #include <QDateTime> #include <QFileInfo> // 将日志类型转换为字符串 QString typeToString(QtMsgType type) {switch (type) {case QtDebugMsg: return "D…

3D ToF赋能小米CyberDog 2提升视觉灵敏度

随着科技的进步,智能机器人越来越多地融入我们的日常生活。其中,CyberDog 2作为一款前沿的四足机器人,凭借其出色的视觉灵敏度和多功能技术配备,受到了广泛的关注。本文将重点探讨CyberDog 2的视觉系统,尤其是其四种不同类型的摄像头如何共同提升其视觉灵敏度,以及激光传…

《C语言》文件操作

文章目录 一、认识文件1、文件的概念2、程序文件3、数据文件4、文件名 三、二进制文件和文本文件四、文件的打开和关闭1、流2、标准流3、文件指针4、文件的关闭和打开 四、文件的顺序读写文件的随机读写1、fseek2、ftell3、rewind4.int origin 一、认识文件 主要讨论数据文件 1…

ESP32 IDF ADF 加入音频

需要把mp3制作成音频bin 用ADF自带工具 果用户需要生成自己的 audio-esp.bin&#xff0c;则需要执行 mk_audio_bin.py 脚本&#xff08;位于 $ADF_PATH/tools/audio_tone/mk_audio_tone.py&#xff09;&#xff0c;并且指定相关文件的路径。 源 MP3 文件在 tone_mp3_folder …

零基础开始学习鸿蒙开发-@State的使用以及定义

1.State组件介绍 首先定义 State为鸿蒙开发的一个状态组件&#xff0c;当它修饰的组件发生改变时&#xff0c;UI也会相应的刷新&#xff0c;简单介绍就是这样&#xff0c;下面我们用代码去体会一下。 2.定义DeliverParam类 首先定义一个模型类&#xff0c;类里面定义一个构造…

安卓在Fragment控制状态栏显示隐藏

废话不多上效果 隐藏 显示 核心代码 首先是Framgrent package com.zx.tab;import android.content.Context; import android.os.Bundle; import android.view.LayoutInflater; import android.view.View; import android.view.ViewGroup; import android.widget.Button;impor…

技巧解析,如何向Kimi提问才能写出更好的论文?

学境思源&#xff0c;一键生成论文初稿&#xff1a; AcademicIdeas - 学境思源AI论文写作 今天为大家整理、分享的Kimi提问技巧&#xff0c;将对论文写作的各个阶段提供帮助&#xff0c;可以以此来辅助学术论文撰写。 在此之前&#xff0c;先为大家科普一个概念——信息熵&am…

爱了爱了,11款超良心App推荐!

AI视频生成&#xff1a;小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://aitools.jurilu.com/今天&#xff0c;我们向你推荐十款与众不同但又不错的win10软件&#xff0c;它们都有各自的功能和优点&#xff0c;相信你一定会喜欢。 1.图片处…

618大促背后的智能力量:天润融通如何用AI大模型提升客户服务?

五一结束之后&#xff0c;消费零售企业马上又要进入一场紧锣密鼓的新战斗——618&#xff0c;一场上半年最重要的促销活动。 对品牌和商家来说&#xff0c;每年618都是一场新考验。因为618时间有限&#xff0c;而消费趋势总是在不断变化&#xff0c;市场竞争又越来越激烈。如何…

Oracle 入门--前提

目录 1.sqlplus 2.dual是什么&#xff1f; 3.SQL语句的种类 4.Oracle是如何工作的 5.Oracle查看配置文件 6.修改配置文件 7.常用的参数设置 1.sqlplus 管理数据库&#xff1a;启动&#xff0c;关闭&#xff0c;创建&#xff0c;删除对象......查看数据库的运行状态&…

创建STM32F10X空项目教程

创建STM32F10X系列的空项目工程 官网下载STM32标准外设软件库 STM32标准外设软件库 创建一个空文件夹作为主工程文件夹在主工程文件夹中&#xff0c;创建三个空文件夹 CMSIS - 存放内核函数及启动引导文件 FWLIB - 存放库函数 USER - 存放用户的函数将STM32标准外设软件库文件…

扫地机LiDAR形态之美

石头扫地机V20 LiDAR: Flash光源和Spot光源切换 图来自 Robot森 LiDAR(Light Detection and Ranging,激光雷达)技术在扫地机器人中的应用,不仅提升了机器的智能性和实用性,还展现了一种科技与艺术的融合之美。 一、外观设计的精致性 紧凑与轻巧:扫地机器人的LiDAR传感器…

活动集锦 | 英码科技积极参与行业盛会,AI赋能城市数字化转型

在当今数字经济时代&#xff0c;城市全域数字化转型已经成为提升城市管理效能、优化资源配置、推动经济发展的重要手段。英码科技始终致力于为企业打造高效、低成本的行业应用方案&#xff0c;助力企业实现数字化转型。近日&#xff0c;英码科技受邀参加了多场行业展示活动&…

reflutter工具实践之--xx一番赏app

此文章已经录制b站视频&#xff1a; flutter逆向案例-某某一番赏_哔哩哔哩_bilibili 一、工具介绍--reFlutter 这个框架帮助 Flutter 应用逆向工程&#xff0c;使用 Flutter 库的补丁版本&#xff0c;该版本已经编译并准备好重新打包应用。此库修改了快照反序列化过程&#…

kafka生产消费流程

kafka数据写入流程 1.生产者先从zookeeper的"/brokers/topic/主题名/partitions/分区名/state"节点找到该partition的leader 生产者在ZK中找到对应的broker broker进程上的leader将消息写入到本地log中。 follower从leader上拉取消息&#xff0c;写入到本地log&…

集成学习方法:Bagging与Boosting的应用与优势

个人名片 &#x1f393;作者简介&#xff1a;java领域优质创作者 &#x1f310;个人主页&#xff1a;码农阿豪 &#x1f4de;工作室&#xff1a;新空间代码工作室&#xff08;提供各种软件服务&#xff09; &#x1f48c;个人邮箱&#xff1a;[2435024119qq.com] &#x1f4f1…

实战计算机网络02——物理层

实战计算机网络02——物理层 1、物理层实现的功能2、数据与信号2.1 数据通信模型2.2 通信领域常用术语2.3 模拟信号和数字信号 3、信道和调制3.1 信道3.2 单工通信、半双工通信、全双工通信3.3 调制3.4 奈式准则3.5 香农定律 4、传输媒体4.1 导向传输媒体4.2 非导向传输媒体 5、…