【大数据导论】大数据序言

各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

目录

  • 数据概念及类型及可用及组织形式
    • 数据概念
    • 数据类型
    • 数据的可用
    • 数据组织形式
  • 大数据的时代
    • 大数据技术
  • 中国大数据未来

数据概念及类型及可用及组织形式

数据概念

数据

  • 客观事件进行记录可以鉴别符号
  • 构成信息基本单位

在这里插入图片描述

数据类型

数据类型

  • 文本(字符型数据)

在这里插入图片描述

文本文件常见格式

在这里插入图片描述

  • 图片

在这里插入图片描述

图片常见格式

在这里插入图片描述

  • 音频

在这里插入图片描述

音频常见格式

在这里插入图片描述

  • 视频

在这里插入图片描述

视频常见格式
在这里插入图片描述

数据的可用

step1.数据清洗
脏乱数据进行清洗;将数据缺失和语义模糊等数据进行处理;数据类型不符合进行转换及解析
其中转换及解析常用工具和脚本语言

在这里插入图片描述

step2.数据管理

  • 将第1步后的数据放入数据库系统中进行管理和使用

step3.数据分析

  • 将第2步后的数据利用数据挖掘机器学习算法构建统计模型(其中首选R语言及它的CRAN综合类库)及大数据处理技术(主要为谷歌分布式编程模型MapReduceHadoop对其进行开源实现)进行分析

补充环节
step3.1 数据可视化

  • 用图像等可视化帮助人们进行直观理解数据

数据组织形式

文件

在这里插入图片描述

文件由文件系统进行管理

数据库软件开发基础与核心

在这里插入图片描述

其中,关系数据库之前主流的数据库,具有三种特性

  • 提供SQL语句进行各种查询操作
  • 支持事务一致性功能
  • 满足各种商业应用需求

在这里插入图片描述
其中,NoSQL数据库主要处理非结构化数据,而目前海量数据中90%都属于非结构化数据
在现在及未来的时代中,NoSQL数据库的使用将是大势所趋

大数据的时代

在如今的时代,数据的产生正处于爆炸式的增长
如今不管是移动端还是PC端、Mac端,甚至传感器、摄像头亦或是各种设备(家用电器电视汽车等等)无时无刻不在产生着大量的数据
大数据的时代已经来临,随着时代的发展越加迅猛
与此同时,对数据储存、处理与分析提出了更高的要求
与之所对应的 物联网、云计算和大数据孕育而生
大数据四个特性

  • 数据量大PB级别甚至到EP、ZP级别

在这里插入图片描述

  • 数据类型繁多 (可以是文本、图片、视频、音频等非结构化类型
  • 处理速度快 (每秒钟处理GB数据甚至更高
  • 价值密度低 (海量数据中,符合条件单点数据价值密度高
    在这里插入图片描述

大数据技术

大数据技术前提要求

  • 储存设备的容量需要
  • CPU处理能力需要
  • 网络宽带传输需要
    (抖个包袱:所以说搞大数据的电脑设备还是要有要求的)

大数据技术 四个流程

  • 数据采集与预处理
  • 数据储存与管理
  • 数据处理与分析
  • 数据可视化

中国大数据未来

大数据它是 赋能型专业 (可从大量的已知数据进行计算推出未知的理论
可以为各行业进行深度融合(可与制造业、金融业、交通行业、互联网行业、餐饮行业、能源行业、城市管理行业等等进行融合
也可以推动新技术和新应用不断涌现(其中大数据产业是一条相当庞大的产业链 [其中包含数据的贩卖、数据的储存与管理、数据的平台、数据的应用软件等产业] )

国家政策

2015年8月31日国务院发布了 《促进大数据发展行动纲要》
2021年11月30日工业和信息化部发布了《“十四五”大数据产业发展规划》
2022年12月19日 国务院发布了 《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》
地方政策
《河南省大数据产业发展行动计划(2022-2025)》
《黑龙江省大数据产业发展规划(2021—2025年)》
顺便说说:
我抽时间把一些地方的产业集群详细地了解了一遍,如果要从事大数据、人工智能等高创新方向的人才,建议首选但残酷的北京,其次选积极向未来布局的广东和江苏
夹带一个私货,由于阿川是四川的,所以说这里贴一个四川的产业集群

在这里插入图片描述
再加一个重庆的哈

在这里插入图片描述

大数据 专业
2016年开始,国内由北京大学、中南大学、对外经济贸易大学这三所大学,首个建立了"数据科学与大数据技术"的新工科专业。截至2023年,国内已有654所学校开展相关专业。
培养目标
掌握大数据相关技术具有较好数据、数理、编程、大数据的基础知识与技能,且能够运用大数据思维解决实际问题高级复合型人才
在学习中,与 数学、统计、计算机 三大领域密不可分
至少应该掌握概率论数理统计、线性代数、高等数学、离散数学、应用数学、统计学、程序设计、软件工程、计算机系统基础及组成原理、计算机网络、计算机操作系统、算法与数据结构、机器学习、深度学习、模式识别、云计算、网络爬虫、数据安全、数据清洗、数据挖掘、数据库系统、数据仓库、数据可视化、分布式并行编程、系统架构设计等编程语言建议选择Python、Java和R、Scala(尽量都学,如果实在没有时间,建议看下列图))

在这里插入图片描述

主要工作场所
互联网企业、金融机构、医疗机构、科研院所、高等院校、科技公司、传统企业

主要职位有:

在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

阿川的本篇博客,学习来源厦门大学林子雨老师的《大数据导论》(我反反复复学习了4遍哈并且做了相应的练习 然后才进行的这篇博客的书写)很累希望大佬支持一下

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/364870.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS应用开发学习经验

一、HarmonyOS学习官网 开发者能力认证 HarmonyOS应用开发者基础认证6月之前的学习资源官网已经关闭过期,大家不要慌,官方更新了最新资源,但是,对于之前没有学习完的学员不友好,存在知识断片的现象,建议官…

ctfshow sqli-libs web541--web551

web541 and和or 被替换为空格 # 还有 1 也是不能生效的?id-1 union select 1,2,3-- 双写绕过 ?id-1 union select 1,(select group_concat(table_name) from infoorrmation_schema.tables where table_schemactfshow),3 -- flags?id-1 union select 1,(select group_con…

项目如何整合sentinel

1、添加依赖 <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-sentinel</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifact…

使用FRP 0.58版本进行内网穿透的详细教程

什么是FRP&#xff1f; FRP&#xff08;Fast Reverse Proxy&#xff09;是一款高性能的反向代理应用&#xff0c;主要用于内网穿透。通过FRP&#xff0c;您可以将内网服务暴露给外网用户&#xff0c;无需进行复杂的网络配置。 准备工作 服务器&#xff1a;一台具备公网IP的服…

【Unity设计模式】✨使用 MVC 和 MVP 编程模式

前言 最近在学习Unity游戏设计模式&#xff0c;看到两本比较适合入门的书&#xff0c;一本是unity官方的 《Level up your programming with game programming patterns》 ,另一本是 《游戏编程模式》 这两本书介绍了大部分会使用到的设计模式&#xff0c;因此很值得学习 本…

python selenium 下载

查看浏览器版本 下载地址&#xff1a; 新版本下载地址 https://googlechromelabs.github.io/chrome-for-testing/ 历史版本也可以用这个下载地址 http://chromedriver.storage.googleapis.com/index.html 找到对应的版本 126.0.xxx 下载

1.spring入门案例

Spring 介绍 Spring是轻量级的开源的JavaEE框架。 Spring有两个核心部分&#xff1a;IOC和AOP IOC 控制反转&#xff0c;把创建对象过程交给Spring进行管理。 AOP 面向切面&#xff0c;不修改源代码进行功能增强。 Spring特点 1.方便解耦&#xff0c;简化开发。 2.AOP编…

Android 架构模式

MVC MVC是 Model-View-Controller 的简称。 M:模型层(Model) 负责与数据库和网络层通信&#xff0c;并获取和存储应用的数据&#xff1b;V:视图层(View) 负责将 Model 层的数据做可视化的处理&#xff0c;同时处理与用户的交互&#xff1b;C:控制层(Controller) 用于建立Model…

vue3使用vant4的列表vant-list点击进入详情自动滚动到对应位置,踩坑日记(一天半的踩坑经历)

1.路由添加keepAlive <!-- Vue3缓存组件&#xff0c;写法和Vue2不一样--><router-view v-slot"{ Component }"><keep-alive><component :is"Component" v-if"$route.meta.keepAlive"/></keep-alive><component…

本地Navicat/客户端连接阿里云RDSMySQL时遇到过的问题及解决

1.之前开发的RDS MySQL版本和本地MySQL版本最好接近&#xff0c;比如8.0.28和8.0.20好像都是可以兼容的&#xff0c;他们里面都有那个utf8的字符编码&#xff0c;但是后面我选的RDS MySQL版本有点新&#xff0c;是8.0.30甚至更新的版本&#xff0c;之前用C#语言写的连接MySQL以…

艺术家电gorenje x 设计上海丨用设计诠释“生活的艺术”

2024年6月19日—22日&#xff0c;艺术家电gorenje亮相“设计上海”2024&#xff0c;以“gorenje是家电更是艺术品”为题&#xff0c;为人们带来融入日常的艺术之美。设计上海2024不但汇集了国内外卓越设计品牌和杰出独立设计师的家具设计作品&#xff0c;还联合国内外多名设计师…

每日一题(6.22-6.28)

(&#xff61;&#xff65;∀&#xff65;)&#xff89;&#xff9e;嗨&#xff0c;中途考电路分析去了&#xff0c;空了几天的题没有练&#xff0c;为什么三相电路他都没讲过的都要考啊&#xff1f;我服了&#xff0c;什么在Y型三相电路&#xff0c;线电压和相电压的比值都考&…

Spark join数据倾斜调优

Spark中常见的两种数据倾斜现象如下 stage部分task执行特别慢 一般情况下是某个task处理的数据量远大于其他task处理的数据量&#xff0c;当然也不排除是程序代码没有冗余&#xff0c;异常数据导致程序运行异常。 作业重试多次某几个task总会失败 常见的退出码143、53、137…

2095.删除链表的中间节点

给你一个链表的头节点 head 。删除链表的中间节点 &#xff0c;并返回修改后的链表的头节点 head。 长度为 n 链表的中间节点是从头数起第 ⌊n / 2⌋ 个节点&#xff08;下标从 0 开始&#xff09;&#xff0c;其中 ⌊x⌋ 表示小于或等于 x 的最大整数。 对于 n 1、2、3、4 和…

【机器学习】机器学习重要方法——迁移学习:理论、方法与实践

文章目录 迁移学习&#xff1a;理论、方法与实践引言第一章 迁移学习的基本概念1.1 什么是迁移学习1.2 迁移学习的类型1.3 迁移学习的优势 第二章 迁移学习的核心方法2.1 特征重用&#xff08;Feature Reuse&#xff09;2.2 微调&#xff08;Fine-Tuning&#xff09;2.3 领域适…

matlab仿真 通信信号和系统分析(上)

&#xff08;内容源自详解MATLAB&#xff0f;SIMULINK 通信系统建模与仿真 刘学勇编著第三章内容&#xff0c;有兴趣的读者请阅读原书&#xff09; 一、求离散信号卷积和 主要还是使用卷积函数conv&#xff0c;值得注意的是&#xff0c;得到的卷积和长度结果为81&#xff0…

Windows USB设备驱动开发 - 常见概念的解释

我们听到许多 USB 术语几乎交替抛出。 它们都是什么意思&#xff1f;假设我们看到类似 “多亏了 USB 3.0&#xff0c;我可以将 SuperSpeed U 盘连接到电脑的 xHCI 主机控制器&#xff0c;并更快地复制文件。” 让我们了解该句子中的 USB 术语。 USB 3.0、USB 2.0 和 USB 1.0 请…

[深度学习] 自编码器Autoencoder

自编码器&#xff08;Autoencoder&#xff09;是一种无监督学习算法&#xff0c;主要用于数据的降维、特征提取和数据重建。自编码器由两个主要部分组成&#xff1a;编码器&#xff08;Encoder&#xff09;和解码器&#xff08;Decoder&#xff09;。其基本思想是将输入数据映射…

Redis 7.x 系列【9】数据类型之自动排重集合(Set)

有道无术&#xff0c;术尚可求&#xff0c;有术无道&#xff0c;止于术。 本系列Redis 版本 7.2.5 源码地址&#xff1a;https://gitee.com/pearl-organization/study-redis-demo 文章目录 1. 前言2. 常用命令2.1 SADD2.2 SCARD2.3 SISMEMBER2.4 SREM2.5 SSCAN2.6 SDIFF2.7 SU…

海云安参编《数字安全蓝皮书 》正式发布并入选《2024中国数字安全新质百强》荣膺“先行者”

近日&#xff0c;国内数字化产业第三方调研与咨询机构数世咨询正式发布了《2024中国数字安全新质百强》&#xff08;以下简称百强报告&#xff09;。海云安凭借在开发安全领域的技术创新力及市场影响力入选百强报告“新质百强先行者” 本次报告&#xff0c;数世咨询经过对国内8…