个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力
阿川水平有限,如有错误,欢迎大佬指正
目录
- 数据概念及类型及可用及组织形式
- 数据概念
- 数据类型
- 数据的可用
- 数据组织形式
- 大数据的时代
- 大数据技术
- 中国大数据未来
数据概念及类型及可用及组织形式
数据概念
数据
- 对客观事件进行记录并可以鉴别的符号
- 是构成信息的基本单位
数据类型
数据类型
- 文本(字符型数据)
文本文件常见格式:
- 图片
图片常见格式:
- 音频
音频常见格式:
- 视频
视频常见格式:
数据的可用
step1.数据清洗
将脏乱数据进行清洗;将数据缺失和语义模糊等数据进行处理;数据类型不符合可进行转换及解析
其中转换及解析常用工具和脚本语言:
step2.数据管理
- 将第1步后的数据放入数据库系统中进行管理和使用
step3.数据分析
- 将第2步后的数据利用数据挖掘和机器学习算法和构建统计模型(其中首选R语言及它的CRAN综合类库)及大数据处理技术(主要为谷歌的分布式编程模型MapReduce,Hadoop对其进行开源实现)进行分析
补充环节
step3.1 数据可视化
- 用图像等可视化,帮助人们进行直观理解数据
数据组织形式
文件
文件由文件系统进行管理
数据库(软件开发的基础与核心)
其中,关系数据库是之前主流的数据库,具有三种特性:
- 提供SQL语句进行各种查询操作
- 支持事务一致性功能
- 满足各种商业应用需求
其中,NoSQL数据库主要处理非结构化数据,而目前海量数据中90%都属于非结构化数据。
在现在及未来的时代中,NoSQL数据库的使用将是大势所趋
大数据的时代
在如今的时代,数据的产生正处于爆炸式的增长
如今不管是移动端还是PC端、Mac端,甚至传感器、摄像头亦或是各种设备(家用电器电视汽车等等)无时无刻不在产生着大量的数据
大数据的时代已经来临,随着时代的发展越加迅猛
与此同时,对数据的储存、处理与分析提出了更高的要求
与之所对应的 物联网、云计算和大数据孕育而生。
大数据的四个特性
- 数据量大 (PB级别甚至到EP、ZP级别)
- 数据类型繁多 (可以是文本、图片、视频、音频等非结构化类型)
- 处理速度快 (每秒钟处理GB数据甚至更高)
- 价值密度低 (海量数据中,符合条件的单点数据价值密度高)
大数据技术
大数据技术的 前提要求
- 储存设备的容量需要强
- CPU处理能力需要强
- 网络宽带传输需要强
(抖个包袱:所以说搞大数据的电脑设备还是要有要求的)
大数据技术 四个流程
- 数据采集与预处理
- 数据储存与管理
- 数据处理与分析
- 数据可视化
中国大数据未来
大数据它是 赋能型专业 (可从大量的已知数据中进行计算,推出未知的理论)
可以为各行业进行深度融合(可与制造业、金融业、交通行业、互联网行业、餐饮行业、能源行业、城市管理行业等等进行融合)
也可以推动新技术和新应用的不断涌现(其中大数据产业是一条相当庞大的产业链 [其中包含数据的贩卖、数据的储存与管理、数据的平台、数据的应用软件等产业] )
国家政策:
2015年8月31日国务院发布了 《促进大数据发展行动纲要》
2021年11月30日工业和信息化部发布了《“十四五”大数据产业发展规划》
2022年12月19日 国务院发布了 《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》
地方政策:
《河南省大数据产业发展行动计划(2022-2025)》
《黑龙江省大数据产业发展规划(2021—2025年)》
顺便说说:
我抽时间把一些地方的产业集群详细地了解了一遍,如果要从事大数据、人工智能等高创新方向的人才,建议首选但残酷的北京,其次选积极向未来布局的广东和江苏。
夹带一个私货,由于阿川是四川的,所以说这里贴一个四川的产业集群
再加一个重庆的哈
大数据 专业
从2016年开始,国内由北京大学、中南大学、对外经济贸易大学这三所大学,首个建立了"数据科学与大数据技术"的新工科专业。截至2023年,国内已有654所学校开展相关专业。
培养目标:
掌握大数据相关技术 并具有较好的 数据、数理、编程、大数据的基础知识与技能,且能够运用大数据思维解决实际问题的高级复合型人才。
在学习中,与 数学、统计、计算机 三大领域密不可分。
(至少应该掌握:概率论数理统计、线性代数、高等数学、离散数学、应用数学、统计学、程序设计、软件工程、计算机系统基础及组成原理、计算机网络、计算机操作系统、算法与数据结构、机器学习、深度学习、模式识别、云计算、网络爬虫、数据安全、数据清洗、数据挖掘、数据库系统、数据仓库、数据可视化、分布式并行编程、系统架构设计等,编程语言建议选择Python、Java和R、Scala(尽量都学,如果实在没有时间,建议看下列图))
主要工作场所:
互联网企业、金融机构、医疗机构、科研院所、高等院校、科技公司、传统企业
主要职位有:
好的,到此为止啦,祝您变得更强
想说的话
阿川的本篇博客,学习来源厦门大学林子雨老师的《大数据导论》(我反反复复学习了4遍哈并且做了相应的练习 然后才进行的这篇博客的书写)很累,希望大佬支持一下
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力