1.1 理解大数据(2)

小肥柴的Hadoop之旅 1.1 理解大数据(2)

  • 目录
    • 1.1 理解大数据
      • 1.1.3 大数据概述
      • 1.1.4 更多思考
    • 参考文献和资料

目录

1.1 理解大数据

1.1.3 大数据概述

step_0 大数据定义

【《大数据算法设计分析》】:
通常来讲大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

对这段定义的理解重点在加粗的两处:
(1)“一定时间范围内”:这半句话其实揭示了一个事实,即很多大数据问题不是无法求解,而是无法在有限时间内高效的求解! ==> 若非要上升到理论视角,那就是NP问题的讨论。
(2)“信息资产”:之所以那么多公司、机构和研究者投入精力去做大数据方向的理论研究和工程实践,不就是因为需要熔炼这些数据去获取价值嘛?说白了还是太史公的那句话:“天下熙熙皆为利来…”,因此大家在学习大数据相关知识和技术的时候,有必要多问自己一句:“这个技术/工具/知识能够帮助我在处理大数据的时候产生价值吗?”,方便及时止损。

step_1 大数据特性(4V),老生常谈的话题,有兴趣的话自己可以去翻看一下相关文献资料。
<1> Volume(大量)
<2> Velocity(高速)
<3> Variety(多样)
<4> Value(低价值密度)

step_2 几个需要提前理解概念(与数据库相关)
<1> 联机事务处理OLTP(On-Line Transaction Processing)
<2> 联机分析处理OLAP(On-Line Analytical Processing)
<3> 数据仓库DW(Data Warehouse)
<4> ETL(Extral——抽取,Transform——清洗转换,Load——加载)

此处我们给出几个学习链接([1]~[7])供大家自学,仅需要记住:
(1)OLTP 是传统的关系型数据库的主要应用,事务处理,效率优先。
(2)OLAP 主要针对于数据的分析汇总操作,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
(3)数据仓库 是为数据分析准备的“预制菜”存放地,为更高层次的数据分析提供原料。
(4)数据仓库的主要工作可以简单概括为:针对具体业务的建模和对应模型的ETL实现。
(5)以上概念的提出和对应业务的软件实现其实是业务需要的结果,是一个逐渐演进的过程。

【注】建议大家去看看微信公众号“特大号”对数据仓库的理解,通俗易懂的漫画,我比较喜欢里面的猫猫,我们借用一下人家描述ETL的图,侵删。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.1.4 更多思考

最后有问题需要大家自己去寻找答案:
【Q1】数据仓库、数据湖、湖仓一体,究竟有什么区别?
【Q2】在《Hadoop权威指南》的P5(第一章 初识Hadoop)有一个观点 “大数据胜于好算法”
在这里插入图片描述
但是后来“吴恩达表示AI要转向小数据”,2023年大模型概念又出现了…请问咱们应该如何看待以上观点?
【浅显回答】大数据本身的价值含量不高,所以在使用前需要“提纯”,而高质量的数据集才是真正对分析和预测有益的。

【Q3】大数据计算的挑战和研究的问题有哪些?(偏理论向的问题,摘自《大数据算法设计分析》)
【A3】大数据计算面临的4个子问题:
(1)具有求解给定问题的高可用数据吗?
(2)若高可用数据存在,给定问题是可以计算的吗?
(3)若给定问题可以计算,那此问题的计算难吗?即:需要判定是否能在期望时间内求出问题的解?
(4)以上条件满足时,应该如何求解问题?即:合理设计求解给定问题的算法?

这些子问题的对应回答如下:

(1)大数据计算和应用亟需建立大数据可用性理论和相关算法。

(2)传统计算复杂性理论不适用于大数据计算。
<1> 计算模型是大数据计算复杂性理论的基础,现有传统模型不能基准刻画大数据计算:
i) 无法描述亚时间线性算法。
ii) 不能描述I/O复杂性和通信复杂性。
<2> 大量大数据问的计算复杂性问题未能有效解决。
i) 如何判定计算问题的难易?
ii) 如何判定难解问题是否可近似求解?
iii) 如何判断问题是否可并行求解?
iv) 问题的复杂性分类?空间计算复杂性? …

(3)传统的多项式时间算法不适于求解大数据计算问题。
<1>多项式算法执行时间长。
<2>数据密集型计算问题(e.g. 数据查询/挖掘/分析)具有多项式时间或者更高的计算复杂性。

(4)传统计算技术难以满足大数据计算需求:
<1> 传统高性能计算机系统是基于计算密集型计算需求设计的,不适用于分布式计算(不好蹭并行计算)。
<2> 云计算系统存在网络通信瓶颈(包括有线和无线的计算机网络和通信网络)。
<3> 需要面向大数据计算提供合适的计算软件框架。 ==> 这点工业界远远走在学术界前面。

综合以上描述,给出大数据研究的科学问题:
(1)建立能够准确描述大数据的计算模型。
(2)分析大数据计算问题空间的计算复杂性结构。
(3)确定大数据计算问题的固有复杂性。
(4)探索求解大数据计算问题的算法设计方法学。
(5)设计与分析求解大数据计算问题的高效算法。 => 有限资源做更多的事情,小马拉大车
(6)探索面向应用的大数据计算理论与方法。 => 交叉领域的应用
(7)探索大数据获取的理论与技术。 => 无价值数据最小化和有价值数据最大化,获取高可用数据
(8)探索大数据存储的理论与方法。 => 分布式存储,分布式数据库(体量/效率/安全/性能/能耗)
(9)探索大数据可用性的理论和方法。 => 评估、自动修复、近似计算
(10)研究支持大数据计算的计算机软硬件系统。 => 各种框架、生态和工具软件

参考文献和资料

[1] OLTP、OLAP介绍
[2] OLAP和OLTP的区别是什么?
[3] 数据库 与 数据仓库的本质区别是什么?(一)
[4] 数据库 与 数据仓库的本质区别是什么?(二)
[5] 秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(上篇)
[6] 秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(下篇)
[7] 数据仓库、数据湖、湖仓一体,究竟有什么区别?
[8] Small Data Challenges in Big Data Era: A Survey of Recent Progress on Unsupervised and Semi-Supervised Methods, Guo-Jun Qi, Senior Member, IEEE, and Jiebo Luo, Fellow, IEEE.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/230597.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网分布式应用之RabbitMQ

RabbitMQ Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机&#xff0c;Java 仍是企业和开发人员的首选开发平台。 课程内容的介绍 1. RabbitMQ介绍安装 2. Rabbi…

【C#】知识点实践序列之Lock的输出多线程信息

大家好&#xff0c;我是全栈小5&#xff0c;欢迎来到《小5讲堂之知识点实践序列》文章。 2024年第2篇文章&#xff0c;此篇文章是C#知识点实践序列之Lock知识点&#xff0c;博主能力有限&#xff0c;理解水平有限&#xff0c;若有不对之处望指正&#xff01; 本篇在Lock锁定代码…

P1019 [NOIP2000 提高组] 单词接龙

网址如下&#xff1a;P1019 [NOIP2000 提高组] 单词接龙 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 很怪&#xff0c;不知道该说什么 我试了题目给的第一个测试点的输入&#xff0c;发现输出和测试点的一样&#xff0c;但是还是WA 不是很懂为什么 有没有大佬帮我看一下…

20231228在Firefly的AIO-3399J开发板的Android11使用Firefly的DTS配置单前后摄像头ov13850

20231228在Firefly的AIO-3399J开发板的Android11使用Firefly的DTS配置单前后摄像头ov13850 2023/12/28 19:20 缘起&#xff0c;突然发现只能打开前置的ov13850&#xff0c;或者后置的ov13850。 但是不能切换&#xff01; 【SDK&#xff1a;rk3399-android-11-r20211216.tar.xz】…

Java-replaceAll()同时替换多个字符

今天复现了raplaceAll&#xff08;&#xff09;的用法&#xff0c;但是通常都是对一种字符进行替换&#xff0c;我就在想有没有操作可以一次性替换多个不同的字符&#xff0c;百度一搜&#xff0c;果然有。具体情况如下 首先是替换字的 String str1 "小明&#xff0c;小…

Vue - 多行文本“展开、收起”功能

TextClamp 使用 js 实现文本展开、收起&#xff0c;并非纯 CSS 实现。 Props&#xff1a; fontSize&#xff1a;Number&#xff0c;默认&#xff1a;14lines&#xff1a;Number&#xff0c;默认&#xff1a;1lineHeight&#xff1a;Number&#xff0c;默认&#xff1a;20 F…

双碳管理系统任务需求分析(第10套)

需求规格说明书 一、引言 &#xff08;一&#xff09;项目背景 编写本需求规格说明书的目的是为了详细呈现碳足迹产品需求和系统的功能描述&#xff0c;以进一步定制应用软件系统开发的细节问题&#xff0c;便于与项目开发协调工作。本文档面向的读者主要是项目委托单位的管…

vivado 管理宏

管理宏 宏存储为XDC约束。根据定义&#xff0c;它们是Tcl命令。这允许要在XDC约束文件和Tcl脚本中使用并交互使用的宏。宏是使用write_xdc命令编写的。使用read_xdc读取宏命令-cell选项可用于将作用域限制为特定的单元格。-cell选项特别适用于将一个宏的相对放置应用到不同层次…

4.快速实现增删改查,模糊查询功能

打开springboot项目&#xff0c;在com.example下建包common,在common下新建Result.java 4.1封装统一的返回数据结构 1.在Result.java中编写如下代码&#xff1a; private static final String *SUCCESS*"0"; private static final String *ERROR*"-1"; p…

ROS学习笔记(8)进一步深入了解ROS第二步

0.前提 在上一讲中我提到过该系列是基于宾夕法尼亚大学工程学院的ROS公开课&#xff0c;系列文章将来源于公开课中的课后习题。该系列可以很好的帮助大家更加深入的了解ROS的一些概念。&#xff08;有效面对HR的提问。&#xff09; 1. (C)What is a nodehandle object? Can we…

项目经验简单总结

引擎 unity 2020 语言 C# lua python(用于工具链) java (用于SDK对接) js&#xff08;PC WEB SDK对接&#xff09; 编辑器 VS VSCODE IDEA eclipse 项目开发模块规划分 主项目工程&#xff0c;UI资源项目工程&#xff0c;模型场景资源项目工程 主项目工程&#xff1a;所有的…

Excel模板填充:从minio上获取模板使用easyExcel填充

最近工作中有个excel导出的功能&#xff0c;要求导出的模板和客户提供的模板一致&#xff0c;而客户提供的模板有着复杂的表头和独特列表风格&#xff0c;像以往使用poi去画是非常耗时间的&#xff0c;比如需要考虑字体大小&#xff0c;单元格合并&#xff0c;单元格的格式等问…

vue-打包

打包的作用 说明&#xff1a;vue脚手架只是开发过程中&#xff0c;协助开发的工具&#xff0c;当真正开发完了>脚手架不参与上线 打包的作用&#xff1a; 1&#xff09;将多个文件压缩合并成一个文件 2&#xff09;语法降级 3&#xff09;less sass ts语法解析 打包后…

liunx操作系统基础及进阶

一、基础入门 1、Linux系统简介 什么是Liunx&#xff1f; Linux在设计之初&#xff0c;是一个基于POSIX的多用户、多任务并且支持多线程和多CPU的操作系统&#xff0c;它是由世界各地成千上万的程序员设计和开发实现&#xff1b; 在当今社会&#xff0c;Linux 系统主要被应…

【智慧零售】东胜物联蓝牙网关硬件解决方案,促进零售门店数字化管理

依托物联网&#xff08;IoT&#xff09;、大数据、人工智能&#xff08;AI&#xff09;等快速发展&#xff0c;数字化和智能化已成为零售企业的核心竞争力。更多的企业通过引入人工智能、大数据等先进技术手段&#xff0c;提高门店运营效率和服务质量。 某连锁咖啡企业牢牢抓住…

[嵌入式C][入门篇] 快速掌握基础(9个语句)

开发环境&#xff1a; 网页版&#xff1a;跳转本地开发(Vscode)&#xff1a;跳转 文章目录 一、基础语法&#xff08;1&#xff09;if (如果)示例1: 普通使用 if示例2: 带否则 else示例3: 否则如果 else if &#xff08;2&#xff09;switch case (选择)规则示例1: &#xff0…

谷歌浏览器 模拟定位

注意事项&#xff1a; 如果要清除位置信息&#xff0c;需将Geolocation修改为No override模拟定位之后需要刷新页面&#xff0c;网页才会生效如果模拟定位&#xff0c;一段时间没有操作&#xff0c;就会清空模拟定位&#xff0c;类似于No override

ubuntu远程桌面连接之novnc

一、前言 该操作是为了实现vnc桌面连接为url连接方式&#xff0c;且在浏览器中可以对ubuntu进行操作。在使用novnc进行操作前&#xff0c;需要先安装vnc才可。ubuntu下如何安装vnc&#xff0c;可看博主前面写的一篇文&#xff0c;ubuntu远程桌面连接之vnc-CSDN博客&#xff0c;…

案例074:基于微信小程序的儿童预防接种预约管理系统

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;springboot JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder …

物流实时数仓:数仓搭建(DWS)一

系列文章目录 物流实时数仓&#xff1a;采集通道搭建 物流实时数仓&#xff1a;数仓搭建 物流实时数仓&#xff1a;数仓搭建&#xff08;DIM&#xff09; 物流实时数仓&#xff1a;数仓搭建&#xff08;DWD&#xff09;一 物流实时数仓&#xff1a;数仓搭建&#xff08;DWD&am…