大数据概述(林子雨慕课课程)

文章目录

    • 1. 大数据概述
      • 1.1 大数据概念和影响
      • 1.2 大数据的应用
      • 1.3 大数据的关键技术
      • 1.4 大数据与云计算和物联网的关系
        • 云计算
        • 物联网

1. 大数据概述

  • 大数据的四大特点:大量化、快速化、多样化、价值密度低

1.1 大数据概念和影响

  • 大数据摩尔定律
image-20230926145239672
  • 大数据由结构化和非结构化的数据组成,非结构化的数据占比大,如图像数据

    image-20230926145401781
  • 结构化的数据就是关系数据库表中的图表数据

  • 非结构化的数据种类繁多

    image-20230926145534691

  • 大数据从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少,必须实现秒级决策

  • 价值密度低,商业价值高

  • 大数据的影响

    • 全样非抽样:因为现在存储廉价,数据可以全部保存,不在需要抽样进行统计分析
    • 效率而非精确:因为从前的抽样的结果误差放在全样上会被放大,现在基于全样的分析不存在效率问题
    • 相关而非因果:大数据时代追求的更多的追求数据之间的相关性,而非因果关系

1.2 大数据的应用

image-20230926150537411

1.3 大数据的关键技术

  • 四个关键技术
image-20230926150853710
  • 两大核心技术:分布式存储和分布式处理
    • 分布式存储:解决海量数据的存储问题

      • 分布式数据库,以及分布式文件系统
    • 分布式处理:解决海量数据的处理问题

      • 分布式并行处理技术
image-20230926151045548
  • 不同的计算模式需要不同产品:批处理、流计算、图计算、查询分析计算

    • MapReduce是批处理计算模式的典型代表,其无法满足实时要求
    • 流计算:流数据需要实时处理,给出实时响应,否则分析结果会失去商业价值
      • S4+Storm+Flume
    • 图计算:代表Goole Pregel 设计可以高效处理图流数据的产品
    • 查询分析计算:秒级响应,实现交互式计算,如Google Dremel、Hive、Cassandra
    image-20230926151927900

1.4 大数据与云计算和物联网的关系

云计算
  • 云计算:解决海量数据的分布式存储问题和分布式处理问题

    • 典型特征:虚拟化、多租户
    • 概念:云计算是通过网络以服务的方式为用户提供非常廉价的IT资源
    • 优势:企业无需自建IT基础设施,可以租用云端资源
    • 云的三种模式
  • 云计算的三种模式

    image-20230926152321989
    • 公有云:构建的云平台是面对所有公众服务的:如百度云

    • 私有云:企业内部自己构建的面对企业内部员工的云平台

    • 混合云:构建的云平台部分给自己用,部分给外面用

  • 三种云服务:

    image-20230926152709877
    • IaaS:基础设施即服务

      • 将基础设施(计算资源和存储)作为服务出租
    • PaaS:平台即服务

      • 开发云产品:在别人提供的云服务环境中,利用其提供的接口,开发各种云服务产品,也部署到其分布式环境中去

        image-20230926153034561

    • SaaS:软件即服务

      • 将云中心财务软件买卖给你
  • 虚拟化和多租户:

    image-20230926153457276
  • 云计算数据中心:各种数据和应用,并非在天上云端,而是位于数据中心里

    • 其应用广泛
    image-20230926153919564
物联网
  • 概念:物联网(IoT:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸

  • 物联网的层次架构

    image-20230926154132177
  • 物联网的关键技术:识别和感知技术

  • 物联网的应用:

    image-20230926154459910
  • 云计算和物联网的关系:

    image-20230926154650537

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/151846.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Observability:使用 OpenTelemetry 对 Node.js 应用程序进行自动检测

作者:Bahubali Shetti DevOps 和 SRE 团队正在改变软件开发的流程。 DevOps 工程师专注于高效的软件应用程序和服务交付,而 SRE 团队是确保可靠性、可扩展性和性能的关键。 这些团队必须依赖全栈可观察性解决方案,使他们能够管理和监控系统&a…

【面试经典150 | 矩阵】旋转图像

文章目录 写在前面Tag题目来源题目解读解题思路方法一:原地旋转方法二:翻转代替旋转 写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法,两到三天更新一篇文章,欢迎催更…… 专栏内容以分析题目为主,并附带…

Flask实现注册登录模块

🙌秋名山码民的主页 😂oi退役选手,Java、大数据、单片机、IoT均有所涉猎,热爱技术,技术无罪 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 获取源码,添加WX 目录 前言1.…

几道web题目

总结几道国庆写的web题目 [ACTF2020 新生赛]Include1 点进去发现就一个flag.php,源代码和抓包都没拿到好东西 结合题目猜是文件包含,构建payload ?filephp://filter/readconvert.base64-encode/resourceflag.php 得到base64编码过的flag,解码即可 此题…

Android---Class 对象在执行引擎中的初始化过程

一个 class 文件被加载到内存中的步骤如下图所示: 装载 装载是指 Java 虚拟机查找 .class 文件并生成字节流,然后根据字节流创建 java.lang.Class 对象的过程。 1. ClassLoader 通过一个类的全限定名(包名类名)来查找 .class 文件…

Linux多线程

文章目录 多线程多线程概念多线程优点多线程缺点线程和进程 Linux线程控制POSIX线程库线程的创建进程ID获取线程终止线程等待线程分离 总结 多线程 多线程概念 在Linux中,线程是进程内的执行单元。换句话说,线程是进程内部的子任务,它们共享…

入侵防御系统(IPS)网络安全设备介绍

入侵防御系统(IPS)网络安全设备介绍 1. IPS设备基础 IPS定义 IPS(Intrusion Prevention System)是一种网络安全设备或系统,用于监视、检测和阻止网络上的入侵尝试和恶意活动。它是网络安全架构中的重要组成部分&…

MyBatis中的ResultMap有什么作用

MyBatis是一款广泛使用的Java持久层框架,它简化了数据库访问和数据映射的工作。在MyBatis中,ResultMap是一个强大的工具,用于将数据库查询结果映射到Java对象上。本文将深入探讨MyBatis中的ResultMap,解释它的作用以及如何使用它来…

进程状态的理解

我们知道进程会有属于自己的PCB,便于操作系统的管理,而PCB结构体里面还有进程状态参数,类似于用一个变量标识对应的进程状态,就相当于将每个进程状态编号,而PCB中有一个变量存储当前进程状态所对应的编号,也…

解决WordPress升级后提示:无需升级,您的WordPress数据库已经是最新的了

问题描述 当升级了 WordPress 6.3 后,登录后台出现了提示:无需升级,您的WordPress 数据库已经是最新的了。并且无法进入后台了。 出现这个问题的原因可能是你网站开启了 Memcached 缓存。 如何验证是否开启了 Memcached 缓存?检…

php 安装mongodb扩展模块,rdkafka模块

mongodb mongodb扩展下载 选择php版本,根据报错提示,选择扩展对应的版本选择非安全进程将php_mongodb.dll放到php/ext目录下修改php.ini配置,添加extensionphp_mongodb.dll开启php_mongodb扩展,重启服务php -m 查看是否开启成功…

排序(order by)

MySQL从小白到总裁完整教程目录:https://blog.csdn.net/weixin_67859959/article/details/129334507?spm1001.2014.3001.5502 语法格式: select */列名 from 表名 order by 列名1 asc/desc, 列名2 asc/desc; 说明: 排序的目的:改变查询结果的返回顺序…

大数据软件项目的数据清洗

大数据软件项目中的数据清洗是数据预处理过程中的重要环节,用于识别和纠正数据集中的错误、不一致性和不完整性。虽然没有专门的"数据清洗开发框架",但有许多工具和库可用于数据清洗任务。以下是一些常见的数据清洗工具和库,可以与…

win10 U盘安装教程

一年内,第三次重装电脑了,我必须要写一份教程了。从制作U盘开始,到重装系统,全部都记录一下,以备不时之需。 首先,找一个U盘,如果U盘内有需要文件,请自行备份,因为这个U盘…

JVM(Java虚拟机)

目录 1.JVM 简介 1.1 JVM 发展史 1.Sun Classic VM 2.Exact VM 3.HotSpot VM 4.JRockit 5.J9 JVM 6.Taobao JVM(国产研发) 1.2 JVM 和《Java虚拟机规范》 2. JVM 运行流程 JVM 执行流程 3. JVM 运行时数据区 3.1 堆(线程共享&…

泛型的小结

文章目录 什么是泛型泛型的相关概念泛型的作用 泛型的使用泛型类语法泛型接口语法泛型方法语法泛型类的简单示例泛型接口的简单示例基于泛型的简单工厂方法泛型的上界与下界 泛型的一些使用建议 什么是泛型 从JDK1.5开始引入泛型(generic)语法。对类型实…

一文看懂光模块的工作原理

你们好,我的网工朋友 光模块有很多类别,是我们经常要用到的PHY层器件。虽然封装,速率,传输距离有所不同,但是其内部组成基本是一致的。 以太网交换机常用的光模块有SFP,GBIC,XFP,X…

【Linux】 rm命令使用

作为一个程序员 我们经常用到rm -rf * 或者rm -rf XXX 。但是rm -rf 是什么意思不是很清楚,咱们一起来学习一下吧。 rm(英文全拼:remove)命令用于删除一个文件或者目录。 rm 命令 -Linux手册页 著者 由保罗鲁宾、大卫麦肯齐、理…

10.8队列安排,最少找字典次数,表达式转换与计算模拟(栈、队列)

队列安排1160 灵活的插入与删除 用队列实现的话,就是双端队列, 第一阶段是要找到对应编号的同学,然后根据p的取值决定是怎么插入 第二阶段也是要找到对应编号同学,之后就删除,如果找不到就返回 思路是这个思路&…

为什么团队需要实时协作?该如何实现?

协作是任何组织成功的关键部分,通过明确定义的愿景和使命并基于透明度和持续沟通来执行。 实时的协作是指员工之间就不同的项目、任务、文件或文档进行同步、无缝的互动和协作,他们几乎不受任何地理边界的限制,即时沟通和分享反馈、想法和信…