大数据之hadoop入门

大数据概念

大数据:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现李和流程优化能力的海量、高增长率和多样化的信息资产。

大的概念是相对来说的:目前来说,大数据的规模至少10T以上。
目前单台主机一般只能存放1T左右的数据,所以要进行计算首先要进行分布式存储,分开到10台电脑中进行存储。然后后面的计算也必须基于分布式的存储结构来进行分布式运算。

大数据特点

  1. 大量(Volume)
  2. 高速(Velocity)
  3. 多样(Variety)
  4. 低价值密度(Value)

大数据应用

  • 增加用户粘性:进行客户画像,推荐客户喜欢的内容。
  • 多臂试探:当用户画像基本完成时,尝试推送其他内容,并重新画像。
  • 发现多个事务之间的潜在关联性:比如纸尿布和啤酒。
  • 获取商场的流量信息,分析运营情况。
  • 保险/金融:挖掘潜在客户,助力保险行业精准营销。

大数据不是用来开发一个独立的软件,而且需要贴合其他软件来叠加使用,助力软件更加智能和贴合用户需求。

业务分析

数据部门搭建数据平台,分析数据指标。分析分为两种,一种是离线数仓分析,一种是实时分析。处理好后的展示环节交给前端处理。

大数据部门组织结构:

  1. 平台组:搭建Hadoop、Flume、Kafka、HBase平台
  2. 数据仓库组:ETL数据清洗、数据分析
  3. 实时组:实时指标分析
  4. 数据挖掘组:算法工程师、推荐系统工程师、用户画像工程师
  5. 报表开发组:javaEE工程师 + 前端工程师(非大数据部分)

Hadoop概述

Hadoop是什么

是一个分布式系统架构,Apache基金会所开发的。主要解决海量数据的存储和海量数据的分析计算问题。Hadoop通常指一个更广泛的概念,Hadoop生态圈(Hadoop, Hive, )
大数据之父:Doug Cutting,开发了Lucene,一个搜索引擎,类似谷歌搜索引擎。为了在对Lucene进行优化升级,提升面对大数据的查询效率,结合谷歌发布的三篇论文,实现了DFS和MapReduce机制,使Nutch搜索引擎性能飙升。之后项目立项更名为Hadoop,从此Hadoop诞生了。
在这里插入图片描述

Hadoop三大发行版本

  • Apache原始版本
  • 国外开发的图形化版本
  • 国内的阿里云、腾讯云版本

Hadoop优势

  1. 高可靠性:有备份
  2. 高扩展性:可以扩展节点数量
  3. 高效性:Hadoop是并行运算的
  4. 高容错性:能够自动将失败的任务重新分配

Hadoop组成

  • Hadoop1.x:
    • HDFS数据存储
    • MapReduce计算+资源调度
  • Hadoop2.x/3.x:
    • HDFS数据存储
    • MapReduce计算
    • Yarn资源调度

HDFS架构概述

  1. NameNode(nn): 存储文件的元数据,如文件名,文件目录结构,文件属性
  2. DataNode(dn): 存储文件块数据,已经校验
  3. Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。

YARN架构概述

  • ResourceManager(RM): 汇总所有资源信息
  • NodeManager(NM): 动态收集当前节点的资源情况
  • ApplicationMaster(AM): 单个任务运行的管理员
  • Container: 容器,相当于一台独立的服务器,里面封装了任务所需要的资源,如内存、CPU、磁盘、网络等,类似一个小虚拟机。

MapReduce架构概述

Map表示细分为子任务,Reduce表示合并计算结果。细分任务的名称为MapTask, 合并任务名称为ReduceTask(规约)。MapReduce基本上概括了分布式系统进行计算的基本过程。

HDFS、YARN、MapReduce三者关系

在这里插入图片描述

大数据技术生态体系

在这里插入图片描述

Hadoop搭建

创建模版机

  1. 最小化安装
  2. 安装一些必要软件
  3. 修改ip为静态ip
  4. 修改主机名和hosts映射文件
  5. 关闭防火墙
  6. 创建atguigu用户,配置sudo权限
  7. 在/opt目录下创建两个子目录
    • module安装好的软件
    • software安装包
    • 修改module和software的所属者和所属组

使用xshell连接查询虚拟机ip地址:

  • ip addr命令查看ip地址连接

安装jdk和Hadoop

  1. 使用ftp将jdk传输到software文件中
  2. 使用jar -zxfc解压到module文件中
  3. 配置环境变量
    • profile.d目录下声明环境变量
    • #JAVA_HOME export JAVA_HOME=/opt/module/jdk1.8.0_212 export PATH=$PATH:$JAVA_HOME/bin

shell的补充

  • 父子shell项
    • 父类定义变量子类不能获取:有办法获取,使用export 变量名将父类变量传递给子类shell
    • 子类定义变量父类不能获取:获取不了
  • 使用pstree命令可以查看进程之间的父子关系
  • shell的三种执行方式
    • 开子bash的形式执行,使用子类的shell的环境变量
      • bash + 脚本文件
      • chmod 777 脚本文件 + ./ 脚本文件
    • 在当前bash中执行,使用当前shell的环境变量
      • . 或者 source 脚本文件
    • 一般情况下脚本都是开子shell来执行的,除了环境变量是父shell中运行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/115420.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

教程i.MX8MPlus开发板SPI转CAN操作

飞凌嵌入式OKMX8MP-C核心板有两路原生CAN总线,但用户在开发产品时可能需要用到更多的CAN,这该如何解决呢?今天小编将为大家介绍一种SPI转CAN的方法,供各位工程师小伙伴参考。 说明 OKMX8MP-C核心板有两路原生的SPI总线&#xff0c…

简单了解IPv4编址

目录 一、IPv4地址 二、进制转换 三、有类IPv4 四、无类IPv4 3.1 子网掩码 3.2 地址规划 3.3 VLSM可变长子网掩码 五、私有IPv4地址 六、IPv4报文格式 七、IP地址解析 一、IPv4地址 IPv4地址由“网络位主机位”构成,所谓的网络位就是我们通常所指的网段区…

高中信息技术教资考试模拟卷(22下)

2022 年下半年全国教师资格考试模考卷一 (高中信息技术) 一、单项选择题(本大题共 15 小题,每小题 3 分,共 45 分) 1.2006 年 10 月 25 日,深圳警方成功解救出一名被网络骗子孙某…

前端:html实现页面切换、顶部标签栏(可删、可切换,点击左侧超链接出现标签栏)

一、在一个页面&#xff08;不跨页面&#xff09; 效果&#xff1a; 代码 <!DOCTYPE html> <html><head><style>/* 设置标签页外层容器样式 */.tab-container {width: 100%;background-color: #f1f1f1;overflow: hidden;}/* 设置标签页选项卡的样式 …

MySQL索引和查询优化

文章目录 1.Mysql索引2. b- tree 与 b tree3.覆盖索引和回表查询4.查询优化1.Explain 5.优化实战举例**用户搜索****订单查询****分页查询** 1.Mysql索引 MySQL索引是一种用于提高数据库查询效率的数据结构。它可以加快数据检索的速度&#xff0c;减少查询所需的IO操作和计算…

Spring——Spring读取文件

文章目录 1.通过 value 读取比较简单的配置信息2.通过ConfigurationProperties读取并与 bean 绑定3.通过ConfigurationProperties读取并校验4. PropertySource 读取指定 properties 文件5.题外话:Spring加载配置文件的优先级 很多时候我们需要将一些常用的配置信息比如阿里云os…

el-table 单击某一行,该行的前面的多选框显示已勾选

目 录 官网&#xff1a; 1. 单页面 2. table是组件 案例&#xff1a; 官网&#xff1a; 1. 单页面 通过单击获取当前行的数据&#xff0c;然后传给选中显示勾选的方法。 <template><el-tableref"multipleTable":data"tableData"tooltip-eff…

缓存技术(缓存穿透,缓存雪崩,缓存击穿)

大家好 , 我是苏麟 , 今天聊一聊缓存 . 这里需要一些Redis基础 (可以看相关文章等) 本文章资料来自于 : 黑马程序员 如果想要了解更详细的资料去黑马官网查看 前言:什么是缓存? 缓存,就是数据交换的 缓冲区 (称作Cache [ kʃ ] ),俗称的缓存就是缓冲区内的数据,是存贮数据的…

EMQX启用双向SSL/TLS安全连接以及java连接

作为基于现代密码学公钥算法的安全协议&#xff0c;TLS/SSL 能在计算机通讯网络上保证传输安全&#xff0c;EMQX 内置对 TLS/SSL 的支持&#xff0c;包括支持单/双向认证、X.509 证书、负载均衡 SSL 等多种安全认证。你可以为 EMQX 支持的所有协议启用 SSL/TLS&#xff0c;也可…

uni-app开发小程序中遇到的map地图的点聚合以及polygon划分区域问题

写一篇文章来记录以下我在开发小程序地图过程中遇到的两个小坑吧&#xff0c;一个是点聚合&#xff0c;用的是joinCluster这个指令&#xff0c;另一个是polygon在地图上划分多边形的问题&#xff1a; 1.首先说一下点聚合问题&#xff0c;由于之前没有做过小程序地图问题&#…

【Cookie和Session的那些事儿】

&#x1f320;作者&#xff1a;TheMythWS. &#x1f386;专栏&#xff1a;《集合与数据结构》 &#x1f387;座右铭&#xff1a;不走心的努力都是在敷衍自己&#xff0c;让自己所做的选择&#xff0c;熠熠发光。 目录 认识Cookie和Session Cookie Cookie对象的特点 Cookie对…

QTday3(QT实现文件对话框保存操作、实现键盘触发事件【WASD控制小球的移动】)

1.实现文件对话框保存操作 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }void Widget::on_fontBtn_clicked() {//调用QFo…

数据库访问性能优化

目录 IO性能分析数据库性能优化漏斗法则1、减少数据访问&#xff08;减少磁盘访问&#xff09;(1) 正确的创建并使用索引索引生效场景索引失效场景判断索引是否生效--执行计划 2、返回更少数据&#xff08;减少网络传输或磁盘访问&#xff09;(1) 数据分页处理(减少行数)客户端…

shell bash中设置命令set

1 Preface/Foreword set命令用于shell脚本在执行命令时候&#xff0c;遇到异常的处理机制。 2 Usage 2.1 set -e 当执行命令过程中遇到异常&#xff0c;那么就退出脚本&#xff0c;不会往下执行其它命令。 #!/bin/bash #set -eroot GIT_TAG${CI_BUILD_TAG-NOTAG} GIT_REV…

叮!你的 AI安全“秘籍”已送达,请签收

2023年初&#xff0c;全球生成式 AI 产业迎来了爆发式增长&#xff0c;大量AI产品和应用纷纷落地&#xff0c;让用户深度感知AI的魅力。预计到2032年&#xff0c;生成式AI市场的营收规模将从2022年的400亿美元增长至1.3万亿美元。 就在大量用户“尝鲜”生成式 AI 时&#xff0…

——滑动窗口

滑动窗口 所谓滑动窗口&#xff0c;就是不断的调节子序列的起始位置和终止位置&#xff0c;从而得出我们要想的结果。也可以理解为一种双指针的做法。 leetcode76 class Solution {public String minWindow(String s, String t) {char[] schars s.toCharArray();char[] tc…

极氪汽车的云资源治理细探

作者&#xff1a;极氪汽车吴超 前言 2021 年&#xff0c;极氪 001 迅速崭露头角&#xff0c;仅用 110 天便创下了首款车型交付量“最快破万”的纪录。2022 年 11 月&#xff0c;极氪 009 在短短 76 天内便率先完成了首批交付&#xff0c;刷新了中国豪华纯电品牌交付速度的纪录…

设计模式—策略模式

目录 一、定义 二、特点 三、优点 四、缺点 五、实例 六.涉及到的知识点 1、一个类里面有哪些东西&#xff1f; 2、类和实例 什么是类&#xff1f; 什么是实例&#xff1f; 什么是实例化&#xff1f; 3、字段和属性 什么是字段&#xff1f; 属性是什么&#xff1…

PXE 装机(五十)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、PXE是什么 二、PXE的组件 三、配置vsftpd 四、配置tftp 五、准备pxelinx.0文件、引导文件、内核文件 ​六、配置dhcp 七、创建default文件 八、配置pxe无人值守…

【浏览器】端数据库存储方案----indexDB、localForage

浏览器存储 localStoragelocalforageIndexDB localStorage 说到本地存储数据&#xff0c;首先想到的是 localStorage&#xff0c;应该很多小伙伴都用过&#xff0c;使用很简单。然而&#xff0c;localStorage 却有下面一些缺点&#xff1a; 存储容量限制&#xff0c;大部分浏…