大数据Hadoop入门3

第五部分(Apache Hive DML语句和函数使用)

1.课程内容大纲和学习目标

2.Hive SQL-DML-load加载数据操作

下面我们随机创建文件尝试一下

先创建一个hivedata文件夹

在这个文件夹中写一个1.txt文件

下面使用beeline创建一张表

只要将1.txt文件放在t_1文件夹下,就能映射成功了

==================================================================================================================================================

下面是第一种方法,直接put进去

刷新一下

或者直接在web页面上传

不管什么方法

将结构化的文件放在对应的目录下面就能成功

 

=================

上面的方法,hive官方是不推荐的(因为上面的都是跳过hive去操作的)

我们有三台机器

我们的hive是安装在node1上面的,node1上面启动了hiveserver2和metastore两个服务

我们是使用node3作为客户端的(包括第一代客户端和第二代beeline客户端),如果使用的是datagrip,则客户端在外面的Windows系统上。

但不管我们的客户端在哪,最终都是连接到node1的hiveserver2上进行操作的。

如果我们在客户端上敲一个命令,加载数据local,这个local是hiveserver2服务所在的机器

本课程的SQL已经写好了

我们直接将其复制粘贴到datagrip

首先将我们当前的SQL语法切换为hive语法

接着将我们的会话做一个绑定

如果有直接绑定即可,没有的话创建一个新的会话即可

之后我们做一个验证

看是否与我们的hive集群连接上

然后针对下面的文件

我们创建两张表

我们运行命令创建两张表

==================================================================================================================================================

下面首先进行本地上传

文件首先存放到本地中

成功

红框中是关键的日志信息

做一个查看

数据显示正常

我们发现本地目录中的文件依旧存在

所以本地加载就是一个复制的过程

==================================================================================================================================================

我们将刚刚的文件放在hdfs的根目录下面

我们刚刚建了两张表

我们看一下另外一张表

我们继续加载数据

我们发现根目录下的文件没有了

3.Hive SQL-DML-insert插入数据

insert插了一条数据花了47秒

因为我们底层使用了Mr程序

我们首先创建一个表student

然后将student.txt加载到表student

再创建另外一个空表

使用insert+select

4.Hive SQL-DML-select查询-语法书和环境准备

下面我们创建一个表

将这个数据映射成功

首先将我们的文件上传到Linux

5.Hive SQL-DML-select查询-列表达式和distinct去重

选中表点击ctrl+q,可以查看表信息

6.Hive SQL-DML-select查询-where条件过滤

7.Hive SQL-DML-select查询-聚合操作aggregate

where中不能使用聚合函数

8.Hive SQL-DML-select查询-group by分组及语法限制

我们的state被group by分组

country被count聚合函数应用

但death什么都没有(系统不知道返回哪一行的death)

我们可以对报错做一个修改

9.Hive SQL-DML-select查询-having过滤操作

having主要为了解决where无法与聚合函数一起使用的弊端

10.Hive SQL-DML-select查询-order by排序

11.Hive SQL-DML-select查询-limit限制语法

12.Hive SQL-DML-select查询-梳理执行顺序

13.Hive SQL  join关联查询

14.hive函数概述及分类标准

15.hive常用的内置函数

如果有多个条件判断

第六部分(Hadoop生态综合案例--陌陌聊天数据分析)

1.课程内容大纲与学习目标

2.陌陌聊天数据分析案例需求

3.基于hive数仓实现需求开发-建库建表与加载数据

我们点击显示所有符号,可以查看我们的分割符

我们的tab键制表符就是->

空格键就是 ..... 

下面是课程使用的SQL文件

复制到datagrip

修改SQL为hive支持

与hive服务器做一个连接

首先创建数据库

然后创建表

然后加载数据

要先将文件上传到Linux系统中

4.基于hive数仓实现需求开发-ETL需求分析与技术支持

比如要统计每个小时的数量

我们做一个截取

那我们要以小时分组,可以用下面的方式

但有一个弊端

14w条数据,性能受到很大的影响

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9036.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025.1.26机器学习笔记:C-RNN-GAN文献阅读

2025.1.26周报 文献阅读题目信息摘要Abstract创新点网络架构实验结论缺点以及后续展望 总结 文献阅读 题目信息 题目: C-RNN-GAN: Continuous recurrent neural networks with adversarial training会议期刊: NIPS作者: Olof Mogren发表时间…

基于物联网的火灾报警器设计与实现(论文+源码)

1 总体方案设计 本次基于物联网的火灾报警器,其系统总体架构如图2.1所示,采用STM32f103单片机作为控制器,通过DS18B20传感器实现温度检测;通过MQ-2烟雾传感器实现烟雾检测;.通过火焰传感器实现火焰检测,当…

ResNeSt: Split-Attention Networks论文学习笔记

这张图展示了一个名为“Split-Attention”的神经网络结构,该结构在一个基数组(cardinal group)内进行操作。基数组通常指的是在神经网络中处理的一组特征或通道。图中展示了如何通过一系列操作来实现对输入特征的注意力机制。 以下是图中各部…

模糊综合评价

模糊综合评价的特点主要体现在以下几个方面: 一、系统性强 模糊综合评价法能够综合考虑多种因素的影响,将定性指标和定量指标相结合,对评价对象进行全面、系统的分析。这种方法避免了单一指标评价的片面性,提高了评价的准确性和…

宫本茂的游戏设计思想:有趣与风格化

作为独立游戏开发者之一,看到任天堂宫本茂20年前的言论后,深感认同。 游戏研发思想,与企业战略是互为表里的,游戏是企业战略的具体战术体现,虚空理念的有形载体。 任天堂长盛不衰的关键就是靠简单有趣的游戏&#xf…

deepseek-r1 本地部署

deepseek 最近太火了 1&#xff1a;环境 win10 cpu 6c 内存 16G 2: 部署 1>首先下载ollama 官网&#xff1a;https://ollama.com ollama 安装在c盘 模型可以配置下载到其他盘 OLLAMA_MODELS D:\Ollama 2>下载模型并运行 ollama run deepseek-r1:<标签> 1.5b 7b 8…

electron typescript运行并设置eslint检测

目录 一、初始化package.json 二、安装依赖 1、安装electron 2、安装typescript依赖 3、安装eslint 三、项目结构 四、配置启动项 一、初始化package.json 我的&#xff1a;这里的"main"没太大影响&#xff0c;看后面的步骤。 {"name": "xlo…

每日一题-判断是否是平衡二叉树

判断是否是平衡二叉树 题目描述数据范围题解解题思路递归算法代码实现代码解析时间和空间复杂度分析示例示例 1示例 2 总结 ) 题目描述 输入一棵节点数为 n 的二叉树&#xff0c;判断该二叉树是否是平衡二叉树。平衡二叉树定义为&#xff1a; 它是一棵空树。或者它的左右子树…

WS2812 梳理和颜色表示方法的对比:RGB和HSV

WS2812 WS2812是一种可编程的LED灯&#xff0c;具有RGB显示效果&#xff0c;可显示的颜色数量为2^24。 常用颜色表示方法 表示方法&#xff1a; RGB 表示 加法混色原理&#xff1a;RGB 颜色模型基于加法混色原理&#xff0c;将红&#xff08;Red&#xff09;、绿&#xff08…

一文简单回顾Java中的String、StringBuilder、StringBuffer

简单说下String、StringBuilder、StringBuffer的区别 String、StringBuffer、StringBuilder在Java中都是用于处理字符串的&#xff0c;它们之间的区别是String是不可变的&#xff0c;平常开发用的最多&#xff0c;当遇到大量字符串连接的时候&#xff0c;就用StringBuilder&am…

对游戏宣发的粗浅思考

1.两极分化 认真观摩了mgs系列制作人的x账号&#xff0c; 其更新频率吓死人&#xff0c;一天能发几十条之多&#xff0c;吓死人。大部分都是转发相关账号的ds2或mgs相关内容&#xff0c; 每日刻意的供给这些内容来满足几十万粉丝需求&#xff0c;维护热情。 幕后是专业的公…

【数据结构】空间复杂度

目录 一、引入空间复杂度的原因 二、空间复杂度的分析 ❥ 2.1 程序运行时内存大小 ~ 程序本身大小 ❥ 2.2 程序运行时内存大小 ~ 算法运行时内存大小 ❥ 2.3 算法运行时内存大小 ❥ 2.4 不考虑算法全部运行空间的原因 三、空间复杂度 ❥ 3.1空间复杂度的定义 ❥ 3.2 空…

实践网络安全:常见威胁与应对策略详解

&#x1f4dd;个人主页&#x1f339;&#xff1a;一ge科研小菜鸡-CSDN博客 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; 引言 在数字化转型的浪潮中&#xff0c;网络安全的重要性已达到前所未有的高度。无论是个人用户、企业&#xff0c;还是政府机构…

Tensor 基本操作2 理解 tensor.max 操作,沿着给定的 dim 是什么意思 | PyTorch 深度学习实战

前一篇文章&#xff0c;Tensor 基本操作1 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 目录 Tensor 基本操作torch.max默认指定维度 Tensor 基本操作 torch.max torch.max 实现降维运算&#xff0c;基于指定的 d…

图像处理之HSV颜色空间

目录 1 RGB 的局限性 2 HSV 颜色空间 3 RGB与HSV相互转换 4 HSV颜色模型对图像的色相、饱和度和明度进行调节 5 演示Demo 5.1 开发环境 5.2 功能介绍 5.3 下载地址 参考 1 RGB 的局限性 RGB 是我们接触最多的颜色空间&#xff0c;由三个通道表示一幅图像&#xff0c;分…

数据结构题目 课时9

题目 1、任何一个带权的无向连通图的最小生成树&#xff08; &#xff09;。 A. 只有一棵 B. 有一棵或多棵 C. 一定有多棵 D. 可能不存在 2、一个赋权网络如下图所示。从顶点 a 开始&#xff0c;用 Prim 算法求出一棵最小生成树。 3、请对下图的无向带权图按克鲁斯卡尔算法求…

Linux之详谈——权限管理

目录 小 峰 编 程 ​编辑 一、权限概述 1、什么是权限 2、为什么要设置权限 3、Linux中的权限类别- 4、Linux中文件所有者 1&#xff09;所有者分类&#xff08;谁&#xff09; 2&#xff09;所有者的表示方法 ① u(the user who owns it)&#xff08;属主权限&…

私有包上传maven私有仓库nexus-2.9.2

一、上传 二、获取相应文件 三、最后修改自己的pom文件

记录 | 基于Docker Desktop的MaxKB安装

目录 前言一、MaxKBStep 1Step2 二、运行MaxKB更新时间 前言 参考文章&#xff1a;如何利用智谱全模态免费模型&#xff0c;生成大家都喜欢的图、文、视并茂的文章&#xff01; MaxKB的Github下载地址 参考视频&#xff1a;【2025最新MaxKB教程】10分钟学会一键部署本地私人专属…

4.flask-SQLAlchemy,表Model定义、增删查改操作

介绍 SQLAlchemy是对数据库的一个抽象 开发者不用直接与SQL语句打交道 Python对象来操作数据库 SQLAlchemy是一个关系型数据库 安装 flask中SQLAlchemy的配置 from flask import Flask from demo.user_oper import userdef create_app():app Flask(__name__)# 使用sessi…