SparkSQL介绍及使用

SparkSQL介绍及使用

news/2024/12/26 12:45:45/文章来源:https://blog.csdn.net/m0_70882914/article/details/142903234

文章目录

1. SparkSQL介绍及使用
- 1.1 SparkSQL介绍
- 1.2 数据结构的形式
- 1.3 Spark SQL 特点
- 1.4 Spark SQL 和 Hive SQL关系

1. SparkSQL介绍及使用

在这里插入图片描述

1.1 SparkSQL介绍

Spark SQL是Apache Spark 用于处理结构化数据（DataFrame和Datasets）的模块。
在Spark1.0版本时引入了Spark SQL。
在这里插入图片描述

1.2 数据结构的形式

结构化数据
- 表，DataFrame，Datasets
- 构成
  - 元数据描述数据的数据（描述信息，类型约束）
  - 数据本身

身高
179
173
170
163

半结构化数据
- json，xml，有数据的描述信息，但是对数据内容的类型无法约束。

{"name":"lxyxp"
}

非结构化数据
- 文本文件
- 图片文件
- 视频文件
- 音频文件
  总结：
Spark SQL 可以将非结构化，半结构化数据统一转化为结构化数据处理。
Spark中使用的结构化数据有DataFrame，映射表（离线数仓开发使用）。

1.3 Spark SQL 特点

易整合
- 使用sql配合Spark一起使用，封装了不同语言的DSL方法。
统一数据访问
- 使用read方法可以读取HDFS数据，MySQL数据，不同类型的文件数据（json、csv、orc）
- 使用write方法可以写入HDFS、MySQL不同类型的文件
兼容hive
- 使用Hive SQL方法
标准的数据连接
- 使用JDBC和ODBC连接方式连接Spark SQL

1.4 Spark SQL 和 Hive SQL关系

shark
- 运行的模式是Hive on Spark
- 会将Hive SQL 转换为Spark的RDD
- shark是基于Hive开发的，维护麻烦，2015年停止维护。
Spark SQL
- 是Spark团队独立开发的工具，2014年发布1.0版本。
- Spark SQL工具对Spark的兼容性更好，优化性能得到提升。
- Spark SQL本质也是将SQL语句转化为RDD执行，catalyst引擎负责将sql转化为rdd。
- sparkSQL可以连接使用hive的metastore服务，管理表的元数据。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/446996.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【C++】map和set使用

【C++】map和set使用

前言有了前面搜索二叉树的基础，那么这篇博客对于map和set两个容器就很好理解使用，让我们来看看map和set到底有什么特性吧 💓 个人主页：小张同学zkf ⏩ 文章专栏：C 若有问题评论区见📝 🎉欢迎…

阅读更多...

图文深入理解java对象从创建到回收都经历了什么

图文深入理解java对象从创建到回收都经历了什么

1. 前言： 每个java对象都是有生命周期的，就像一个人的生命一样，从孕育到出生到成长变老最后由归于自然。笔者认为，Java对象的整个生命周期可以分为两个大的阶段：即创建阶段和运行阶段（包含对象的回收和消亡…

阅读更多...

LSTM时序预测 | Python实现LSTM长短期记忆神经网络时间序列预测

LSTM时序预测 | Python实现LSTM长短期记忆神经网络时间序列预测

本文内容：Python实现LSTM长短期记忆神经网络时间序列预测，使用的数据集为AirPassengers 目录数据集简介 1.步骤一 2.步骤二 3.步骤三 4.步骤四数据集简介 AirPassengers 数据集的来源可以追溯到经典的统计和时间序列分析文献。原始数据集由 Box,…

阅读更多...

一个好的维权小程序应该是什么样的？

一个好的维权小程序应该是什么样的？

小程序如今为大家提供了很多的便利服务，且小程序的种类、功能是很多样的，那么对于一个好的维权小程序来说，其功能和设计应该紧紧围绕着用户的需求。设计页面应该直观简单，功能布局让人一目了然；操作简单，…

阅读更多...

外包干了30天，技术明显退步：一段自我觉醒与转变的旅程

外包干了30天，技术明显退步：一段自我觉醒与转变的旅程

在人生的长河中，每个人都会遇到属于自己的转折点。我也不例外。作为一个本科生，我于2019年通过校招踏入了南京某软件公司的大门，成为了一名功能测试工程师。在那个相对安逸的环境中，我度过了将近两年的时光。然而，随着…

阅读更多...

当下的时代？

当下的时代？

我这两天刚接触一个人,错误之皇,每做一件小事的时候他都像救命稻草一样抓着,有一天我一看,嚯,好家伙,他抱着的是已经让我仰望的参天大树了! 这个时代需要我们从无限思维的视角和做法去努力；它不取决于我们现在有多少，而取决于我们未来的成长幅度是多少&a…

阅读更多...

Dev-C++萌新学习福利3

Dev-C++萌新学习福利3

朝鲜球作品原创https://blog.csdn.net/2401_86502594?spm1011.2124.3001.5343 清北互联地址https://www.17ac.cn/#/ 萌新福利作品成本6999元！！！ 清北互联团队编写课程，本人不收费。亏本买卖，良心服务，同嫂…

阅读更多...

IP地址类型选择指南：动态IP、静态IP还是数据中心IP？

IP地址类型选择指南：动态IP、静态IP还是数据中心IP？

你是否曾经困惑于如何选择最适合业务需求的IP地址类型？面对动态IP、静态IP和数据中心IP这三种选择，你是否了解它们各自对你的跨境在线业务可能产生的深远影响？ 在跨境电商领域，选择合适的IP类型对于业务的成功至关重要。动态IP、…

阅读更多...

技术分享 —— JMeter接口与性能测试实战！

技术分享 —— JMeter接口与性能测试实战！

前言在软件开发和运维过程中，接口性能测试是一项至关重要的工作。JMeter作为一款开源的Java应用，被广泛用于进行各种性能测试，包括接口性能测试。本文将详细介绍如何使用JMeter进行接口性能测试的过程和步骤。 JMeter是Apache组织开发的基…

阅读更多...

JavaSE--全盘拿下数组的关键要领

JavaSE--全盘拿下数组的关键要领

嗨嗨大家~我来啦！今天我们来进入数组的学习吧。目录一数组的定义 1 创建数组 2 初始化数组二数组的使用 1 数组的访问 2 数组的遍历 2.1 for 循环打印 2.2 for-each 打印数组三数组是引用类型 3.1 JVM内存分布 3.2 区分基本类型与引用类型变…

阅读更多...

Taro 中 echarts 图表使用

Taro 中 echarts 图表使用

1 下载 echarts4taro3 yarn add echarts4taro3 或 pnpm add echarts4taro3 或 npm i echarts4taro3 --save2 图表初始化需要先加载echarts模块 import * as echarts from "echarts4taro3/lib/assets/echarts"; // 这里用了内置的，也可以用自定义的 echa…

阅读更多...

TCP与UDP协议（三次握手四次挥手）

TCP与UDP协议（三次握手四次挥手）

TCP与UDP 简介TCP和UDP一、TCP1.1 TCP的三次握手问题来了：为啥是三次握手而不是两次呢？ 1.2建立连接后的通信过程（丢包与乱序问题）1.3四次挥手问题来了：为什么要四次挥手？ 二、UDP 简介TCP和UDP TCP、UDP都…

阅读更多...

SQL第16课——更新和删除数据

SQL第16课——更新和删除数据

介绍如何利用update和delete语句进一步操作表数据。 16.1 更新数据使用update语句。两种使用方式： 1. 更新表中的特定行； 2. 更新表中的所有行。 ！！！（使用update时不要省略where子句，因为…

阅读更多...

链接伪类(:hover)CSS背景图片有闪动BUG的解决方法 vue3

链接伪类(:hover)CSS背景图片有闪动BUG的解决方法 vue3

现象： hover时候，图片还没加载出来，导致边框闪烁在Vue 3中，如果你遇到了使用伪类(:hover)时背景图片出现闪烁的问题，可能是由于浏览器的渲染机制导致的。解决这个问题的方法可能包括： 使用background-pos…

阅读更多...

spark:数据的关联与合并、缓存和checkpoint

spark:数据的关联与合并、缓存和checkpoint

文章目录 1. 数据的关联与合并1.1 join关联1.1.1 内关联1.1.2 左关联1.1.3 右关联 1.2 Union合并 2. 缓存和checkpoint 1. 数据的关联与合并 1.1 join关联 students表数据： 1.1.1 内关联内关联只返回两个 DataFrame 中在连接键上匹配的行。 # join 关联 from…

阅读更多...

【Linux】【Jenkins】后端项目打包教程-Linux版

【Linux】【Jenkins】后端项目打包教程-Linux版

本次安装版本：2.4 1、安装git环境2、安装mavne环境2.1 下载依赖2.2、解压、赋权2.2、配置环境变量2.3、验证安装 3、jenkins-插件下载3.1、进入jenkins-->系统管理3.2、进入系统管理-->插件管理3.3、下载两个插件（如果之前下载了，这里是…

阅读更多...

Docker 的使用-01

Docker 的使用-01

一、Docker 设置和镜像源 1.1、设置 #查看 Docker 信息 docker version docker info#守护线程启动： systemctl daemon-reload 重启Docker服务： systemctl restart docker#关闭Docker服务 sudo systemctl stop docker#启动Docker服务 systemctl start d…

阅读更多...

【安装JDK和Android SDK】

【安装JDK和Android SDK】

安装JDK和Android SDK 1 前言2 下载2.1 下载途径2.2 JDK下载和安装2.2.1 下载2.2.2 安装并配置环境变量2.2.3 验证 2.3 SDK下载和安装2.3.1 下载2.3.2 安装2.3.3 环境变量配置2.3.4 验证 1 前言在软件开发中，Android应用开发通常使用Android Studio，但…

阅读更多...

低成本轻量化5G网络部署redcap技术

低成本轻量化5G网络部署redcap技术

RedCap（Reduced Capability）轻量化5G路由器旨在提供低功耗、成本效益高、性能较5G完整版稍微降低的解决方案。用于满足工业物联网（IoT）、消费电子产品和轻量级5G设备的需求。通过对5G技术进行一定程度的“功能裁剪”，降…

阅读更多...

【华为】配置RIP协议

【华为】配置RIP协议

RIP（Routing Information Protocol）是一种内部网关协议（IGP），主要用于小型网络中的动态路由。RIP有两个主要版本：‌RIPv1和‌RIPv2，它们之间存在一些关键区别： ‌分类支持‌&#xf…

阅读更多...

最新文章

推荐文章