1、Spark SQL 概述

1、Spark SQL 概述

news/2024/12/25 22:12:57/文章来源:https://blog.csdn.net/weixin_43554580/article/details/132131602

1、Spark SQL 概述

Spark SQL概念

Spark SQL is Apache Spark’s module for working with structured data.
- 它是spark中用于处理结构化数据的一个模块

Spark SQL历史

Hive是目前大数据领域，事实上的数据仓库标准。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RYXFl2mo-1691307143907)(pics/s9.png)]

Shark：shark底层使用spark的基于内存的计算模型，从而让性能比Hive提升了数倍到上百倍。
底层很多东西还是依赖于Hive，修改了内存管理、物理计划、执行三个模块
2014年6月1日的时候，Spark宣布了不再开发Shark，全面转向Spark SQL的开发

Spark SQL优势

Write Less Code

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bM2bkjVy-1691307143908)(pics/s10.png)]

Performance

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-huLM3437-1691307143908)(pics/s11.png)]

python操作RDD，转换为可执行代码，运行在java虚拟机，涉及两个不同语言引擎之间的切换，进行进程间通信很耗费性能。

DataFrame

是RDD为基础的分布式数据集，类似于传统关系型数据库的二维表，dataframe记录了对应列的名称和类型
dataFrame引入schema和off-heap(使用操作系统层面上的内存)
- 1、解决了RDD的缺点
- 序列化和反序列化开销大
- 频繁的创建和销毁对象造成大量的GC
- 2、丢失了RDD的优点
- RDD编译时进行类型检查
- RDD具有面向对象编程的特性

用scala编写的RDD比Spark SQL编写转换的RDD慢，涉及到执行计划

CatalystOptimizer：Catalyst优化器
ProjectTungsten：钨丝计划，为了提高RDD的效率而制定的计划
Code gen：代码生成器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y819Vj8n-1691307143909)(pics/s12.png)]

直接编写RDD也可以自实现优化代码，但是远不及SparkSQL前面的优化操作后转换的RDD效率高，快1倍左右

优化引擎：类似mysql等关系型数据库基于成本的优化器

首先执行逻辑执行计划，然后转换为物理执行计划(选择成本最小的)，通过Code Generation最终生成为RDD

Language-independent API

用任何语言编写生成的RDD都一样，而使用spark-core编写的RDD，不同的语言生成不同的RDD

Schema

结构化数据，可以直接看出数据的详情

在RDD中无法看出，解释性不强，无法告诉引擎信息，没法详细优化。

**为什么要学习sparksql **

sparksql特性

1、易整合
2、统一的数据源访问
3、兼容hive
4、提供了标准的数据库连接（jdbc/odbc）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/78023.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

NOsql之MongoDB入门分享

NOsql之MongoDB入门分享

目录一、MongoDB简介 1、概念理解 2、yum安装部署 3、二进制安装部署 4、配置文件解析二、MongoDB基本管理 1、登录操作 2、管理命令 3、用户管理一、MongoDB简介 1、概念理解关系型数据库（RDBMS:Relational Database Management System) MySql、Ora…

阅读更多...

oop基础--成员方法传参机制(重要)

oop基础--成员方法传参机制(重要)

文章目录 1. 基本数据类型的传参机制2. 引用数据类型的传参机制 1. 基本数据类型的传参机制先让我们猜一下如下代码的输出结果~ public class MethodParameter01 {//编写一个 main 方法public static void main(String[] args) {int a 10;int b 20;//创建 A 对象名字 obj…

阅读更多...

计算机毕设深度学习疫情社交安全距离检测算法 - python opencv cnn

计算机毕设深度学习疫情社交安全距离检测算法 - python opencv cnn

文章目录 0 前言1 课题背景2 实现效果3 相关技术3.1 YOLOV43.2 基于 DeepSort 算法的行人跟踪 4 最后 0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两…

阅读更多...

oracle数据库创建用户并插入数据

oracle数据库创建用户并插入数据

Oracle第一话数据库权限设置序言具体的错误类型，我看大概是这样的一 Oracle比mysql复杂一点首先，创建一个表空间 -- 创建名为"TEST_DATA"表空间 CREATE TABLESPACE TEST_DATA NOLOGGING -- 数据存放的位置 DATAFILE D:\test_data…

阅读更多...

Qt项目---简单的计算器

Qt项目---简单的计算器

在这篇技术博客中，我们将介绍如何使用Qt框架实现一个简单的计算器应用。我们将使用C编程语言和Qt的图形用户界面库来开发这个应用，并展示如何实现基本的算术操作。项目设置首先，我们需要在Qt Creator中创建一个新的Qt Widgets应用程序项目…

阅读更多...

【二进制安全】堆漏洞：Double Free原理

【二进制安全】堆漏洞：Double Free原理

参考：https://www.anquanke.com/post/id/241598 次要参考：https://xz.aliyun.com/t/6342 malloc_chunk 的源码如下： struct malloc_chunk { INTERNAL_SIZE_T prev_size; /*前一个chunk的大小*/ INTERNAL_SIZE_T size; /*当前chunk的…

阅读更多...

TPlink DDNS 内网穿透？外网访问设置方法

TPlink DDNS 内网穿透？外网访问设置方法

有很多小伙伴都想知道：TPlink路由器怎么设置DDNS内网穿透？今天，小编就给大家分享一下TPlink DDNS 外网访问设置方法，下面是图文教程，帮助新手快速入门DDNS设置。本文介绍的是云路由器TP-LINK DDNS的设置方法。TP-LIN…

阅读更多...

Keil软件添加STC数据包方法

Keil软件添加STC数据包方法

添加数据包方法如下： （1）首先，打开STC-ISP烧录工具； （2）点击“Keil仿真设置”，然后点击“添加型号和头文件到Keil中，添加STC仿真器驱动到Keil中”。 （3&…

阅读更多...

60多行代码仿制B站首页一个好看的卡片效果

60多行代码仿制B站首页一个好看的卡片效果

文章目录 1、为啥是这个？2、仿制效果3、实现思路4、代码5、查看B站如何实现 1、为啥是这个？ 看到Bilibili首页的一个卡片，看着效果很不错，给人很舒适的感觉。一琢磨貌似也不难，甚至只需要一层 div 就可以实现主要框架…

阅读更多...

MacBook Pro 16 M1 Max 升级 macOS Ventura 13.5 兼容测评

MacBook Pro 16 M1 Max 升级 macOS Ventura 13.5 兼容测评

今天给大家带来了 MacBook Pro 16 M1 Max 升级 macOS Ventura 13.5 兼容 100 挑战赛的视频，现在充电头再以文章的形式呈现给大家，让大家更清楚、直白的了解这款笔记本在升级系统后的兼容性如何。 MacBook Pro 16 M1 Max 配置了 140W 的 MagSafe 充电口&…

阅读更多...

mybatisJava对象、list和json转换

mybatisJava对象、list和json转换

1. 参考mybatis-plus mybatis Java对象、list和json转换网上好多不靠谱，参考mybatis-plus中TableField，mybatis中自定义实现这样不需要对象中属性字符串接收，保存到表中，都是转义字符，使用时还要手动转换为对象或者…

阅读更多...

【Opencv入门到项目实战】（四）：图像梯度计算|Sobel算子|Scharr算子|Laplacian算子

【Opencv入门到项目实战】（四）：图像梯度计算|Sobel算子|Scharr算子|Laplacian算子

文章目录 0.引言1. Sobel算子2. Scharr算子3. Laplacian算子 0.引言在图像处理中，梯度是指图像中像素灰度变化的速率或幅度，我们先来看下面这张图假设我们想要计算出A点的梯度，我们可以发现A点位于边缘点，A点左边为黑色&#x…

阅读更多...

骨传导耳机真不伤耳吗？骨传导耳机有什么好处？

骨传导耳机真不伤耳吗？骨传导耳机有什么好处？

骨传导耳机真不伤耳吗？骨传导耳机有什么好处？ 我先来说说骨传导耳机的工作原理吧，骨传导是一种传声方式，声波通过颅骨、颌骨等头部骨头的振动，将声音传到内耳。其实骨传导的现象我们很常见，就像我们平时嗑瓜…

阅读更多...

Qt5.13引入QtWebApp的模块后报错： error C2440: “reinterpret_cast”: 无法从“int”转换为“quintptr”

Qt5.13引入QtWebApp的模块后报错： error C2440: “reinterpret_cast”: 无法从“int”转换为“quintptr”

1、开发环境 Win10-64 qt5.13 msvc2015-64bit-release 2、报错新建一个demo工程。引入QtWebApp的httpserver、logging、templateengine三个模块后。直接运行，，此时报错如下： E:\Qt5.13.1\install\5.13.1\msvc2015_64\include\QtCore…

阅读更多...

测试工程师的工作

测试工程师的工作

目录 1.何为软件测试工程师？ 2.软件测试工程师的职责？ 3.为什么要做软件测试？ 4.软件测试的前途如何？ 5.工具和思维谁更重要？ 6.测试和开发相差大吗？ 7.成为测试工程师的必备条件 8.测试的分类有哪…

阅读更多...

【chrome扩展开发】vue-i18n使用问题及解决方案

【chrome扩展开发】vue-i18n使用问题及解决方案

记录chrome扩展开发时调用vue-i18n的一些问题和解决方法环境 vue: ^3.3.4vue-i18n: ^9.2.2vite: ^4.4.8 错误1 Uncaught (in promise) EvalError: Refused to evaluate a string as JavaScript because unsafe-eval is not an allowed source of script in the following Con…

阅读更多...

阿里云平台注册及基础使用

阿里云平台注册及基础使用

首先进入阿里云官网： 阿里云-计算，为了无法计算的价值点击右上角“登录/注册”，如果没有阿里云账号则需要注册。注册界面： 注册完成后需要开通物联网平台公共实例： 注册成功后的登录： 同样点击右上角的…

阅读更多...

python与深度学习(十四):CNN和IKUN模型二

python与深度学习(十四):CNN和IKUN模型二

目录 1. 说明2. IKUN模型的CNN模型测试2.1 导入相关库2.2 加载模型2.3 设置保存图片的路径2.4 加载图片2.5 图片预处理2.6 对图片进行预测2.7 显示图片 3. 完整代码和显示结果4. 多张图片进行测试的完整代码以及结果 1. 说明本篇文章是对上篇文章IKUN模型训练的模型进行测试。…

阅读更多...

el-select控制单选还是多选

el-select控制单选还是多选

<el-form :inline"true" :model"form" class"demo-form-inline"><el-form-item><el-select v-model"form.properties_id" placeholder"请选择样品性质" clearable :multiple"multiple_properties"…

阅读更多...

Linux 系统编程开篇/ 文件的打开/创建

Linux 系统编程开篇/ 文件的打开/创建

从本节开始学习关于Linux系统编程的知识！ 学习Linux的系统编程有非常多的知识点，在应用层面，很重要的一点就是学习如何“用代码操作文件来实现文件创建，打开，编辑等自动化执行” 那如何自动化实现对文件的创建&#…

阅读更多...

最新文章

推荐文章