Iceberg概念和特性

Iceberg概念和特性

news/2024/12/24 22:11:18/文章来源:https://blog.csdn.net/weixin_38643743/article/details/140420176

1. 快照

Iceberg会随着时间的推进，跟踪表生命周期中的所有数据集变化，并使用快照（Snapshots）来表示每一次变化后的数据集合，每一次数据操作的事务提交均会产生一个快照，并将其记录在元数据文件(Metadata)中。
在这里插入图片描述

基于快照的概念，Iceberg有以下特性：

事务性：写入快照成功可读，读写分离；
时间旅行：可指定Snapshot Id读取任意保留快照时刻的数据集，默认读取最新的快照：
- 利用Spark SQL Hint实现时间旅行读取id = 1234512512541快照的数据集（时间旅行语法后续可能变动，仅作参考）

SELECT * FROM iceberg_zjyprc_hadoop.iceberg.sample_table /*+options('snapshot-id'='1234512512541')*/;

快照回滚：可指定Snapshot Id回滚到任意保留快照时刻的数据集，回滚后新快照基于回滚快照继续提交：
将表回滚到id = 123456789的快照数据集

CALL iceberg_zjyprc_hadoop.system.rollback_to_snapshot('iceberg.sample_table', 123456789)；

2. 表版本

Iceberg目前支持两种版本的表：

Format V1：不可变文件格式（Parquet、ORC、Avro）的大型分析表。V1表可以平替Hive表，支持以下写入操作：
- 常规Append、Overwrite操作；
- 还支持Copy On Write模式（下文介绍具体含义）的Delete、Update、Merge Into行级更新能力。
Format V2：V2表在V1表的能力的基础上，引入了Equality delete files和Position delete files两种删除变更文件，增加了Merge On Read模式（同下文介绍）下基于主键通过Delete、Update、Merge Into进行行级更新的能力。

3. 行级更新模式

Copy On Write（写时复制）
在Copy On Write模式下，Iceberg会首先读取原始目标数据文件，将其中需要变更的数据删除或更新后，产生新的数据文件，并提交到新的快照用于替换原先的数据文件。

优点：
- 写入时不会产生变更删除文件；
- 在读取时不需要进行读取合并。
缺点：
- 频繁地、大量地更新和删除，在读取完历史数据后，可能追加较多新数据，对写入操作产生较大的压力；
- 对下游流式消费造成较大数据波动。
Spark Copy On Write模式下Merge Into示例：<

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/376791.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

TS真的比JS更好吗？

TS真的比JS更好吗？

前言在讨论TypeScript（TS）是否比JavaScript（JS）更好时，我们需要明确“更好”这一概念的上下文和衡量标准。TypeScript和JavaScript在多个方面有着明显的区别，但它们并不是简单的“好”与“不好”的关系&a…

阅读更多...

java实战项目-学生管理系统（附带全套源代码）--《基础篇》

java实战项目-学生管理系统（附带全套源代码）--《基础篇》

一、前言第一个java小型学生管理系统，思路和其他语言都一样，因为有C语言的基础，写这个并不是太难，不过，进阶篇的就难太多了。明天晚上更新进阶篇，因为目前代码还没有完善，保守估计需要500行代…

阅读更多...

javaweb学习day5--《HTML篇》Springboot的模块创建、HTML的相关知识点详解

javaweb学习day5--《HTML篇》Springboot的模块创建、HTML的相关知识点详解

一、前言从今天开始，就要启动后端的学习了，Springboot会贯穿到底，一定要跟着小编严谨的去搭建Springboot环境，依赖添加的过程可能需要2分钟左右，读者们要耐心等待一下，搭建好Springboot之后才算正式的开始…

阅读更多...

【JavaWeb程序设计】Servlet（二）

【JavaWeb程序设计】Servlet（二）

目录一、改进上一篇博客Servlet（一）的第一题 1. 运行截图 2. 建表 3. 实体类 4. JSP页面 4.1 login.jsp 4.2 loginSuccess.jsp 4.3 loginFail.jsp 5. mybatis-config.xml 6. 工具类：创建SqlSessionFactory实例，进行 My…

阅读更多...

fortran简单排序算法，对一维、二维矩阵进行正序或倒序排序

fortran简单排序算法，对一维、二维矩阵进行正序或倒序排序

fortran简单排序算法，对一维、二维矩阵进行正序或倒序排序 0. 引言1. 算法实现1.1 一维数组排序1.2 二维数组排序1.2 module文件 2. 结语 0. 引言排序算法是计算机科学中的一项重要技术，它将一组数据按照特定的顺序排列起来。排序算法有很多种&#xff…

阅读更多...

Three.js相机简明教程

Three.js相机简明教程

相机校准是 3D 计算机图形学中的一个基本概念，涉及设置虚拟相机以模拟真实世界相机的视角和行为。在 Three.js（一种流行的 3D 渲染 JavaScript 库）中，了解相机校准对于创建逼真且身临其境的 3D 场景至关重要。在本文中&#xff0c…

阅读更多...

2、ASPX、.NAT（环境/框架）安全

2、ASPX、.NAT（环境/框架）安全

ASPX、.NAT（环境/框架）安全源自小迪安全b站公开课 1、搭建组合： WindowsIISaspxsqlserver .NAT基于windows C开发的框架/环境对抗Java xx.dll <> xx.jar 关键源码封装在dll文件内。 2、.NAT配置调试-信息泄露功能点&#xf…

阅读更多...

《Linux系统编程篇》Visual Studio Code配置下载，中文配置，连接远程ssh ——基础篇

《Linux系统编程篇》Visual Studio Code配置下载，中文配置，连接远程ssh ——基础篇

引言 vscode绝对值得推荐，非常好用，如果你能体会其中的奥妙的话。工欲善其事，必先利其器 ——孔子文章目录引言下载VS Code配置VS Code中文扩展连接服务器连接服务器测试确定服务器的IP地址VS code 配置ssh信息选择连接到主机选择这个添…

阅读更多...

【D3.js in Action 3 精译】1.3 D3 视角下的数据可视化最佳实践（下）

【D3.js in Action 3 精译】1.3 D3 视角下的数据可视化最佳实践（下）

当前内容所在位置第一部分 D3.js 基础知识第一章 D3.js 简介 ✔️ 1.1 何为 D3.js？1.2 D3 生态系统——入门须知 1.2.1 HTML 与 DOM1.2.2 SVG - 可缩放矢量图形1.2.3 Canvas 与 WebGL1.2.4 CSS1.2.5 JavaScript1.2.6 Node 与 JavaScript 框架1.2.7 Observable 记事…

阅读更多...

go-高效处理应用程序数据

go-高效处理应用程序数据

一、背景大型的应用程序为了后期的排障、运营等，会将一些请求、日志、性能指标等数据保存到存储系统中。为了满足这些需求，我们需要进行数据采集，将数据高效的传输到存储系统二、问题采集服务仅仅针对某个需求开发，需要修改…

阅读更多...

Profibus协议转Profinet协议网关模块连接智能电表通讯案例

Profibus协议转Profinet协议网关模块连接智能电表通讯案例

一、背景在工业自动化领域，Profibus协议和Profinet协议是两种常见的工业通讯协议，而连接智能电表需要用到这两种协议之间的网关模块。本文将通过一个实际案例，详细介绍如何使用Profibus转Profinet模块（XD-PNPBM20）实…

阅读更多...

Kubernetes 为pod指定DNS

Kubernetes 为pod指定DNS

在k8s里面，默认创建pod会给pod默认分配一个默认的dns，这个dns是哪来的呢？可不可以改成其他的dns呢？ 先进入到pod里面来，可以看到这里面默认设置的DNS服务器，这个服务器地址为10.96.0.10。这个地址是k8s自动…

阅读更多...

[web]-图片上传、文件包含-图片上传

[web]-图片上传、文件包含-图片上传

题目内容提示：上传图片试试吧，注意统一时区问题打开页面如图，源码没有过滤，随便输入，进入上传目录根据链接可以看到是文件包含，可以利用编码读取源码，这里只列出有用页面的编码（?…

阅读更多...

一文入门【NestJs】Providers

一文入门【NestJs】Providers

Nest学习系列 ✈️一文入门【NestJS】 ✈️一文入门【NestJs】Controllers 控制器 🚩 前言在NestJS的世界里，理解“Providers”是构建健壮、可维护的后端服务的关键。NestJS，作为Node.js的一个现代框架，采用了Angular的一些核…

阅读更多...

科普文：微服务技术栈梳理

科普文：微服务技术栈梳理

概叙如上两图所示，微服务架构下，需要的组件很多，上面中也并未列全。下面将梳理一下国内微服务架构下，用到的技术栈，仅供参考。科普文：12种常见的软件架构-CSDN博客没有最好的架构，只有最适…

阅读更多...

基于springboot+vue+uniapp的机电公司管理信息系统

基于springboot+vue+uniapp的机电公司管理信息系统

开发语言：Java框架：springbootuniappJDK版本：JDK1.8服务器：tomcat7数据库：mysql 5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包&#…

阅读更多...

【C++】 List 基本使用

【C++】 List 基本使用

C List 基本使用基本概念 list 是一个序列容器，它内部维护了一个双向链表结构。与 vector 或 deque 等基于数组的容器不同，list 在插入和删除元素时不需要移动大量数据，因此在这些操作上具有较高的效率。然而，访问列表中的特定…

阅读更多...

MAC通过SSH连接VirtualBox中的虚拟机

MAC通过SSH连接VirtualBox中的虚拟机

1、虚拟机网络连接方式使用桥接方式-桥接网卡 2、重启虚拟机，查看虚拟机ip地址是否跟Mac宿主机在同一网段 3、SSH工具（推荐Tabby）输入IP、用户名和密码就能连接虚拟机了

阅读更多...

通过Bugly上报的日志查找崩溃闪退原因

通过Bugly上报的日志查找崩溃闪退原因

第一步，解析堆栈信息在bugly上收集到的信息是这样的 0x000000010542e46c 0x0000000104db4000 6792300 OS应用发生崩溃时，系统会生成一份崩溃日志，这份日志中包含了崩溃时的堆栈信息，但这些堆栈信息并非直接指向源代码&#x…

阅读更多...

[ACM独立出版]2024年虚拟现实、图像和信号处理国际学术会议（ICVISP 2024）

最新消息ICVISP 2024-已通过ACM出版申请投稿免费参会，口头汇报或海报展示(可获得相应证明证书) ————————————————————————————————————————— [ACM独立出版]2024年虚拟现实、图像和信号处理国际学术会议（ICVI…

阅读更多...

最新文章

推荐文章