从 Icelake 到 Iceberg Rust

本文作者丁皓是Databend 研发工程师,也是 ASF Member, Apache OpenDAL PMC Chair ,主要研究领域包括存储、自动化与开源。

太长不看

Icelake 已经停止更新,请改用 iceberg-rust。 Iceberg-rust 是一个由社区驱动的项目,所有 Icelake 的贡献者都已转向该项目。它涵盖了 Icelake 之前提供的所有功能,并且是 Apache Iceberg 的官方实现版本。

引言

我将分享 icelake 和 iceberg-rust 背后的历史。这篇文章将记录一个开放社区是如何运作的:人们因共同的目标而团结,共同努力。这是开源最初的力量,也总是吸引我的地方。

Iceberg 是一种用于巨大分析表的高性能格式。它在全球范围内被广泛使用,并且几乎所有查询引擎都支持它。用户可以编写 SQL 来从存储在对象存储服务中的 Iceberg 表查询数据,无需首先将其导入数据库。 长期以来,Iceberg 缺少官方 Rust 实现,这就是我们故事开始的地方。

Icelake In Databend

我们在 Databend 内部已经讨论了很多次关于支持开放表格格式的话题,我对此非常感兴趣,尤其是 Iceberg。市面上有一些 Iceberg 的绑定存在,但都还未完全准备就绪。因此,我决定启动自己的项目叫做 Icelake。icelake 的主要理念是构建一个开放的湖仓实现方案,能够与任何表格格式兼容,包括 Iceberg、Hudi 和 Delta。

这个项目由Databend Labs赞助。我们最初将专注于支持Iceberg。

多亏了详尽的Iceberg表格规范,我用了大约一周的时间来实现Iceberg规范。在此过程中,我深入了解了表格格式是如何运作的。我已经成功地让Databend支持起了Iceberg表的读取操作!

Icelake With RisingWave

在ASF,我们常强调Community Over Code。创建了一个工作示范后,我的首要任务是找到另一位用户。幸运的是,我发现RisingWave也在开展Iceberg支持的工作。他们已经使用了Apache OpenDAL,因此我们与RisingWave有了一些联系。我直接联系他们,讨论了icelake,并邀请他们加入开发。 这就是我如何遇见Renjie的。我们俩都怀揣着用rust重写大数据生态系统的愿景。能够与他合作让我感觉非常棒。经过几次讨论后,Renjie 决定将icelake整合到RisingWave中。他和ZENOTME加入了icelake项目成为维护者,在那里他们修复了众多bug并增加了写入支持。随后,RisingWave实现了基于icelake的Iceberg sink功能。

Born of Iceberg Rust

在icelake的开发过程中,社区的一些人也认识到了为Iceberg提供原生Rust支持的必要性。Brian Olsen 发起了关于 Rust支持 的讨论。维护一个 Iceberg Rust实现的 Jan Kaul 加入讨论,并强调了icelake的存在。他还提到: It was a great timing to start a rust project in the official apache iceberg repository that we can all work on together. 随后,讨论转移到了 iceberg slack,更多的Iceberg PMC成员和提交者加入了进来。Jan Kaul邀请Renjie和我加入关于Iceberg的对话——非常感谢! 我们花了一些时间讨论仓库位置,并举行了一次在线会议。我们遇见了Jan Kual和Fokko。能够与有着相同目标的人建立联系真是太有意义了。尽管我们以前从未见过面,但共同的目标使我们能够有效地合作。这是开源社区美好的一面! 会议结束后不久,Fokko帮助我们建立了#rust Slack频道 和 iceberg-rust仓库。iceberg rust 项目正式启动,在我的生日(7月20日,考虑到时区变化)这一天。

Grow of Iceberg Rust

在建立了Iceberg Rust仓库之后,我们设定了贡献工作流程、CI操作和发布脚本,还添加了完整的规范实现和Arrow集成。 随着开发的进展,更多人加入了我们的团队,包括marvinlanhenke、sdd、viirya、odysa,以及其他30位!不到一年时间,我们吸引了43名贡献者,并进行了官方ASF发布。Renjie 被授予首位来自Iceberg Rust项目的Iceberg提交者荣誉。他还代表该项目出席了第一届Iceberg峰会:将Apache Iceberg带入Rust世界!

Sunset of Icelake

在撰写本文时,Iceberg Rust已覆盖icelake之前提供的所有功能,并现已成为Apache Iceberg的官方实现。一些主要使用icelake的用户已经或正在转向Iceberg Rust。

是时候逐步淘汰icelake项目,为Iceberg Rust让路了。我代表所有icelake提交者宣布,我们已正式结束了icelake项目。它将不再维护,所有当前用户现在应迁移到Iceberge Rust。 感谢所有参与和使用icelike的贡献者及用户;能够得到你们的支持是极大的荣幸。

Future of Iceberg Rust

目前,Iceberg Rust 社区正在开发 0.3 版本。这个版本将包括大部分用户需要用来读写 Iceberg 表的功能。我们鼓励所有对使用 Rust 操作 Iceberg 感兴趣的人尝试此版本,并为我们提供反馈。

在下一个版本中,我们将整合对 DataFusion 的原生支持,并增强与其他查询引擎连接 Iceberg 的体验,例如Databend。也许我们可以探索支持 iceberg-nodejs 或 iceberg wasm 的新领域。有许多有趣的领域等待我们去发现! 总结

就这些了。感谢大家帮助构建 iceberg-rust。我期待在这一领域做出更多贡献。如果你也感兴趣,请随时联系我;我很乐意提供帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/377386.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kotlin数据类型

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 Kotlin基本数值类型 基本数据类型包括 Byte、Short、Int、Long、Float、Double 整数类型 类型位宽最小值最大…

内存函数(C语言)

内存函数 以下函数的头文件:string.h 针对内存块进行处理的函数 memcpy 函数原型: void* memcpy(void* destination, const void* source, size_t num);目标空间地址 源空间地址num,被拷贝的字节个数 返回目标空间的起始地…

在 PostgreSQL 里如何实现数据的实时监控和性能瓶颈的快速定位?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会!📚领书:PostgreSQL 入门到精通.pdf 文章目录 在 PostgreSQL 里如何实现数据的实时监控和性能瓶颈的快速定位一、数据实时监控的重要性二、PostgreSQ…

【C语言初阶】探索编程基础:深入理解分支与循环语句的奥秘

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C语言 “ 登神长阶 ” 🤡往期回顾🤡:C语言入门 🌹🌹期待您的关注 🌹🌹 ❀分支与循环语句 📒1.…

聚类分析方法(三)

目录 五、聚类的质量评价(一)簇的数目估计(二)外部质量评价(三)内部质量评价 六、离群点挖掘(一)相关问题概述(二)基于距离的方法(三)…

element-plus 按需导入问题 404等问题

场景 新开一个项目,需要用element-plus这个ui库,使用按需引入。 这是我项目的一些版本号 "element-plus": "^2.7.6","vue": "^3.2.13","vue-router": "^4.0.3",过程(看解决方法…

Unity发布webgl之后修改StreamingAssets 内的配置文件读取到的还是之前的配置文件的解决方案

问题描述 unity发布webgl之后,修改在StreamingAssets 中的配置信息,修改之后读取的还是之前的配置信息 读取配置文件的代码IEnumerator IE_WebGL_LoadWebSocketServerCopnfig(){var uri new System.Uri(Path.Combine(Application.streamingAssetsPath…

种田游戏扎堆,但玩家还有钱建设家园吗?

2024年暑期档,模拟经营游戏成为细分领域变化最为显著的一环。 6月26日泡泡玛特的《梦想家园》、7月10日《波西亚时光》手游版上线、还有心动跳跃整整研发了10年的《心动小镇》也将于7月17日上线。 事实上,从数量上看,模拟经营游戏并非小众品…

springboot 程序运行一段时间后收不到redis订阅的消息

springboot 程序运行一段时间后收不到redis订阅的消息 问题描述 程序启动后redis.user.two主题正常是可以收到消息的,发一条收一条,但是隔一段时间后;就收不到消息了; 此时如果你手动调用发送另外一个消息订阅redis.user.two2&…

代码随想录第50天|单调栈

739. 每日温度 参考 思路1: 暴力解法 思路2: 单调栈 使用场合: 寻找任一个元素的右边或者左边第一个比自己大或者小的元素位置, 存放的是遍历过的元素 记忆: 单调栈是对遍历过的元素做记录, 一般是对栈顶的元素 nums[mystack.top()] 做赋值操作的 如果想找到右边的元素大于左…

电脑文件误删除如何恢复?Top12电脑数据恢复软件汇总合集!(图文详解)

电脑文件误删除如何恢复?在日常使用电脑过程中,我们经常会遇到意外删除文件的情况。可能是因为按错了按键、误操作了鼠标,或者意外格式化了存储设备。这些情况都可能导致重要的文件不小心被删除。但是不用担心,有许多专业的数据恢…

Jeecgboot vue3的选择部门组件JSelectDept如何实现只查询本级以及子级的部门

jeecgboot vue3的文档:地址 JSelectDept组件实现了弹窗然后选择部门返回的功能,但部门是所有数据,不符合需求,所以在原有代码上稍微改动了一下 组件属性值如下: 当serverTreeDatafalse的时候,从后端查询…

【Git的基本操作】版本回退 | 撤销修改的三种情况 | 删除文件

目录 5.版本回退 5.1选项hard&后悔药 5.2后悔药&commit id 5.3版本回退的原理 6.撤销修改 6.1情况一 6.2情况二 6.3情况三 ​7.删除文件 Git重要能力之一马,版本回退功能。Git是版本控制系统,能够管理文件历史版本。本篇以ReadMe文件为…

Web前端开发

1. 介绍 本文将覆盖Web前端开发的方方面面,包括HTML、CSS、JavaScript三大基础知识,vue3框架以及项目实战,帮助读者从零开始掌握前端开发。 2. Web前端开发基础 2.1 HTML5 2.1.1 什么是HTML5 HTML(HyperText Markup Language…

Paddle 打包部署

PaddleOCR 打包部署exe 心酸历程 PaddleOCR部署exe模式PaddleOCR安装到本地(稍后有时间再写)PaddleOCR打包过程异常问题记录!!!!No such file or directory: D:\\py_project\\paddleOCR\\dist\\paddleOCR\\_internal\\paddleocr\\…

Spring中的适配器模式和策略模式

1. 适配器模式的应用 1.1适配器模式(Adapter Pattern)的原始定义是:将一个类的接口转换为客户期望的另一个接口,适配器可以让不兼容的两个类一起协同工作。 1.2 AOP中的适配器模式 在Spring的AOP中,使用Advice&#…

使用Elasticsearch Python SDK 查询Easysearch

随着数据分析需求的不断增长,能够高效地查询和分析大数据集变得越来越重要。Elasticsearch作为一种强大的分布式搜索和分析引擎,被广泛应用于各种场景。Easyearch 支持原生 Elasticsearch 的 DSL 查询语法,确保原业务代码无需调整即可无缝迁移…

记录些MySQL题集(1)

Innodb 是如何实现事务的? InnoDB是MySQL数据库的一个存储引擎,它支持事务处理。事务处理是数据库管理系统执行过程中的一个逻辑单位,由一个或多个SQL语句组成,这些语句要么全部执行,要么全部不执行,是一个…

idea修改全局配置、idea中用aliyun的脚手架,解决配置文件中文乱码

idea修改全局配置 idea中用aliyun的脚手架,创建springBoot项目 解决配置文件中文乱码

C判断一个点在三角形上

背景 鼠标操作时,经常要判断是否命中显示控件,特开发此算法快速判断。 原理 三角形三等分点定理是指在任意三角形ABC中,可以找到三个点D、E和F,使得线段AD、BE和CF均等分三角形ABC。 这意味着三个等分点分别位于三个边界上&…