StreamingWarehouse的一些思考和未来趋势

StreamingWarehouse的一些思考和未来趋势

news/2024/11/15 22:24:49/文章来源:https://blog.csdn.net/u013411339/article/details/132419194

300万字！全网最全大数据学习面试社区等你来！

一篇笔记。

以Hudi、Iceberg、Paimon这几个框架为例，它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性，主要有几个方面：

这些存储引擎是天然统一的批流一体存储。既支持批式访问完整Table数据，也支持先全量处理Table数据，然后对Changelog进行增量的流式处理;
支持UPSERT流，这个很重要;文件组织形式也更高效(LSM);
支持TimeTravel,理论上可以从任意时间点就行批或者流处理;
还有一些其他的离线数仓的操作

如果我们基于湖框架构建出了新的数仓体系Streaming Warehouse，这样我们所有的开发都会面向Table，纯SQL操作。

这样的架构解决了核心问题：

如果性能足够，可以达到媲美实时链路的延迟;
天然的批流一体，口径一致，计算语义天然对齐，保证数据一致性;
中间结果落地可查，这是相比当前非常火的实时数仓的极大的优势；
很方便的进行历史数据修复；
开发、存储成本低

这也是很多文章中提到的：实现批流一体计算和存储，同时支持流、批以及OLAP处理，实现了以 "Table"的形式进行数据处理。

目前可以替代的一些场景：例如可以接受端到端延迟在分钟级别，数据逻辑复杂希望离线、实时强一致，传统的以数据库为核心通过创建物化视图、存储过程等在线Serving场景等。

但是我们必须得说，上面都是未来的理想设想，当前阶段很多问题没有解决，例如端到端延迟相比纯实时场景要大很多，取决于CheckPoint的时间间隔等。

不过随着这些框架的不断迭代和发展，未来可能会不一样。

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/101622.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

docker 部署服务

docker 部署服务

1、使用mysql:5.6和 owncloud 镜像，构建一个个人网盘。 [rootbogon ~]# docker pull mysql:5.6 [rootbogon ~]# docker pull owncloud [rootbogon ~]# docker run -itd --name mysql --env MYSQL_ROOT_PASSWORD123456 mysql:5.6 [rootbogon ~]# docker run -itd -…

阅读更多...

一文速学-LightGBM模型算法原理以及实现+Python项目实战

一文速学-LightGBM模型算法原理以及实现+Python项目实战

LighGBM 前言 LighGBM作为GBDT算法的衍生模型，在其他论文研究以及数学建模比赛中十分常见。如果不熟悉GBDT算法的可以去看看我的上一篇文章，过多关于GBDT的细节不再过多描述。主要将讲述一下LighGBM较于GBDT算法的改进以及独特算法细节优化&#xff0c…

阅读更多...

批量爬虫采集完成任务

批量爬虫采集完成任务

批量爬虫采集是现代数据获取的重要手段，然而如何高效完成这项任务却是让许多程序员头疼的问题。本文将分享一些实际操作价值高的方法，帮助你提高批量爬虫采集的效率和专业度。目标明确，任务合理划分： 在开始批量爬虫采集前&…

阅读更多...

Python爬虫(十四)_BeautifulSoup4 解析器

Python爬虫(十四)_BeautifulSoup4 解析器

CSS选择器：BeautifulSoup4 和lxml一样，Beautiful Soup也是一个HTML/XML的解析器，主要的功能也是如何解析和提取HTML/XML数据。 lxml只会局部遍历，而Beautiful Soup是基于HTML DOM的，会载入整个文档，解析整…

阅读更多...

详细介绍如何基于ESP32实现气象站数据显示--附源码

详细介绍如何基于ESP32实现气象站数据显示--附源码

功能介绍： 驱动ili9341 从京东获取天气数据开始使用拿到钥匙 1.从京东注册账号 2.从网站获取密钥安装ESP32 SDK ESP-IDF Programming Guide - ESP32 - — ESP-IDF Programming Guide latest documentation 笔记： 该项目兼容 ESP-IDF 3.X 分支和 4…

阅读更多...

【Linux驱动】NVIDIA Jetson Orin NX有时开机启动慢（5~10分钟）

【Linux驱动】NVIDIA Jetson Orin NX有时开机启动慢（5~10分钟）

1、问题描述新到手的 Orin NX 有时开机启动慢，多次测试，总结出规律：在连接网线的情况，启动很慢（5~10分钟）；不连接网线的情况下是正常启动速度。 2、原因分析在连接网线的情况下启动，卡在如下界面很长时间：可见打印信息： Start HTTP Boot over IPv6. Error: Co…

阅读更多...

『论文精读』FastViT(ICCV 2023，Apple开源)论文解读

『论文精读』FastViT(ICCV 2023，Apple开源)论文解读

『论文精读』FastViT(ICCV 2023，Apple开源)论文解读文章目录一. FastViT简介二. 模型架构2.1. Stage 的内部架构2.2. Stem 的结构2.3. Patch Embedding 的架构2.4. 位置编码三. 参考文献论文下载链接：https://arxiv.org/pdf/2303.14189.pdf论文代码…

阅读更多...

BLFS学习系列第25章. 图形环境库 —— libdrm

BLFS学习系列第25章. 图形环境库 —— libdrm

一、简介 libdrm提供了一个用户空间库，用于在支持ioctl接口的操作系统上访问直接渲染管理器（DRM）。libdrm是一个低级别库，通常由图形驱动（程序）使用，如Mesa DRI驱动（程序&#xff0…

阅读更多...

基于java+swing俄罗斯方块

基于java+swing俄罗斯方块

基于javaswing俄罗斯方块一、系统介绍二、功能展示三、其他系统实现五、获取源码一、系统介绍项目类型：Java SE项目（awtswing）非开源项目名称：俄罗斯方块（Tertis) 主要技术：java、awt、swing等技术 …

阅读更多...

【玩转Linux操作】crond的基本操作

【玩转Linux操作】crond的基本操作

🎊专栏【玩转Linux操作】 🍔喜欢的诗句：更喜岷山千里雪三军过后尽开颜。 🎆音乐分享【Counting Stars 】欢迎并且感谢大家指出小吉的问题🥰 文章目录 🍔概述🍔命令⭐常用选项 🍔练…

阅读更多...

图解算法--排序算法

图解算法--排序算法

目录 1.冒泡排序算法 2.选择排序算法 3.插入排序算法 4.希尔排序算法 5.归并排序算法 6.快速排序算法 1.冒泡排序算法原理讲解： 从待排序的数组中的第一个元素开始，依次比较当前元素和它相邻的下一个元素的大小。如果当前元素大于相邻元素&#x…

阅读更多...

剪枝基础与实战(1): 概述

剪枝基础与实战(1): 概述

本文介绍基于L1正则化的剪枝原理，并以VGG网络进行实战说明。将从零详细介绍模型训练、稀疏化、剪枝、finetune的全过程，提供详细的源码及说明，有助于对剪枝的熟练掌握，后续也会对yolov8进行剪枝的介绍。论文: Learning Efficient Convolutional Networks through Network …

阅读更多...

SpringBoot项目（支付宝整合）——springboot整合支付宝沙箱支付从极简实现到IOC改进

SpringBoot项目（支付宝整合）——springboot整合支付宝沙箱支付从极简实现到IOC改进

目录引出git代码仓库准备工作支付宝沙箱api内网穿透 [natapp.cn](https://natapp.cn/#download) springboot整合—极简实现版1.导包配置文件2.controller层代码3.进行支付流程4.支付成功回调依赖注入的改进1.整体结构2.pom.xml文件依赖3.配置文件4.配置类，依赖注入…

阅读更多...

渗透测试方法论

渗透测试方法论

文章目录渗透测试方法论1. 渗透测试种类黑盒测试白盒测试脆弱性评估 2. 安全测试方法论2.1 OWASP TOP 102.3 CWE2.4 CVE 3. 渗透测试流程3.1 通用渗透测试框架3.1.1 范围界定3.1.2 信息搜集3.1.3 目标识别3.1.4 服务枚举3.1.5 漏洞映射3.1.6 社会工程学3.1.7 漏洞利用3.1.8 权…

阅读更多...

根据源码，模拟实现 RabbitMQ - 虚拟主机 + Consume设计 (7)

根据源码，模拟实现 RabbitMQ - 虚拟主机 + Consume设计 (7)

目录一、虚拟主机 Consume设计 1.1、承接问题 1.2、具体实现 1.2.1、消费者订阅消息实现思路 1.2.2、消费者描述自己执行任务方式实现思路 1.2.3、消息推送给消费者实现思路 1.2.4、消息确认一、虚拟主机 Consume设计 1.1、承接问题前面已经实现了虚拟主机大部分功…

阅读更多...

【linux】2 Linux编译器-gcc/g++和Linux调试器-gdb

【linux】2 Linux编译器-gcc/g++和Linux调试器-gdb

文章目录一、Linux编译器-gcc/g使用1.1 背景知识1.2 gcc如何完成1.3 函数库1.4 gcc选项二、linux调试器-gdb使用2.1 背景2.2 开始使用总结ヾ(๑╹◡╹)ﾉ" 人总要为过去的懒惰而付出代价ヾ(๑╹◡╹)ﾉ" 一、Linux编译器-gcc/g使用 1.1 背景…

阅读更多...

JS加密的域名锁定功能，JShaman支持泛域名

JS加密的域名锁定功能，JShaman支持泛域名

JShaman的域名锁定功能，支持泛域名 JShaman的JS代码混淆加密中，有一项“域名锁定”功能。使用此功能后，代码运行时会检测浏览器地址中的域名信息，如是非指定域名，则不运行，以此防止自己网站的JS代码被复制…

阅读更多...

python的文件操作

python的文件操作

前言打印内容到屏幕最简单的输出方式是调用print函数，此函数会将你传递的表达式转化成字符串表达式，并将结果写道标准输出中。读取键盘输入 python提供了两个raw_input和input内置函数从标准输入中读取一行文本，默认的标准输入是键盘。 …

阅读更多...

Android NDK JNI与Java的相互调用

Android NDK JNI与Java的相互调用

一、Jni调用Java代码 jni可以调用java中的方法和java中的成员变量，因此JNIEnv定义了一系列的方法来帮助我们调用java的方法和成员变量。以上就是jni调用java类的大部分方法，如果是静态的成员变量和静态方法，可以使用***GetStaticMethodID、CallStaticObjectMethod等***。就…

阅读更多...

docker安装fastDFS

docker安装fastDFS

一、docker安装 1、搜索镜像 2、拉取镜像最新版本： docker pull delron/fastdfs3、使用镜像构建容器 3.1 创建tracker容器 docker run -dti --networkhost --name my-tracker -v /opt/zdxf/soft/fastdfs/tracker:/var/fdfs -v /etc/localtime:/etc/localtime d…

阅读更多...

最新文章

推荐文章