Flink之时间语义

Flink之时间语义

简介

Flink中时间语义可以说是最重要的一个概念了,这里就说一下关于时间语义的机制,我们下看一下下面的表格,简单了解一下

时间定义
processing time处理时间,也就是现实世界的时间,或者说代码执行时,服务器的时间
event time事件时间,就是事件数据中所带的时间(业务意义上的时间),和现实世界中的时间无关,只以数据中所带的时间为准
ingestion time注入时间,也就是数据进入到Flink系统中最开始的那个时间,这个没什么用处.开发中使用的基本就是处理时间和事件时间.

通过表格中的内容我们对这三类时间代表的内容应该都清楚了,后面会先介绍一下时间语义的执行机制和对应的API使用.

机制

推进时间

何为"时间标记",其实这里说的"时间标记"就是Flink中的WaterMark,是由于Operator[算子]中的定时器决定的,我们先看下图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lpODY22p-1692338649652)(/Users/jinlong/data/Typora_WorkSpase/FlinkTImeSemantics/time1.png)]

图中我们是以event time为例子的,这样更便于理解

  1. 当数据从Mysql过来时,Operator中的定时器会先判断事件数据中所带的时间戳的大小
  2. 当得知事件数据中的时间戳是截止目前为止的最大时间戳时,会和时间标记进行比较,其实也就是和WaterMark进行比较,发现大于WaterMark时,就会将时间戳进行更换,如果小于怎么办?小于就证明这一条数据时迟到的数据,就会被抛弃(这是发生在1对1的情况下).
  3. 当时间标记更换完成后,就会将这个事件标记发送给下游算子.

推进时间选择

上面我们讲到了当时间标记更新完成后会发送给下游算子,试想一下如果下游的某个subtask接收的数据是上游的两个subtask发送来的数据时,且两条数据中的时间戳不同该怎么办?请看下图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0sZu7OCS-1692338649652)(/Users/jinlong/data/Typora_WorkSpase/FlinkTImeSemantics/time2.png)]

  1. Operator(subtask)这个算子实例,接收到了来自上游的两个推进时间300700
  2. 接收到之后首先判断出两个上游发送来的推进时间中的最小值,在图中也就是300
  3. 判断出最小推进时间后,再和算子实例中存在的推进时间进行比较,如果大于当前算子实例中的推进时间则进行替换
  4. 更新算子实例中的推进时间后,继续发送给下游

迟到数据

前面讲到了关于推进时间的更换和推进时间的选择,这里讲一下Flink中的迟到数据,什么是迟到数据?就是字面意思,来晚了.

比如说某个算子实例中的推进时间是1000,但是来了一条数据的时间是500,怎么办?这条数据会被舍弃掉,在使用Flink的时候我们要牢记一点未来尚可努力,过去不可更改,Flink中的时间线和现实世界中的时间线是一样的,只会推进永远不会回退,顶多在Flink中的时间可以暂停,但是一定一定是不可以回退的.

请看下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GnS6bAHg-1692338649653)(/Users/jinlong/data/Typora_WorkSpase/FlinkTImeSemantics/time3.png)]

  1. 首先当前算子实例还是会对推进时间进行判断,获取最新的推进时间(800)
  2. 当判断出推进时间为800时得知500~1000这个窗口还没有结束(窗口都是前闭后开)
  3. 接收上游发送来的数据,根据数据中的事件时间将其发送到不同的桶中,如800900的数据都符合当前桶(500~1000)的时间区间,那么就会将该数据分配到当前桶中,直到推进时间更新到1000时则开始计算当前桶中的数据
  4. 如果发现数据中的事件时间超出当前桶的时间区间,则会根据该数据中的时间时间划分未来桶,如10001200都属于1000~1500这个时间区间,假如这时来了一条1500 <= data < 2000的数据,这时又会划分出一个新的未来中,未来桶中的数据只要还没开始计算,就会一直这样划分下去.
  5. 700的数据来时,发现时间时间700小于当前算子实例中的推进时间800,则将700的数据抛弃, 虽然700的数据在500~1000的区间,但是时间遵循不可回退的原则,所以该条数据必然会被抛弃
  6. 将推进时间和计算完成的数据继续发往下游算子实例

推进时间暂停(即停止更新)

在Flink实时计算中还会出现一种情况,就是前面提到的,虽然时间不可回退,但是在Flink中可能会出现推进时间暂停的情况,这里就对这种情况进行说明,请看下图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HSnRCyjo-1692338649653)(/Users/jinlong/data/Typora_WorkSpase/FlinkTImeSemantics/time4.png)]

  1. 同样下游的算子实例在选择推进时间时,会选择两个上游算子实例发来的推进时间中较小的那一个作为更新当前算子实例中的推进时间依据
  2. 通过上图可知WaterMak800的这个算子实例不再有新的WaterMark发送过来,所以对于下游的算子实例来说,不管另一个持续发送WaterMark的算子实例时间推进到哪里都没有作用了,也就是对于下游的算子实例时间已经暂停在800
  3. 当下游的算子实例时间暂停后,上游其中一个算子实例还在源源不断的发送WaterMark和数据,这时在下游的算子实例的窗口中就会根据数据中的事件时间以500为一个区间不断地构建一个一个的未来桶,将这些数据先放起来
  4. 发生这种情况时,如果时间过长就可能会导致程序崩溃报错,那么是否有解决方式呢?当然是有的,在Flink中为我们提供了一种机制watermark-idle-timeout,这个机制的作用是什么呢?当侦测到某一个支线一直没有数据进来,并且超过了watermark-idle-timeout设置的时间(比如说是2s),那么这个机制就会将推进时间往前推进2s,也就是说当我们将这个机制设置为2s时,那等待某个一直没有来数据支线的时间就是2s,到达2s这个临界值时就会自动更新推进时间

关于时间语义的机制大概就这些内容了,如有不对欢迎指正,如有问题共同探讨.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/99610.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

怎样让音频速度变慢?请跟随以下方法进行操作

怎样让音频速度变慢&#xff1f;在会议录音过程中&#xff0c;经常会遇到主讲人语速过快&#xff0c;导致我们无法清晰听到对方说的内容。如果我们能够减慢音频速度&#xff0c;就能更好地记录对方的讲话内容。此外&#xff0c;在听到快速播放的外语或方言时&#xff0c;我们也…

途乐证券|买了股票但不管可以吗?会不会被撤回?

炒股是个说简略也简略、说难也难的事情&#xff0c;一些股民绞尽脑汁、忙前忙后紧盯大盘&#xff0c;实时剖析&#xff0c;把自己累够呛&#xff1b;一些股民云淡风轻&#xff0c;买了股票却几乎不怎么理睬&#xff0c;兴致来了看两眼&#xff0c;也就算研讨股票行情了。那么&a…

8.4.tensorRT高级(3)封装系列-infer推理封装,输入输出tensor的关联

目录 前言1. infer封装总结 前言 杜老师推出的 tensorRT从零起步高性能部署 课程&#xff0c;之前有看过一遍&#xff0c;但是没有做笔记&#xff0c;很多东西也忘了。这次重新撸一遍&#xff0c;顺便记记笔记。 本次课程学习 tensorRT 高级-infer推理封装&#xff0c;输入输出…

「UG/NX」Block UI 面收集器FaceCollector

✨博客主页何曾参静谧的博客📌文章专栏「UG/NX」BlockUI集合📚全部专栏「UG/NX」NX二次开发「UG/NX」BlockUI集合「VS」Visual Studio「QT」QT5程序设计「C/C+&#

分类预测 | MATLAB实现MTBO-CNN多输入分类预测

分类预测 | MATLAB实现MTBO-CNN多输入分类预测 目录 分类预测 | MATLAB实现MTBO-CNN多输入分类预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.MATLAB实现MTBO-CNN多输入分类预测 2.代码说明&#xff1a;基于登山队优化算法&#xff08;MTBO&#xff09;、卷积神经…

使用本地电脑搭建可以远程访问的SFTP服务器

文章目录 1. 搭建SFTP服务器1.1 下载 freesshd 服务器软件1.3 启动SFTP服务1.4 添加用户1.5 保存所有配置 2. 安装SFTP客户端FileZilla测试2.1 配置一个本地SFTP站点2.2 内网连接测试成功 3. 使用cpolar内网穿透3.1 创建SFTP隧道3.2 查看在线隧道列表 4. 使用SFTP客户端&#x…

代码随想录打卡—day21—【二叉树】— 8.21

1 530. 二叉搜索树的最小绝对差 530. 二叉搜索树的最小绝对差 想法&#xff1a;先直接中序遍历&#xff08;升序的序列&#xff09;过程中相邻两个数的差值取min&#xff0c;自己写一次AC代码&#xff1a; /*** Definition for a binary tree node.* struct TreeNode {* …

Facebook 应用未启用:这款应用目前无法使用,应用开发者已得知这个问题。

错误&#xff1a;Facebook 应用未启用:这款应用目前无法使用&#xff0c;应用开发者已得知这个问题。应用重新启用后&#xff0c;你便能登录。 「应用未经过审核或未发布」&#xff1a; 如果一个应用还没有经过Facebook的审核或者开发者尚未将应用发布&#xff0c;那么它将无法…

【Mysql】MVCC版本机制的多并发

&#x1f307;个人主页&#xff1a;平凡的小苏 &#x1f4da;学习格言&#xff1a;命运给你一个低的起点&#xff0c;是想看你精彩的翻盘&#xff0c;而不是让你自甘堕落&#xff0c;脚下的路虽然难走&#xff0c;但我还能走&#xff0c;比起向阳而生&#xff0c;我更想尝试逆风…

iOS设计规范是什么?都有哪些具体规范

iOS设计规范是苹果为移动设备操作系统iOS制定的设计指南。iOS设计规范的制定保证了苹果应用在外观和操作上的一致性和可用性&#xff0c;从而提高了苹果界面设计的用户体验和应用程序的成功性。本文将从七个方面全面分析iOS设计规范。 1.iOS设计规范完整版分享 由「即时设计」…

【LeetCode75】第三十四题 叶子相似的树

目录 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 代码&#xff1a; 题目&#xff1a; 示例&#xff1a; 分析&#xff1a; 给我们两棵二叉树&#xff0c;让我们判断这两棵二叉树的从左到右的叶子节点组成的叶子序列是否一致&#xff0c;即从左到右的叶子节点的数…

Open3D 进阶(5)变分贝叶斯高斯混合点云聚类

目录 一、算法原理二、代码实现三、结果展示四、测试数据本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫。 系列文章(连载中。。。爬虫,你倒是爬个完整的呀?): Open3D 进阶(1) MeanShift点云聚类Open3D 进阶(2)DB…

Ajax介绍

1.与服务器进行数据交换&#xff1a;通过 Ajax 可以给服务器发送请求&#xff0c;并获取服务器响应的数据。 2.异步交互&#xff1a;可以在 不重新加载整个页面 的情况下&#xff0c;与服务器交换数据并 更新部分网页 的技术&#xff0c;如&#xff1a; 搜索联想、用户名是否可…

浅析Linux SCSI子系统:调试方法

文章目录 SCSI日志调试功能scsi_logging_level调整SCSI日志等级 SCSI trace events使能SCSI trace events方式一&#xff1a;通过set_event接口方式二&#xff1a;通过enable 跟踪trace信息 相关参考 SCSI日志调试功能 SCSI子系统支持内核选项CONFIG_SCSI_LOGGING配置日志调试…

Django学习笔记(2)

创建app 属于自动执行了python manage.py 直接在里面运行startapp app01就可以创建app01的项目了 之后在setting.py中注册app01 INSTALLED_APPS ["django.contrib.admin","django.contrib.auth","django.contrib.contenttypes","django.c…

Dockerfile制作Web应用系统nginx镜像

目录 1.所需实现的具体内容 2.编写Dockerfile Dockerfile文件内容&#xff1a; 默认网页内容&#xff1a; 3.构建镜像 4.现在我们运行一个容器&#xff0c;查看我们的网页是否可访问 5.现在再将我们的镜像打包并上传到镜像仓库 1.所需实现的具体内容 基于centos基础镜像…

Linux学习之ssh和scp

ls /etc/ssh可以看到这个目录下有一些文件&#xff0c;而/etc/ssh/ssh_config是客户端配置文件&#xff0c;/etc/ssh/sshd_config是服务端配置文件。 cat -n /etc/ssh/sshd_config | grep "Port "可以看一下sshd监听端口的配置信息&#xff0c;发现这个配置端口是22…

async和await

一&#xff0c;基本使用 其实就是之前学过的异步函数&#xff0c;异步编程在函数前写一个ansyc&#xff0c;就转化为异步函数&#xff0c;返回的是一个promise对象&#xff0c;于是就可以使用await关键字&#xff0c;可以把异步函数写成同步函数的形式&#xff0c;极大地提高代…

python之Numpy

ndarray数组对象 NumPy定义了一个n维数组对象&#xff0c;简称ndarray对象&#xff0c;它是一个一系列相同类型元素组成的数组集合。数组中的每个元素都占有大小相同的内存块 ndarray 对象采用了数组的索引机制&#xff0c;将数组中的每个元素映射到内存块上&#xff0c;并且按…

LeetCode 542. 01 Matrix【多源BFS】中等

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…