文章目录
StructuredStreaming编程模型
一、基础语义
二、事件时间和延迟数据
三、容错语义
StructuredStreaming编程模型
一、基础语义
Structured Streaming处理实时数据思想是将实时数据看成一张没有边界的表,数据源源不断的追加到这张表中,这可以让我们能像处理批数据一样处理实时数据。如下图所示,每条实时数据到来之后都对应“无界表”中的一条数据追加到表中。
以WordCount为例,Spark会针对每次增量的数据进行计算,将结果输出出来,如下图所示:
注意:StructuredStreaming并不会将每次输出的数据物化存储起来,而是每次计算都将结果状态保存起来,下个批次计算是基于当前批次数据