我们大多数的工作环境所搭建的都是分布式集群模式,那么从上一篇中我们了解了WaterMark的原理。

现在在分布式的并行处理下,两个Task同时处理数据时他们所在Task的WaterMark是不相同的,Flink是如何保证WaterMark正常运行的呢。

  1. 定义数据流及并行任务的数据流向,这里的延迟我们依然设置成3秒
    在这里插入图片描述

  2. 第一次处理数据
    在这里插入图片描述

  3. 第二次处理数据
    在这里插入图片描述

    Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现。

Logo

更多推荐