聊聊Flink的必知必会(三)

聊聊,flink · 浏览次数 : 15

小编点评

**流处理中对流的有界子集聚合分析** 在进行流处理时，通常需要对流中的元素组进行聚合分析。例如，每分钟的页面浏览次数、每用户每周的会话次数、每分钟每传感器的最高温度等。对于这些需求的处理，程序需要处理元素组，而不是单个元素，因此，通常使用窗口来限定在数据流上的聚合。 **窗口** 窗口是一个处理无限流的核心概念。窗口将流分割为有限大小的组，并使用聚合函数对这些组进行计算。窗口可以是基于时间或数据驱动的。 **不同类型的窗口** * **滚动窗口**：滚动窗口在流中创建不重叠的相邻窗口。 * **滑动窗口**：滑动窗口可以重叠。 * **会话窗口**：会话窗口当对发生的事件进行分组时，将时间接近的分到一组。 * **全局窗口**：全局窗口将所有元素放到一个窗口中。 **如何定义窗口** 窗口的定义需要根据具体需求进行调整。例如，滑动窗口需要指定窗口滑动参数，全局窗口需要指定窗口大小等。 **示例** ```java //滚动窗口 TumblingEventTimeWindows.of(Time.minutes(1))(2) //滑动窗口 SlidingEventTimeWindows.of(Time.minutes(1),Time.seconds(10))(3) //会话窗口 EventTimeSessionWindows.withGap(Time.minutes(30)) ```

正文

概述

在进行流处理时，很多时候想要对流的有界子集进行聚合分析。例如有如下的需求场景：
(1)每分钟的页面浏览(PV)次数。

(2)每用户每周的会话次数。

(3)每分钟每传感器的最高温度。

(4)当电商发布一个秒杀活动时，想要每隔10min了解流量数据。

对于这些需求的处理，程序需要处理元素组，而不是单个元素，因此，通常使用窗口来限定在数据流上的聚合（如count、sum等）的范围，例如"过去5min内的计数"或"最后100个元素的总和"，所以在处理流数据时，通常更有意义的是考虑有限窗口上的聚合，而不是整个流。

在阿里的限流框架Sentinel中，关键的资源数据统计算法也是基于窗口的概念来做的。

窗口(window)是处理无限流的核心，使用窗口计算无界流上的聚合。窗口将流分割为有限大小的组，用户可以对这样的组进行计算。窗口可以是由时间驱动的（例如，每30s），也可以是由数据驱动的（例如，每100个元素）。如下所示

Flink流窗口

通俗点来说，窗口（window）可以将无界流分成有限大小的「桶」，我们基于这个「桶」之上，可以构建各种各样的计算。而无界流的拆分方式可以按时间、或者事件的数量，我们可以根据业务场景来定义窗口的大小。

如何对定义创建流窗口？Flink支持不同类型的窗口，分别介绍如下。

(1)滚动窗口：Tumbling Window，是在流中创建不重叠的相邻窗口。它们是固定长度的窗口，没有重叠。可以根据时间对元素进行分组（例如，从10:00到10:05的所有元素进入一个组），或者根据计数（前50个元素进入一个单独的组）对元素进行分组。例如，可以用它来回答这样的问题：“在不重叠的5min间隔内计算流中元素的数量”。

(2)滑动窗口：Sliding Window，类似于滚动窗口，但是窗口可以重叠。滑动窗口是固定长度的窗口，通过用户给定的窗口滑动参数与前面的窗口重叠。例如，如果需要计算最后5min的指标，但希望每分钟显示一个输出时。

(3)会话窗口：Session Window，当对发生的事件进行分组时，将时间接近的分到一组（一个窗口中）。还可以提供会话间隔的配置参数，该参数指示在关闭会话之前需要等待多长时间。

(4)全局窗口：Global Window,Flink将所有元素放到一个窗口中。通常在这种情况下，每个元素都被分配给一个单一的per-key全局窗口(Global Window)。如果不指定任何触发器，就不会触发任何计算。这只有在定义自定义触发器时才有用，该触发器定义了窗口何时结束。

这几种窗口类型表示，可按如下图表示

窗口分配器

窗口分配器用于定义如何将元素分配给窗口。这是通过在调用window()（针对Keyed Stream）或windowAll()（针对non-keyed stream）时指定所选择的WindowAssigner实现的。WindowAssigner负责将每个传入元素分配给一个或多个窗口。

内置窗口分配器

Flink为最常见的场景（滚动时间窗口、滑动时间窗口、全局窗口和会话窗口）提供了预定义的窗口分配器，它们分别如下。

(1)滚动时间窗口：例如，每分钟PV数据（浏览量），代码如下：

TumblingEventTimeWindows.of(Time.minutes(1))
复制

(2)滑动时间窗口：例如，每10s计算一次每分钟的页面浏览量，代码如下：

SlidingEventTimeWindows.of(Time.minutes(1),Time.seconds(10))
复制

(3)会话窗口：例如，每个会话的PV数据，其中会话定义为会话之间至少30min的间隔，代码如下：

EventTimeSessionWindows.withGap(Time.minutes(30))
复制

所有内置的窗口分配器（全局窗口除外）都根据时间向窗口分配元素。基于时间的窗口分配程序（包括会话窗口）有事件时间和处理时间两种形式。示例如下：

Flink滑动窗口原理
 Flink 源码之Window

自定义窗口分配器

一个Flink窗口程序的总体结构如下
Keyed Stream表示如下，在Keyed Stream的情况下，可以使用传入事件的任何属性作为key。在Keyed Stream的窗口计算由多个任务并行执行，因为每个逻辑Keyed Stream都可以独立于其他流进行处理。所有引用相同key的元素将被发送到相同的并行任务。

// Keyed Windows
stream
    .keyBy(...)
    .window()
    .reduce/aggregate/apply()
复制

non-keyed-stream表示如下，在Keyed Stream的情况下，可以使用传入事件的任何属性作为key。在Keyed Stream的窗口计算由多个任务并行执行，因为每个逻辑Keyed Stream都可以独立于其他流进行处理。所有引用相同key的元素将被发送到相同的并行任务。

// Keyed Windows
stream
    .windowAll()
    .reduce/aggregate/apply()
复制

窗口触发

Trigger(触发器)决定了什么时候窗口准备就绪了，一旦窗口准备就绪就可以使用WindowFunction（窗口计算操作）进行计算。每一个 WindowAssigner（窗口分配器）都会有一个默认的Trigger。如果默认的Trigger不满足用户的需求，用户可以自定义Trigger。

每一种窗口分配器对应的默认触发器如下：

参考
《Flink原理深入与编程实战》

Flink的Window

Flink学习笔记-Trigger窗口触发