Flink概念知识讲解之：Restart重启策略配置

当 Task 发生故障时，Flink 需要重启出错的 Task 以及其他受到影响的 Task ，以使得作业恢复到正常执行状态。

Flink 通过重启策略和故障恢复策略来控制 Task 重启：重启策略决定是否可以重启以及重启的间隔；故障恢复策略决定哪些 Task 需要重启。

重启策略

Flink 作业如果没有定义重启策略，则会遵循集群启动时加载的默认重启策略。如果提交作业时设置了重启策略，该策略将覆盖掉集群的默认策略。

可以通过 Flink 的配置文件 flink-conf.yaml 来设置默认的重启策略。配置参数restart-strategy 定义了采取何种策略。如果没有启用 checkpoint，就采用“不重启”策略。如果启用了 checkpoint 且没有配置重启策略，那么就采用固定延时重启策略，此时最大尝试重启次数由 Integer.MAX_VALUE 参数设置。

restart-strategy从1.17版本开始之后改为restart-strategy.type

每个重启策略都有自己的一组配置参数来控制其行为。这些参数也在配置文件中设置。后文的描述中会详细介绍每种重启策略的配置项。

restart-strategy的可选值包括以下：

none, off, disable: 不重启策略。
fixeddelay, fixed-delay ：固定延时重启策略。
failurerate, failure-rate: 故障率重启策略。
exponentialdelay, exponential-delay: 指数延迟重启策略。

接下来，我们来分别详细描述一下这些重启策略的原理。

fixed-delay 固定延时重启策略

固定延时重启策略按照给定的次数尝试重启作业。 如果尝试超过了给定的最大次数，作业将最终失败。在连续的两次重启尝试之间，重启策略等待一段固定长度的时间。

通过在 flink-conf.yaml 中设置如下配置参数，默认启用此策略。

restart-strategy: fixed-delay

配置项：

estart-strategy.fixed-delay.attempts 默认值 1 ，也就是默认重启1一次。请注意这个和没有配置重启策略的默认值不一样，没有配置策略，默认值为 Integer.MAX_VALUE。
restart-strategy.fixed-delay.delay 默认值 1 s ,两次连续重新启动尝试之间的延迟时间。如：1 min 、 20 s

举例如下：

restart-strategy: fixed-delay
restart-strategy.fixed-delay.attempts: 3
restart-strategy.fixed-delay.delay: 10 s

在这种配置下，如果任务从 “Restarting” 状态变成了 “Running”，然后再次因为异常变成 “Restarting”，那么重启次数并不会重新计数。 restart-strategy.fixed-delay.attempts 这个参数设置的是在整个任务运行期间最多允许重启的次数，而不是连续失败时的最多重启次数。也就是说，无论任务在运行过程中的任何时间点出现异常，只要累计的重启次数没有超过 5 次，都会尝试进行重启。因此，即使任务在重启后恢复运行，但后续再次失败，重启次数仍会继续累计，而不会重新计数。

failure-rate 故障率重启策略

故障率重启策略在故障发生之后重启作业，但是当故障率（每个时间间隔发生故障的次数）超过设定的限制时，作业会最终失败。在连续的两次重启尝试之间，重启策略等待一段固定长度的时间。

通过在 flink-conf.yaml 中设置如下配置参数，默认启用此策略。

restart-strategy: failure-rate

配置项：

restart-strategy.failure-rate.max-failures-per-interval: 这个设置是在给定的时间间隔内允许的最大失败次数。例如，如果设置为 3，则表示在设定的时间间隔内，如果作业失败了超过3次，Flink将不再尝试重启作业。
restart-strategy.failure-rate.failure-rate-interval: 这个设置是用于测量故障率的时间窗口。这个时间间隔与上一个参数一起使用，例如，如果设置为 “1 min”，则 Flink 会在每个 “1 min” 的时间段内跟踪作业失败次数，并与 max-failures-per-interval 的设置进行比较。
restart-strategy.failure-rate.delay: 这是连续两次尝试重新启动作业之间的延迟时间。例如，如果作业失败后立即尝试进行重启，然后又失败，此设置将使 Flink 在下一次尝试重新启动之前等待指定的时间。此设置有助于避免作业在出现持续性问题时过于频繁地尝试重启。

举例如下：

restart-strategy: failure-rate
restart-strategy.failure-rate.max-failures-per-interval: 3
restart-strategy.failure-rate.failure-rate-interval: 5 min
restart-strategy.failure-rate.delay: 10 s

exponential-delay 指数延迟重启策略

指数延迟重启策略在两次连续的重新启动尝试之间，重新启动的延迟时间不断呈指数增长，直到达到最大延迟时间。然后，延迟时间将保持在最大延迟时间。

当作业正确地执行后，指数延迟时间会在一些时间后被重置为初始值，这些阈值可以被配置。

restart-strategy.type: exponential-delay

配置项：

restart-strategy.exponential-delay.attempts-before-reset-backoff
- 默认值 infinite ，如果重新启动策略已设置为指数延迟，则表示Flink 在任务失败前重试执行的次数。一旦 backoff 被重置为其初始值，该数字将被重置。
restart-strategy.exponential-delay.backoff-multiplier：
- 指数延迟重启策略的基本工作原理是，在每一次任务失败并需要重启时，系统都会等待一段时间，这段时间就被称为 “backoff”。 系统初始的 “backoff” 时间由 restart-strategy.exponential-delay.initial-backoff 这个配置项来设定。
  
  当任务连续失败时，为了防止过于频繁的重启，可能使得问题更加严重，系统会在每次重启之前将 “backoff” 时间进行延长。这个延长就是按照指数递增的：每一次延长的 “backoff” = 当前的 “backoff” * restart-strategy.exponential-delay.backoff-multiplier。
  
  比如说，如果你的 initial-backoff 是 10s，而 backoff-multiplier 是 2，那么：
  - 第1次重启会等待 10s
  - 第2次重启会等待 10s * 2 = 20s
  - 第3次重启会等待 20s * 2 = 40s
  - 以此类推
  通过这种方式，Flink 可以在遇到持续性的问题时，通过逐渐增加重启间隔，为系统提供恢复的时间，同时也避免了过于频繁的重启导致的系统压力。
restart-strategy.exponential-delay.initial-backoff：
- restart-strategy.exponential-delay.initial-backoff 配置项用于设置每次重新启动任务时的初始暂停（backoff）时间。默认值是 1 秒。这个配置项的影响是，在任务失败后，将等待这个初始暂停时间后才进行第一次重启尝试。
restart-strategy.exponential-delay.jitter-factor:
- restart-strategy.exponential-delay.jitter-factor 默认值是0.1，表示实际重启间隔在计算出的间隔基础上会添加或减去最多10%的时间。假设按照指数间隔计算出的重启间隔是100秒，那么加入抖动因子后，实际的重启间隔将在90秒到110秒之间。
  
  例如，假设我们的 backoff 时间是 10s，乘数为 2，抖动因子为 0.1。那么在第一次任务失败后，重启的等待时间将在 9s 到 11s 之间（±10%）。如果任务再次失败，那么下一次的等待时间将在 (2*10s)90% 到 (210s)*110% 之间，即 18s 到 22s。这样就能够在一定程度上避免多个作业同时重启的问题，从而更好地利用资源，提高系统的稳定性和效率。
restart-strategy.exponential-delay.max-backoff：
- restart-strategy.exponential-delay.max-backoff 是 Flink 的指数延时重启策略中的一个配置项，其作用是设置每次尝试重新启动任务之间的最大暂停持续时间。其默认值是 “1 min”，代表最大的等待重启时间是 1 分钟。
- 在 exponential-delay 类型的重启策略中，每次任务失败后的重启等待时间会按照一个乘数进行增长，这个乘数是由 restart-strategy.exponential-delay.backoff-multiplier 配置项进行控制的。但无论这个乘数设置为多少，实际的等待时间都不会超过 restart-strategy.exponential-delay.max-backoff 所设置的值。
restart-strategy.exponential-delay.reset-backoff-threshold：
- restart-strategy.exponential-delay.reset-backoff-threshold"是 Flink 指数延迟重启策略中的一个配置项，其默认值为 “1h”。这个参数的作用是，设定一个时间阈值，当作业能够成功运行超过这个阈值的时间之后，下一次如果出现任务失败，计算重启时间间隔也就是backoff会被重置为初始值。换句话说，这是判断系统是否已经从错误恢复，并将失败尝试次数重置的指标。
- 为什么要这么设计呢？
  
  在指数延迟重启策略中，每次任务失败后的重启等待时间会按照一个乘数进行增长，这个乘数是由 restart-strategy.exponential-delay.backoff-multiplier 配置项进行控制的。然而，这种策略存在一个问题，也就是如果曾有过一段时间的失败，会导致后续的重启间隔变得非常长。
  
  因此，restart-strategy.exponential-delay.reset-backoff-threshold 就派上了用场。如果一个任务在一段时间（例如 “1h”）内没有失败，那么我们可以认为，这个任务已经从之前的错误中恢复过来。那么下一次如果再出现任务失败，我们就可以将backoff重置为初始值，而不需要采取以前因为连续错误而逐渐增加的延迟时间。

举例如下：

restart-strategy: exponential-delay
restart-strategy.exponential-delay.initial-backoff: 10 s
restart-strategy.exponential-delay.max-backoff: 2 min
restart-strategy.exponential-delay.backoff-multiplier: 1.4
restart-strategy.exponential-delay.reset-backoff-threshold: 10 min
restart-strategy.exponential-delay.jitter-factor: 0.1
restart-strategy.exponential-delay.attempts-before-reset-backoff: 10

默认重启策略

默认情况下，没有开启 checkpoint ,不重启。开启 checkpoint ,默认采用固定延时重启策略。但是默认 1s 重启一次，且会一直尝试重启，没有上限次数。这种频繁无限的默认重启策略是不合理的，可能会导致外部组件雪崩，也会一直占用计算资源。

所以在 1.19版本，默认策略改为指数延迟重启策略。我们强烈推荐 Flink 用户使用指数延迟重启策略，因为使用这个策略时，作业偶尔异常可以快速重试，作业频繁异常可以避免外部组件发生雪崩。原因如下所示：

所有的重启策略在重启作业时都会延迟一定的时间来避免频繁重试对外部组件的产生较大压力。
除了指数延迟重启策略以外的所有重启策略延迟时间都是固定的。
如果延迟时间设置的过短，当作业短时间内频繁异常时，会频繁重启访问外部组件的主节点，可能导致外部组件发生雪崩。例如：大量的 Flink 作业都在消费 Kafka，当 Kafka 集群出现故障时大量的 Flink 作业都在同一时间频繁重试，很可能导致雪崩。
如果延迟时间设置的过长，当作业偶尔失败时需要等待很久才会重试，从而导致作业可用率降低。
指数延迟重启策略每次重试的延迟时间会指数递增，直到达到最大延迟时间。
延迟时间的初始值较短，所以当作业偶尔失败时，可以快速重试，提升作业可用率。
当作业短时间内频繁失败时，指数延迟重启策略会降低重试的频率，从而避免外部组件雪崩。
除此以外，指数延迟重启策略的延迟时间支持抖动因子 (jitter-factor) 的配置项。
抖动因子会为每次的延迟时间加减一个随机值。
即使多个作业使用指数延迟重启策略且所有的配置参数完全相同，抖动因子也会让这些作业分散在不同的时间重启。