【深入浅出SpringCloud原理及实战】「Netflix系列之Hystrix」针对于限流熔断组件Hystrix的回退降级实现方案和机制

针对于限流熔断组件Hystrix的回退降级实现方案和机制

- - 依赖隔离
  - - 依赖隔离之线程&线程池
    - 高延迟请求的例子
  - 线程池的优势
  - 线程池的弊端
  - - 线程池的开销
    - 线程池开销
- 信号量

依赖隔离

Hystrix通过使用『舱壁模式』（注：将船的底部划分成一个个的舱室，这样一个舱室进水不会导致整艘船沉没。将系统所有依赖服务隔离起来，一个依赖延迟升高或者失败，不会导致整个系统失败）来隔离依赖服务，并限制访问这些依赖服务的并发度。

依赖隔离之线程&线程池

通过将对依赖服务的访问执行放到单独的线程，将其与调用线程（例如 Tomcat 线程池中的线程）隔离开来，调用线程能空出来去做其他的工作而不至于被依赖服务的访问阻塞过长时间。

Hystrix使用独立的，每个依赖服务对应一个线程池的方式，来隔离这些依赖服务，这样，某个依赖服务的高延迟只会拖慢这个依赖服务对应的线程池。

高延迟请求的例子

当然，也可以不使用线程池来使你的系统免受依赖服务失效的影响，这需要你小心的设置网络连接/读取超时时间和重试配置，并保证这些配置能正确正常的运作，以使这些依赖服务在失效时，能快速返回错误。

Netflix在设计Hystrix时，使用线程/线程池来实现隔离，原因如下：

多数系统同时运行了（有时甚至多达数百个）不同的后端服务，这些服务由不同开发组开发。
每个服务都提供了自己的客户端库
客户端库经常会发生变动
客户端库可能会改变逻辑，加入新的网络请求

客户端库可能会包含重试逻辑，数据解析，缓存（本地缓存或分布式缓存），或者其他类似逻辑。
客户端库对于使用者来说，相当于『黑盒』，其实现细节，网络访问方式，默认配置等等均对使用者透明。

In several real-world production outages the determination was “oh,something changed and properties should be adjusted” or “the client library changed its behavior.”

即使客户端库本身未发生变化，服务自身发生变化，也可能会影响其性能，从而导致客户端配置不再可靠。
中间依赖服务可能包含一些其依赖服务提供的客户端库，而这些库可能不受控且配置不合理
绝大多数网络访问都采用同步的方式进行
客户端代码可能也会有失效或者高延迟，而不仅仅是在网络访问时

面对失效时 Hystrix 包装的请求拓扑图

线程池的优势

将依赖服务请求通过使用不同的线程池隔离，其优势如下：

（拒绝请求）系统完全与依赖服务请求隔离开来，即使依赖服务对应线程池耗尽，也不会影响系统其它请求
（资源隔离）降低了系统接入新的依赖服务的风险，若新的依赖服务存在问题，也不会影响系统其它请求
当依赖服务失效后又恢复正常，其对应的线程池会被清理干净，相对于整个 Tomcat容器的线程池被占满需要耗费更长时间以恢复可用来说，此时系统可以快速恢复。
若依赖服务的配置有问题，线程池能迅速反映出来（通过失败次数的增加，高延迟，超时，拒绝访问等等），同时，你可以在不影响系统现有功能的情况下，处理这些问题（通常通过热配置等方式）。
若依赖服务的实现发生变更，性能有了很大的变化（这种情况时常发生），需要进行配置调整（例如增加/减小超时阈值，调整重试策略等）时，也可以从线程池的监控信息上迅速反映出来（失败次数增加，高延迟，超时，拒绝访问等等），同时，你可以在不影响其他依赖服务，系统请求和用户的情况下，处理这些问题