分布式熔断降级平台aegis

3,617 阅读5分钟

现状

分布式场景中。若服务不稳定,会导致调用方服务也不可用,从而造成雪崩效应。因此要对在原服务不可用时进行熔断降级处理。

分析

熔断降级可以服务端限流、网关限流、客户端限流。

1. 客户端限流:在调用方法发起请求时检查是否达到阀值。若达到阀值,不发起调用请求

优点:可以在服务消费端直接控制流量出口,减少不必要请求的发起。

缺点:客户端需要感知服务运行指标和容灾规则。每个业务方需要重复开发

2. 服务端限流:服务提供方自定义容灾逻辑,在收到请求后再根据当前状态判断是否走fallback逻辑

优点:容灾规则、阀值完全封装在服务提供者。对调用方无感知。

缺点:若服务提供者都挂了,无法进行容灾。

3. 网关限流:原本直接调用提供者的请求都由网关层代理转发。容灾规则的配置、降级逻辑都封装在网关层。

优点:客户端、服务端都无需感知容灾逻辑。

缺点:多了一次网络请求、rt变大

大部分情况下,我们都是选择服务端限流。但客户端对数据平台的接口是强依赖的。若搜索应用挂了,客户端还是需要看到数据。相比高可用,略微的rt变大是可以接受的,所以启动一个数据容灾网关

技术选型

现在了解到的开源容灾框架有hystrix、sentinel两种。

hystrix:常用于springcloud的一个熔断降级组件。主要功能是不同服务之间的资源隔离、失败降级。底层实现是Rxjava。它提供两种资源隔离的模式:信号量隔离和线程池隔离。一般使用线程池隔离。耗费一定资源,但相比之下支持超时和异步执行。听起来可以覆盖大部分场景,但它不支持更高要求的流控,如qps的控制。所以需要单独采用令牌漏桶来做流量控制。

sentinel:阿里开源的分布式流量控制组件。支持流控、熔断降级、系统保护等。所有的资源都对应一个资源名称以及一个Entry。每一个Entry创建的时候,同时也会创建一系列插件(系统保护插件:SystemSlot、流控插件:FlowSlot、熔断降级插件LDegradeSlot等)。每个插件会监控自己职责范围内的指标。NodeSelectorSlot将各个资源的调用路径以树状存储,用于限流降级。调用者通过创建上下文、请求token来执行方法。若没有抛出BlockException,表示请求成功。它支持并发数/qps的流量控制、也支持熔断降级。

对比:1.hystrix的熔断都围绕线程池展开。更适合做资源隔离,但单个应用有多个服务时线程池开销会造成浪费。hystrix是单个超时立即熔断,控制力度更细。多个微服务的场景可以考虑用这种。2.sentinel是基于并发数,支持的场景也更复杂,开销小,适合在保证服务稳定的情况下提高吞吐量。但它的超时是5次请求的平均响应时间。并不是很严格。但对于大多数场景而言可以接受

接入方式

sentinel支持api和注解两种接入方式。作为容灾网关,之后可以会接很多接口。为了接入简单、对代码无侵入。需要使用注解的方式。但是原生的@SentinelResource有几个问题:

1. 只能指定资源名称、fallback方法。用户还是需要通过api创建容灾规则,

2. 而且fallback方法入参要加上BlockException。这样的接入方式不是很优雅。

3. 流控异常FlowException的方法要另外指定。

于是基于sentinel封装了一层自定义注解@AegisResource

@AegisResource(value = "hello",limitThread = 0,timeOut = 100,failRate = 0.5,timeWindows = 100,fallback = "exceptionHandler")

参数说明:

value:资源名称,默认为方法名

limitThread:最大线程数,默认-1,即不启用

timeOut:接口超时时间,默认-1,即不启用

failRate:失败率,默认-1,即不启用

timeWindows:触发降级但持续时间,默认100

fallback:降级方法,必须指定

接入demo


 /**
     * 保护的方法
     * @return
     */
    @GetMapping("resourcetest")
    @AegisResource(value = "hello",limitThread = 0,timeOut = 100,failRate = 0.5,timeWindows = 100,fallback = "exceptionHandler")
    public String hello() {
        return "ok";
    }

    /**
     * 降级的方法
     * @return
     */
    public String exceptionHandler() {
        // Do some log here.
        return "Oops, error occurred at " ;
    }

新接口只需写好希望执行的方法和降级方法,然后在希望执行的方法上加入@AegisResource(fallBack=“fallback的方法名”)就可以无侵式入地进行容灾。切面定义了默认容灾阀值。也可以在对应属性上设置自定义的阀值。

后期规划

目前容灾网关可以满足目前的需求。目前有开源的控制台,可以查看服务调用大盘,动态调整容灾规则。缺点是目前指标的搜集是http方式。容灾规则、运行指标也没有持久化存储。后期如果需要,可以借助现有的开源控制台进行二次开发。