Sentinel原理一览

4,068 阅读7分钟

在分布式系统中,由于服务数量增多,出现问题的可能性也会增大。想象一下,如果我们上游的系统突然流量增大N倍,超出我们系统承载的流量瞬间进来会不会压垮我们的系统? 同样对于我们下游的应用,此刻不知道什么原因导致RT特别的长,那么我们系统提供的服务是不是也会收到影响呢?

image-20200406140842159

其它系统都是出于不可控的状态,想要要求其它系统稳定运行的前提是要保证你自己能稳定运行。因此我们要做的就是不管其它系统如何,我们都稳定运行。那么如何做呢?市场上经典的工具如Hystrix,当然阿里也提供了一套更加强大和易用的工具,Sentinel。

Sentinel,Hystrix对比:github.com/alibaba/Sen…

结论:因为我们需要保护自己的系统,在流量过大或者下游响应时间过长以及其他意外情况的时候,我们的系统还需要正常运行,虽然市场上有一些其它的工具,但是Sentinel功能更强大,用起来更简单,扩展起来也方便

Sentinel主要功能:

  • 流量控制:将请求调整成合适的形状。
  • 熔断降级:当依赖的某个资源不稳定的时候,对调用的资源进行限制,让请求快速失败。
  • 系统负载保护:如CPU过高,线程池数量太大,则需要对新来的请求做一些限制。

参考:Sentinel是什么

基本用法

虽然Sentinel提供了很多种使用的方式,但是大部分时候基本的用法就已经满足我们的要求了。这里只说下常见的用法。

1 引入依赖,写Sentinel代码

			  Entry sentinel = null;
        try {
            sentinel = SphU.entry(request.getName());
            // 业务代码
        } 				
				catch (BlockException blockException) {
            log.error("BlockException! request={}", request, blockException);         
        }           
				finally {
            if (sentinel != null){
                sentinel.exit();
            }
        }    

2 以上只是代表我们有了限流的工具,但是没有定义具体的规则。通常在dashboard配置规则,不过再代码中预定义一些默认规则也可以。

引入Dashboard:github.com/alibaba/Sen…

Sentinel支持的规则有以下几种:

  • 流量控制规则:对应代码中的FlowRule
  • 熔断降级规则:对应DegradeRule
  • 系统保护规则:对应SystemRule
  • 来源访问控制规则:对应AuthorityRule
  • 热点参数规则:对应ParamFlowRule

每种rule都有自己对应的RuleManager使其生效,比如在代码中预定义流量控制规则:

   // 定义流量控制规则,限制QPS不高于20
	 private static void initFlowRules() {
        List<FlowRule> rules = new ArrayList<>();
        FlowRule rule = new FlowRule();
        rule.setResource("HelloWorld");
        // set limit qps to 20
        rule.setCount(20);
        rule.setGrade(RuleConstant.FLOW_GRADE_QPS);
        rules.add(rule);

        // 将规则加载到内存,后续流量控制根据加载的规则进行处理
        FlowRuleManager.loadRules(rules);
    }

3 查看dashboard,或者日志观察限流降级是否生效。

  • 日志位置:/家目录/logs/csp/sentinel相关日志
  • 监控面板:可以查看各种规则当前的状态
    img

使用方式上,自己摸索下就知道怎么回事了。就不说太多了。

原理概览

以以下代码为例,Sentinel内部做了什么操作,来实现限流降级功能呢?

SphU.entry("HelloWorld")

1 Sentinel针对资源进行操作,entry("HelloWorld")代表要处理名称为HelloWorld的资源。操作成功后会返回一个Entry对象,否则抛出异常代表不处理当前请求(可以认为是规则限制)

2 Sphu.entry内部关键部分代码。

// 创建当前调用的上下文信息,为ThreadLocal变量。
// 如果是我们手工创建Context,一般可以指定name与origin(来源)。
// Context内部主要保存:
// - entranceNode  当前调用的入口Node
// - curEntry  当前正在处理的Entry,即每一次调用都会生成的Entry对象
// - origin 字符串,用来标记来源,统计的时候会用到
Context context = createContext();

// 查找当前资源的Slot处理链,一般一个资源对应一个ProcessorSlotChain,如果没有找到ProcessorSlotChain会创建默认的DefaultSlotChainBuilder。其中SLot顺序如下:
//       ProcessorSlotChain chain = new DefaultProcessorSlotChain();
//        chain.addLast(new NodeSelectorSlot());
//        chain.addLast(new ClusterBuilderSlot());
//        chain.addLast(new LogSlot());
//        chain.addLast(new StatisticSlot());
//        chain.addLast(new AuthoritySlot());
//        chain.addLast(new SystemSlot());
//        chain.addLast(new FlowSlot());
//        chain.addLast(new DegradeSlot());
ProcessorSlot<Object> chain = lookProcessChain(resourceWrapper);


// 创建Entry与SlotChain处理Entry
// 其中依次调用上面的Slot进行处理。
Entry e = new CtEntry(resourceWrapper, chain, context);
chain.entry(context, resourceWrapper, null, count, prioritized, args);

SlotChain处理对应官方的架构图如下:

image.png

  • TreeNodeBuilder对应NodeSelectorSlot,主要负责收集资源的路径,并将这些资源的调用路径,以树状结构存储起来,用于根据调用路径来限流降级
  • ClusterNode对应ClusterBuilderSlot,用于存储资源的统计信息以及调用者信息,例如该资源的 RT, QPS, thread count 等等,这些信息将用作为多维度限流,降级的依据;
  • StatisticSlot:核心的Slot。各种维度的监控统计位于其中
  • FlowSlot,DegradeSlot,AuthoritySlot,SystemSlot:实现方式上基本一致,主要根据统计的数据判断当前的规则是否生效,看懂了其中一个,其余的可以举一反三,当然也可以写自己自定义的控制规则。

3 根据代码,我觉得当前一个比较完整的流程图应该是:

image-20200406152106146

系统保护原理

上面说了大致流程,看一个具体的规则来了解它是如何生效的。

1 在Sentinel获取资源的时候,会调用SlotChain,正常情况下会走到SystemSlot中进行处理。

2 SystemSlot,交给RuleManager检查资源是否满足条件。

SystemRuleManager.checkSystem(resourceWrapper);

3 规则校验,可以看到如果系统负载过高,则会抛出SystemBlockException异常,终止当前的请求处理。

主要代码在SystemRuleManager中

				...
				
        // load. BBR algorithm.
        if (highestSystemLoadIsSet && getCurrentSystemAvgLoad() > highestSystemLoad) {
            if (!checkBbr(currentThread)) {
                throw new SystemBlockException(resourceWrapper.getName(), "load");
            }
        }

        // cpu usage
        if (highestCpuUsageIsSet && getCurrentCpuUsage() > highestCpuUsage) {
            throw new SystemBlockException(resourceWrapper.getName(), "cpu");
        }

其它:

  • 系统状态通过SystemStatusListener进行更新,调度器每秒钟收集一次系统状态
  • 通过SystemRuleManager.loadRules在加载规则
  • 系统规则配置实体类为:SystemRule

流控QPS直接拒绝

Sentinel提供了多种流控方式,直接拒绝Warm Up匀速排队。对应 FlowRule 中的 controlBehavior 字段。

直接拒绝实现比较简单,通过看它的实现后续再弄明白更复杂的实现。与系统保护类似:

Request -> FlowSlot -> FlowRulechecker -> FlowRuleManager -> FlowRule -> ControlBehavior(TrafficShapingController) -> canPass

image-20200406154138713

LeapArray分析

我们知道StatisticSlot是Sentinel的核心插槽之一,用于统计实时的数据,后续大部分限流降级的规则都是基于StatisticSlot统计的数据来进行检查。因此对于它是如何统计的,需要了解下。

Sentinel 底层采用高性能的滑动窗口数据结构 LeapArray 来统计实时的秒级指标数据

1 它有4个关键的属性。

  • windowLengthInMs 每个窗口有多少毫秒
  • sampleCount 窗口数量
  • intervalInMs 要统计的间隔时长
  • array 即统计的数据存放的地方

其关系如下:

image-20200407075540295

2 计算当前的窗口位置,以及窗口开始时间。

  • 获取当前的ms值
  • 当前值除以windowLengthInMs,即窗口间隔,然后对sampleCount取余

image-20200407080247637

3 当 当前时间窗口过期之后,将当前窗口的startTime指向新的窗口开始时间。

  • 更新窗口startTime
  • 重置窗口中存储的value,即上个窗口过期

image-20200407081051397

4 滑动窗口只是用于计算窗口,而窗口中的数据存储结构用的是MetricBucket。其统计了6个维度的数据:

  • 每个创建都会存储一个MetricBucket
  • 每个MetricBucket可以统计如下数据
public enum MetricEvent {

    /**
     * Normal pass.
     */
    PASS,
    /**
     * Normal block.
     */
    BLOCK,
    EXCEPTION,
    SUCCESS,
    RT,

    /**
     * Passed in future quota (pre-occupied, since 1.5.0).
     */
    OCCUPIED_PASS
}

统计时机

我们知道数据统计入口在StatisticSlot中,那么以上指标分别在什么时候统计的呢?大致如下:

  • 在entry时增加TheadNum, Pass,如果遇到异常则增加BlockQPS,遇到特殊异常会增加Exception数量
  • 在exit时统计SUCCESS和RT

image-20200407082244170

public class StatisticSlot extends AbstractLinkedProcessorSlot<DefaultNode> {

    @Override
    public void entry(Context context, ResourceWrapper resourceWrapper, DefaultNode node, int count,
                      boolean prioritized, Object... args) throws Throwable {
        try {
            // Do some checking.
            fireEntry(context, resourceWrapper, node, count, prioritized, args);

            // Request passed, add thread count and pass count.
            node.increaseThreadNum();
            node.addPassRequest(count);
            ...           
        } catch (BlockException e) {
            // Blocked, set block exception to current entry.
            context.getCurEntry().setError(e);

            // Add block count.
            node.increaseBlockQps(count);          
            throw e;
        } catch (Throwable e) {
            // Unexpected error, set error to current entry.
            context.getCurEntry().setError(e);

            // This should not happen.
            node.increaseExceptionQps(count);          
            throw e;
        }
    }

    @Override
    public void exit(Context context, ResourceWrapper resourceWrapper, int count, Object... args) {
	         DefaultNode node = (DefaultNode)context.getCurNode();
            // Record response time and success count.
            node.addRtAndSuccess(rt, count);         
            node.decreaseThreadNum();

        fireExit(context, resourceWrapper, count);
    }
}

小结

这里主要是说了Sentinel的简单使用,以及执行过程中代码的大体流程,并未深究其数据结构。

代码设计上并不算很复杂,如果在使用的过程中遇到什么问题,点进去看一下大致也能解决。我觉得其核心的代码:

  • StatisticSlot:多种维度的数据统计入口,在其中使用了LeapArray统计秒级指标数据。
  • FlowSlot,DegradeSlot,AuthoritySlot,SystemSlot:熔断,限流降级逻辑判断的地方。如果想判断规则有没有生效,就到对应的类中Debug下。
  • 流量控制算法:TrafficShapingController的实现类

更多内容参考:github.com/alibaba/Sen…