在分布式系统中,由于服务数量增多,出现问题的可能性也会增大。想象一下,如果我们上游的系统突然流量增大N倍,超出我们系统承载的流量瞬间进来会不会压垮我们的系统? 同样对于我们下游的应用,此刻不知道什么原因导致RT特别的长,那么我们系统提供的服务是不是也会收到影响呢?
其它系统都是出于不可控的状态,想要要求其它系统稳定运行的前提是要保证你自己能稳定运行。因此我们要做的就是不管其它系统如何,我们都稳定运行。那么如何做呢?市场上经典的工具如Hystrix,当然阿里也提供了一套更加强大和易用的工具,Sentinel。
Sentinel,Hystrix对比:github.com/alibaba/Sen…
结论:因为我们需要保护自己的系统,在流量过大或者下游响应时间过长以及其他意外情况的时候,我们的系统还需要正常运行,虽然市场上有一些其它的工具,但是Sentinel功能更强大,用起来更简单,扩展起来也方便。
Sentinel主要功能:
- 流量控制:将请求调整成合适的形状。
- 熔断降级:当依赖的某个资源不稳定的时候,对调用的资源进行限制,让请求快速失败。
- 系统负载保护:如CPU过高,线程池数量太大,则需要对新来的请求做一些限制。
参考:Sentinel是什么
基本用法
虽然Sentinel提供了很多种使用的方式,但是大部分时候基本的用法就已经满足我们的要求了。这里只说下常见的用法。
1 引入依赖,写Sentinel代码
Entry sentinel = null;
try {
sentinel = SphU.entry(request.getName());
// 业务代码
}
catch (BlockException blockException) {
log.error("BlockException! request={}", request, blockException);
}
finally {
if (sentinel != null){
sentinel.exit();
}
}
2 以上只是代表我们有了限流的工具,但是没有定义具体的规则。通常在dashboard配置规则,不过再代码中预定义一些默认规则也可以。
引入Dashboard:github.com/alibaba/Sen…
Sentinel支持的规则有以下几种:
- 流量控制规则:对应代码中的FlowRule
- 熔断降级规则:对应DegradeRule
- 系统保护规则:对应SystemRule
- 来源访问控制规则:对应AuthorityRule
- 热点参数规则:对应ParamFlowRule
每种rule都有自己对应的RuleManager使其生效,比如在代码中预定义流量控制规则:
// 定义流量控制规则,限制QPS不高于20
private static void initFlowRules() {
List<FlowRule> rules = new ArrayList<>();
FlowRule rule = new FlowRule();
rule.setResource("HelloWorld");
// set limit qps to 20
rule.setCount(20);
rule.setGrade(RuleConstant.FLOW_GRADE_QPS);
rules.add(rule);
// 将规则加载到内存,后续流量控制根据加载的规则进行处理
FlowRuleManager.loadRules(rules);
}
3 查看dashboard,或者日志观察限流降级是否生效。
- 日志位置:/家目录/logs/csp/sentinel相关日志
- 监控面板:可以查看各种规则当前的状态
使用方式上,自己摸索下就知道怎么回事了。就不说太多了。
原理概览
以以下代码为例,Sentinel内部做了什么操作,来实现限流降级功能呢?
SphU.entry("HelloWorld")
1 Sentinel针对资源进行操作,entry("HelloWorld")代表要处理名称为HelloWorld
的资源。操作成功后会返回一个Entry
对象,否则抛出异常代表不处理当前请求(可以认为是规则限制)
2 Sphu.entry内部关键部分代码。
// 创建当前调用的上下文信息,为ThreadLocal变量。
// 如果是我们手工创建Context,一般可以指定name与origin(来源)。
// Context内部主要保存:
// - entranceNode 当前调用的入口Node
// - curEntry 当前正在处理的Entry,即每一次调用都会生成的Entry对象
// - origin 字符串,用来标记来源,统计的时候会用到
Context context = createContext();
// 查找当前资源的Slot处理链,一般一个资源对应一个ProcessorSlotChain,如果没有找到ProcessorSlotChain会创建默认的DefaultSlotChainBuilder。其中SLot顺序如下:
// ProcessorSlotChain chain = new DefaultProcessorSlotChain();
// chain.addLast(new NodeSelectorSlot());
// chain.addLast(new ClusterBuilderSlot());
// chain.addLast(new LogSlot());
// chain.addLast(new StatisticSlot());
// chain.addLast(new AuthoritySlot());
// chain.addLast(new SystemSlot());
// chain.addLast(new FlowSlot());
// chain.addLast(new DegradeSlot());
ProcessorSlot<Object> chain = lookProcessChain(resourceWrapper);
// 创建Entry与SlotChain处理Entry
// 其中依次调用上面的Slot进行处理。
Entry e = new CtEntry(resourceWrapper, chain, context);
chain.entry(context, resourceWrapper, null, count, prioritized, args);
SlotChain处理对应官方的架构图如下:
- TreeNodeBuilder对应NodeSelectorSlot,主要负责收集资源的路径,并将这些资源的调用路径,以树状结构存储起来,用于根据调用路径来限流降级
- ClusterNode对应ClusterBuilderSlot,用于存储资源的统计信息以及调用者信息,例如该资源的 RT, QPS, thread count 等等,这些信息将用作为多维度限流,降级的依据;
- StatisticSlot:核心的Slot。各种维度的监控统计位于其中
- FlowSlot,DegradeSlot,AuthoritySlot,SystemSlot:实现方式上基本一致,主要根据统计的数据判断当前的规则是否生效,看懂了其中一个,其余的可以举一反三,当然也可以写自己自定义的控制规则。
3 根据代码,我觉得当前一个比较完整的流程图应该是:
系统保护原理
上面说了大致流程,看一个具体的规则来了解它是如何生效的。
1 在Sentinel获取资源的时候,会调用SlotChain,正常情况下会走到SystemSlot中进行处理。
2 SystemSlot,交给RuleManager检查资源是否满足条件。
SystemRuleManager.checkSystem(resourceWrapper);
3 规则校验,可以看到如果系统负载过高,则会抛出SystemBlockException异常,终止当前的请求处理。
主要代码在SystemRuleManager中
...
// load. BBR algorithm.
if (highestSystemLoadIsSet && getCurrentSystemAvgLoad() > highestSystemLoad) {
if (!checkBbr(currentThread)) {
throw new SystemBlockException(resourceWrapper.getName(), "load");
}
}
// cpu usage
if (highestCpuUsageIsSet && getCurrentCpuUsage() > highestCpuUsage) {
throw new SystemBlockException(resourceWrapper.getName(), "cpu");
}
其它:
- 系统状态通过SystemStatusListener进行更新,调度器每秒钟收集一次系统状态
- 通过SystemRuleManager.loadRules在加载规则
- 系统规则配置实体类为:SystemRule
流控QPS直接拒绝
Sentinel提供了多种流控方式,直接拒绝、Warm Up、匀速排队。对应 FlowRule
中的 controlBehavior
字段。
直接拒绝实现比较简单,通过看它的实现后续再弄明白更复杂的实现。与系统保护类似:
Request -> FlowSlot -> FlowRulechecker -> FlowRuleManager -> FlowRule -> ControlBehavior(TrafficShapingController) -> canPass
LeapArray分析
我们知道StatisticSlot是Sentinel的核心插槽之一,用于统计实时的数据,后续大部分限流降级的规则都是基于StatisticSlot统计的数据来进行检查。因此对于它是如何统计的,需要了解下。
Sentinel 底层采用高性能的滑动窗口数据结构
LeapArray
来统计实时的秒级指标数据
1 它有4个关键的属性。
- windowLengthInMs 每个窗口有多少毫秒
- sampleCount 窗口数量
- intervalInMs 要统计的间隔时长
- array 即统计的数据存放的地方
其关系如下:
2 计算当前的窗口位置,以及窗口开始时间。
- 获取当前的ms值
- 当前值除以windowLengthInMs,即窗口间隔,然后对sampleCount取余
3 当 当前时间窗口过期之后,将当前窗口的startTime指向新的窗口开始时间。
- 更新窗口startTime
- 重置窗口中存储的value,即上个窗口过期
4 滑动窗口只是用于计算窗口,而窗口中的数据存储结构用的是MetricBucket。其统计了6个维度的数据:
- 每个创建都会存储一个MetricBucket
- 每个MetricBucket可以统计如下数据
public enum MetricEvent {
/**
* Normal pass.
*/
PASS,
/**
* Normal block.
*/
BLOCK,
EXCEPTION,
SUCCESS,
RT,
/**
* Passed in future quota (pre-occupied, since 1.5.0).
*/
OCCUPIED_PASS
}
统计时机
我们知道数据统计入口在StatisticSlot中,那么以上指标分别在什么时候统计的呢?大致如下:
- 在entry时增加TheadNum, Pass,如果遇到异常则增加BlockQPS,遇到特殊异常会增加Exception数量
- 在exit时统计SUCCESS和RT
public class StatisticSlot extends AbstractLinkedProcessorSlot<DefaultNode> {
@Override
public void entry(Context context, ResourceWrapper resourceWrapper, DefaultNode node, int count,
boolean prioritized, Object... args) throws Throwable {
try {
// Do some checking.
fireEntry(context, resourceWrapper, node, count, prioritized, args);
// Request passed, add thread count and pass count.
node.increaseThreadNum();
node.addPassRequest(count);
...
} catch (BlockException e) {
// Blocked, set block exception to current entry.
context.getCurEntry().setError(e);
// Add block count.
node.increaseBlockQps(count);
throw e;
} catch (Throwable e) {
// Unexpected error, set error to current entry.
context.getCurEntry().setError(e);
// This should not happen.
node.increaseExceptionQps(count);
throw e;
}
}
@Override
public void exit(Context context, ResourceWrapper resourceWrapper, int count, Object... args) {
DefaultNode node = (DefaultNode)context.getCurNode();
// Record response time and success count.
node.addRtAndSuccess(rt, count);
node.decreaseThreadNum();
fireExit(context, resourceWrapper, count);
}
}
小结
这里主要是说了Sentinel的简单使用,以及执行过程中代码的大体流程,并未深究其数据结构。
代码设计上并不算很复杂,如果在使用的过程中遇到什么问题,点进去看一下大致也能解决。我觉得其核心的代码:
- StatisticSlot:多种维度的数据统计入口,在其中使用了LeapArray统计秒级指标数据。
- FlowSlot,DegradeSlot,AuthoritySlot,SystemSlot:熔断,限流降级逻辑判断的地方。如果想判断规则有没有生效,就到对应的类中Debug下。
- 流量控制算法:TrafficShapingController的实现类
更多内容参考:github.com/alibaba/Sen…