Kubernetes 网络排错指南

本文介绍各种常见的网络问题以及排错方法，包括 Pod 访问异常、Service 访问异常以及网络安全策略异常等。

说到 Kubernetes 的网络，其实无非就是以下三种情况之一

当然，以上每种情况还都分别包括本地访问和跨主机访问两种场景，并且一般情况下都是通过 Service 间接访问 Pod。

排查网络问题基本上也是从这几种情况出发，定位出具体的网络异常点，再进而寻找解决方法。网络异常可能的原因比较多，常见的有

kubenet 要求网络中有 podCIDR 到主机 IP 地址的路由，这些路由如果没有正确配置会导致 Pod 网络通信等问题
在公有云平台上，kube-controller-manager 会自动为所有 Node 配置路由，但如果配置不当（如认证授权失败、超出配额等），也有可能导致无法配置路由

Flannel Pod 一直处于 Init:CrashLoopBackOff

Flannel 网络插件非常容易部署，只要一条命令即可。然而，部署完成后，Flannel Pod 有可能会碰到初始化失败的错误：

查看日志会发现

这一般是由于 SELinux 开启导致的，关闭 SELinux 既可解决。有两种方法：

Pod 内无法解析 DNS

如果 Node 上安装的 Docker 版本大于 1.12，那么 Docker 会把默认的 iptables FORWARD 策略改为 DROP。这会引发 Pod 网络访问的问题。解决方法则在每个 Node 上面运行 iptables -P FORWARD ACCEPT，比如

如果使用了 flannel/weave 网络插件，更新为最新版本也可以解决这个问题。

DNS 无法解析也有可能是 kube-dns 服务异常导致的，可以通过下面的命令来检查 kube-dns 是否处于正常运行状态

如果 kube-dns 处于 CrashLoopBackOff 状态，那么需要查看 kube-dns Pod 的日志，根据日志来修复 DNS 服务。

如果 kube-dns Pod 处于正常 Running 状态，则需要进一步检查是否正确配置了 kube-dns 服务：

如果 kube-dns service 不存在，或者 endpoints 列表为空，则说明 kube-dns service 配置错误，可以重新部署 kube-dns service。

Service 无法通过 ClusterIP 访问

kubectl get endpoints <service-name>

如果该列表为空，则有可能是该 Service 的 LabelSelector 配置错误，可以用下面的方法确认

如果 Endpoints 正常，可以进一步检查

再进一步，即使上述配置都正确无误，还有其他的原因会导致 Service 无法访问，比如

Pod 无法通过 Service 访问自己

对于 hairpin-veth 模式，可以通过以下命令来确认是否生效

而对于 promiscuous-bridge 模式，可以通过以下命令来确认是否生效

无法访问 Kubernetes API

如果出现超时错误，则需要进一步确认名为 kubernetes 的服务以及 endpoints 列表是正常的：

然后可以直接访问 endpoints 查看 kube-apiserver 是否可以正常访问。无法访问时通常说明 kube-apiserver 未正常启动，或者有防火墙规则阻止了访问。

但如果出现了 403 - Forbidden 错误，则说明 Kubernetes 集群开启了访问授权控制（如 RBAC），此时就需要给 Pod 所用的 ServiceAccount 创建角色和角色绑定授权访问所需要的资源。