平滑重启理论与代码实践

281 阅读5分钟

      平滑重启是应用持续发布上线不断服务的重要保障,其原理和网络模型是有紧密联系的,这里讨论在epoll网络模型下面是如何实现平滑重启的(实现方式不唯一)。

       后台服务首先会绑定某个特定端口(bind)比如web服务就是绑定80或443端口,然后进行监听(listen)。进程在监听端口时就是等待请求,请求来了就处理。但是为了更高效的处理请或在同时处理更多的请求,这时就需要epoll这种网络模型。由epoll进行统一管理,进程通过注册事件的方式来监听请求,当有请求来时epoll会通知进程去处理请求。

      实现上面的功能是通过下面三个函数:epoll_create() ,epoll_ctl和epoll_wait,通过这三个函数把特定进程注册到等待队列中,在有请求事件来时就会通知队列中的进程,然后进程被唤醒去处理请求(在没有事件来时 是会阻塞在epoll_wait这个方法,等待分配)。这里有个关键的点:就是进程是主动去通知说想接受请求的,然后被自身生成的描述符加入后备队列中,所以我们只要通知系统把描述符移除掉就不会再接收新的请求,这样只要处理完已经接收的请求就可以重启了。所以平滑重启的核心就在此。为了更好的理解,下面以c语言为例用代码实践下(代码分为服务端和客户端,直接拷贝就可以允许)(代码中的注释同时还解释了epoll事件模型,惊群问题等,值得细看,如果有问题 可以后面评论):


服务端代码:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <errno.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/epoll.h>
#include<time.h>
//次是为了验证 获取连接后 然后吧监听去掉,然后在返回处理结果 是否ok 主要是用于平滑重启
char* getDateTime();
 
#define MAX_FD_NUM 3
 
void setnonblock(int fd) {
    int flag = fcntl(fd, F_GETFL, 0);
    if (flag == -1) {
        printf("get fcntl flag %s\n", strerror(errno));
        return;
    }
    int ret = fcntl(fd, F_SETFL, flag | O_NONBLOCK);
    if (ret == -1) {
        printf("set fcntl non-blocking %s\n", strerror(errno));
        return;
    }
}

 //服务端进行端口的绑定和监听操作,并返回描述符
int socket_create(int port) {
    int fd = socket(AF_INET, SOCK_STREAM, 0);
    if (fd == -1) {
        printf("socket create %s\n", strerror(errno));
        return -1;
    }
    setnonblock(fd);
    struct sockaddr_in addr;
    memset(&addr, 0, sizeof(addr));
    addr.sin_family = AF_INET;
    addr.sin_port = htons(port);
    addr.sin_addr.s_addr = htonl(INADDR_ANY);
    if (bind(fd, (struct sockaddr *)&addr, sizeof(addr)) == -1) {
    printf("socket bind %s\n", strerror(errno));
        return -1;
    }
    if (listen(fd, 20) == -1) {
        printf("socket listen %s\n", strerror(errno));
        return -1;
    }
    return fd;
}
 
//使用epoll模型进行事件的添加和 移除已经获取等操作
void socket_accept(int fd) {
     //串讲描述符 用于标识--会加入后备队列
    int epfd = epoll_create(MAX_FD_NUM);
    if (epfd == -1) {
        printf("epoll create %s\n", strerror(errno));
        return;
    }
    struct epoll_event event, events[MAX_FD_NUM];
    memset(&event, 0, sizeof(event));
    event.data.fd = fd;
    event.events = EPOLLIN | EPOLLERR | EPOLLHUP;
   //增加事件,当有对当前端口请求时会当做事件。
    if (epoll_ctl(epfd, EPOLL_CTL_ADD, fd, &event) == -1) {
        printf("epoll ctl %s\n", strerror(errno));
        return;
    }
    printf("epoll_ctl is ok");
    char* nowtime = getDateTime();
    printf("%s\n", nowtime);
    int client_fd;
    while (1) {
        printf("epoll_wait is ok");
        nowtime = getDateTime();
        printf("%s\n", nowtime);
        //会停留在此 进行时间的等待,等待事件触发,然后进行处理请求
        //-1表示是一直等待。
        int num = epoll_wait(epfd, events, MAX_FD_NUM, -1);
        printf("epoll_wait is ok%d",num);
        nowtime = getDateTime();
        printf("%s\n", nowtime);
        if (num == -1) {
            printf("epoll wait %s\n", strerror(errno));
            break;
        } else {
            int i = 0;
            for (; i<num; ++i) {
            //返回的是所有就绪的,也就是请求的事件,由于epfd可以加入到多个fd中,
            //还有一点是 会有多个epfd加入同一个fd中,也会全部返回,这也是epoll惊群问题的由来
            //所以返回的事件是所有的,所以需要进行fd的区分, 由于一次会有多个需要循环处理,
           //处理完这些就可以结束了         
                 
                if (events[i].data.fd == fd) {
                    printf("epoll_wait is okk");
                    nowtime = getDateTime();
                    printf("%s\n", nowtime);
                    struct sockaddr_in client_addr;
                    memset(&client_addr, 0, sizeof(client_addr));
                    int len = sizeof(client_addr);
                //这里是接收请求,使用本地ip和端口和远端ip和端口四要素生成一条socket稳定连接
                    client_fd = accept(fd, (struct sockaddr *)&client_addr, &len);
                    if (client_fd == -1) {
                        printf("socket accept %s\n", strerror(errno));
                        return;
                    }
                    setnonblock(client_fd);
                    event.data.fd = client_fd;
                    event.events = EPOLLIN | EPOLLERR | EPOLLHUP;
                  //这里是正式的连接了,监听正式连接的请求,这种连接需要完全处理结束才能退出的。
                    if (epoll_ctl(epfd, EPOLL_CTL_ADD, client_fd, &event) == -1) {
                        printf("epoll ctl %s\n", strerror(errno));
                        return;
                    }

                    //在这里 把相应监听事件去掉
                   //这里是关键,这里把epfd移除了,不在监听事件了。只等处理完已有的就可以结束。                    if(epoll_ctl(epfd,EPOLL_CTL_DEL,fd,&event) == -1){
                        printf("epoll ctl del event is failed");
                    }else{
                        printf("epoll ctl del event is ok\n");
                    }

                    continue;
                } else if (events[i].events & EPOLLERR || events[i].events & EPOLLHUP) {
                    printf("epoll_wait is okkk");
                    nowtime = getDateTime();
                    printf("%s\n", nowtime);
                    printf("epoll err\n");
                    close(events[i].data.fd);
                    continue;
                } else {
                    char buf[64];
                    memset(buf, 0, sizeof(buf));
                    recv(events[i].data.fd, buf, sizeof(buf), 0);
                    printf("%s", buf);
                    printf("send is ok");
                    nowtime = getDateTime();
                    printf("%s\n", nowtime);
                    close(events[i].data.fd);
                    continue;
                }
            }
        }
    }
}
 
void server(port) {
    int fd = socket_create(port);
    if (fd == -1) {
        printf("socket create fd failed\n");
        return;
    }
    socket_accept(fd);
}
 
int main(int argc, char *argv[]) {
    int port = atoi(argv[1]);
    server(port);
    return 0;
}


char* getDateTime()
{
    static char nowtime[20];
    time_t rawtime;
    struct tm* ltime;
    time(&rawtime);
    ltime = localtime(&rawtime);
    strftime(nowtime, 20, "%Y-%m-%d %H:%M:%S", ltime);
    return nowtime;
}


客户端代码:

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <errno.h>
#include <sys/socket.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <unistd.h>
#include <fcntl.h>
 
int socket_connect(const char *ip, int port) {
    int fd = socket(AF_INET, SOCK_STREAM, 0);
    if (fd == -1) {
        printf("socket create %s\n", strerror(errno));
        return -1;
    }
    struct sockaddr_in addr;
    memset(&addr, 0, sizeof(addr));
    addr.sin_family = AF_INET;
    addr.sin_port = htons(port);
    addr.sin_addr.s_addr = inet_addr(ip);
   //与服务端创建连接
    if (connect(fd, (struct sockaddr *)&addr, sizeof(addr)) == -1) {
        printf("socket connect %s\n", strerror(errno));
        return -1;
    }
    return fd;
}
 
void socket_send(int fd) {
    char buf[64];
    memset(buf, 0, sizeof(buf));
    read(STDIN_FILENO, buf, sizeof(buf));
   //给已创建的连接发送数据
    send(fd, buf, strlen(buf), 0);
    printf("%%%%%%%%%%%%%%\n");
    close(fd);
}
 
void client(const char *ip, int port) {
    int fd = socket_connect(ip, port);
    if (fd == -1) {
        printf("client socket create failed\n");
        return;
    }
    socket_send(fd);
}
 
int main(int argc, char *argv[]) {
    if (argc < 3) {
        printf("give the error parameters\n");
        return 0;
    }
    const char *ip = argv[1];
    int port = atoi(argv[2]);
    client(ip, port);
    return 0;
}


运行代码:

gcc server.c -o sv

./sv 8080                 //在本机的8080端口进行监听,下图就是在接收client请求时的打印日志


gcc client.c -o ct

./ct 127.0.0.1 8080      //向127.0.0.1的8080端口发起请求。

(注意 为了验证 需要启动两个客户端进程,会发现一个 客户端请求时 服务端有输出,一个客户端请求时就没有反应了)。