【面试】Web 页面请求历程

2,364 阅读7分钟

这个问题应该是网络知识最综合的一个考察,因为涉及到的知识实在太多了,如果面试官对每一个细节都问的话,应该可以把网络知识问的差不多

我查阅资料总结大概有两种表述

简单过程

说简单也不是简单,就是从表面看是主要发生了哪几步

  • DNS 解析
  • TCP 连接
  • 发送 HTTP 请求
  • 服务器处理请求并返回 HTTP 报文
  • 浏览器解析渲染页面
  • 连接结束

具体过程如下:

DNS 解析

通俗来将,就是寻找哪台服务器上有你想要请求的资源。比如当你在浏览器中输入 www.google.com 时,这其实不是真正意义上谷歌的地址。互联网上每一台机器的唯一标识是它的IP 地址,但是 IP 地址不方便记忆,所以用户更喜欢使用上面提到的网址来和互联网中其他计算机进行信息交互,那么将网址转化为实际 IP 地址的过程就是 DNS 解析。实际上充当一个翻译的角色,实现网址到 IP 地址的转换

解析过程

DNS 解析是一个递归查询的过程,通过下图来直观理解:

这就是一个查找 www.google.com 的 IP 地址的过程。首先在本地域名中查找 IP 地址,如果没有找到,本地域名会向根域名发送一个请求,如果根域名服务器也不存在该域名时,本地域名会向 com 顶级域名服务器发送一个请求,依次类推下去。直到最后本地域名服务器得到 google 的 IP 地址并把它缓存到本地,供下次使用。从上述过程中可以看出网址解析的过程是一个从左到右的过程:com-google.com-www.google.com,但是这样的话根域名服务器的解析呢?实际上真正的网址是 www.google.com.,这里并不是多打了个 . 而是这代表根域名服务器,实际上所有的网址后面都会有这个,因为都有,所以就默认为了方便将这个省去,但是浏览器在请求 DNS 时候会自动加上

DNS 优化

图中在 DNS 的请求过程中大概经历了 8 个步骤,这个过程中存在多个请求,如果每次请求都是经历这么多步骤,是否太耗时间,计算机通过 DNS 缓存来减少该过程的步骤

DNS 存在多级缓存,从离浏览器的距离来说,有以下几种:浏览器缓存、系统缓存、路由器缓存、IPS 服务器缓存、根域名缓存、顶级域名服务器缓存、主域名服务器缓存

DNS 负载均衡

实际上 DNS 每次返回的 IP 地址不是固定的,DNS 会返回一个合适机器的 IP 给用户,例如可以根据每台机器的负载量、该机器离用户地理位置的距离等等,这就涉及到 DNS 的负载均衡,又叫 DNS 重定向。

TCP 连接

这个过程也是面试常考的过程,具体可以查看我上一篇文章【面试】彻底理解 TCP 及面试常问

浏览器发送 HTTP 请求

一个http请求报文由请求行 request-line 、请求头部 headers、空行 blank-line 和请求数据 request-body 4个部分组成

后面的过程就是涉及到前端的知识,这里不详细讨论,主要关注点还是下面的后台涉及到的协议细节。

详细过程

1. DHCP 配置主机信息

  • 假设主机最开始没有 IP 地址以及其他信息,那么就需要先使用 DHCP 来获取
  • 主机生成一个 DHCP 请求报文,并将这个报文放入具有目的端口 67 和源端口 68 的 UDP 报文段中
  • 该报文段则被放入一个具有广播 IP 目的地址(255.255.255.255) 和源 IP 地址(0.0.0.0)的 IP 数据报中,因为这个时候主机还不具有一个 IP 地址
  • 该请求报文的 IP 数据报会被放置在以太网帧中,该以太网帧具有目的 MAC 地址 FF:FF:FF:FF:FF:FF,该帧将广播到与交换机连接的所有设备
  • 连接在交换机的 DHCP 服务器收到广播帧之后,不断地向上分解得到 IP 数据报、UDP 报文段、DHCP 请求报文,之后生成 DHCP ACK 报文,该报文包含以下信息:IP 地址、DNS 服务器的 IP 地址、默认网关路由器的 IP 地址和子网掩码。该报文被放入 UDP 报文段中,UDP 报文段有被放入 IP 数据报中,最后放入 MAC 帧中
  • 该帧的目的地址是请求主机的 MAC 地址,因为交换机具有自学习能力,之前主机发送了广播帧之后就记录了 MAC 地址到其转发接口的交换表项,因此现在交换机就可以直接知道应该向哪个接口发送该帧
  • 主机收到该帧后,不断分解得到 DHCP 报文。之后就配置它的 IP 地址、子网掩码和 DNS 服务器的 IP 地址,并在其 IP 转发表中安装默认网关

2. ARP 解析 MAC 地址

  • 主机通过浏览器生成一个 TCP 套接字,套接字向 HTTP 服务器发送 HTTP 请求。为了生成该套接字,主机需要知道网站的域名对应的 IP 地址。
  • 主机生成一个 DNS 查询报文,该报文具有 53 号端口,因为 DNS 服务器的端口号是 53。
  • 该 DNS 查询报文被放入目的地址为 DNS 服务器 IP 地址的 IP 数据报中。
  • 该 IP 数据报被放入一个以太网帧中,该帧将发送到网关路由器。
  • DHCP 过程只知道网关路由器的 IP 地址,为了获取网关路由器的 MAC 地址,需要使用 ARP 协议。
  • 主机生成一个包含目的地址为网关路由器 IP 地址的 ARP 查询报文,将该 ARP 查询报文放入一个具有广播目的地址(FF:FF:FF:FF:FF:FF)的以太网帧中,并向交换机发送该以太网帧,交换机将该帧转发给所有的连接设备,包括网关路由器。
  • 网关路由器接收到该帧后,不断向上分解得到 ARP 报文,发现其中的 IP 地址与其接口的 IP 地址匹配,因此就发送一个 ARP 回答报文,包含了它的 MAC 地址,发回给主机

3. DNS 解析域名

  • 知道了网关路由器的 MAC 地址之后,就可以继续 DNS 的解析过程了。
  • 网关路由器接收到包含 DNS 查询报文的以太网帧后,抽取出 IP 数据报,并根据转发表决定该 IP 数据报应该转发的路由器。
  • 因为路由器具有内部网关协议(RIP、OSPF)和外部网关协议(BGP)这两种路由选择协议,因此路由表中已经配置了网关路由器到达 DNS 服务器的路由表项。
  • 到达 DNS 服务器之后,DNS 服务器抽取出 DNS 查询报文,并在 DNS 数据库中查找待解析的域名。
  • 找到 DNS 记录之后,发送 DNS 回答报文,将该回答报文放入 UDP 报文段中,然后放入 IP 数据报中,通过路由器反向转发回网关路由器,并经过以太网交换机到达主机。

4. HTTP 请求页面

  • 有了 HTTP 服务器的 IP 地址之后,主机就能够生成 TCP 套接字,该套接字将用于向 Web 服务器发送 HTTP GET 报文。
  • 在生成 TCP 套接字之前,必须先与 HTTP 服务器进行三次握手来建立连接。生成一个具有目的端口 80 的 TCP SYN 报文段,并向 HTTP 服务器发送该报文段。
  • HTTP 服务器收到该报文段之后,生成 TCP SYN ACK 报文段,发回给主机。
  • 连接建立之后,浏览器生成 HTTP GET 报文,并交付给 HTTP 服务器。
  • HTTP 服务器从 TCP 套接字读取 HTTP GET 报文,生成一个 HTTP 响应报文,将 Web 页面内容放入报文主体中,发回给主机。
  • 浏览器收到 HTTP 响应报文后,抽取出 Web 页面内容,之后进行渲染,显示 Web 页面。

参考

前端经典面试题:从输入 URL 到页面加载发生了什么?

web-页面请求过程

计算机网络-自顶向下方法