Web基础知识
Web协议通信原理
Web协议通信过程
- 浏览器本身是一个客户端,当输入URL后,首先浏览器会请求DNS服务器,通过DNS获取相应的域名对应的IP。
- 通过IP地址找到对应的服务器后,监理TCP连接。
- 等浏览器发送完HTTP Request(请求)请求后,服务器接收到请求包才会开始处理请求包。
- 服务器调用自身的服务,返回HTTP Response(响应)包。
- 客户端收到来自服务器的响应后开始渲染这个Response包的主体,等收到全部的内容后断开与服务器直接的TCP连接。
Web协议通信图解
Web服务器工作原理
- 客户端通过TCP/IP协议建立到服务器的TCP连接;
- 客户端向服务器发送HTTP协议请求包,请求服务器里的资源;
- 服务器向客户端发送HTTP协议应答包,如果请求的资源包含有动态语言的内容,那么服务器会调用动态语言的解析引擎负责处理动态内容,并将处理得到的数据返回给客户端;
- 客户端与服务器断开,由客户端解释HTML文档,在客户端屏幕上渲染图形结果;
客户端请求到达服务端流程
- 当客户端拿到服务端域名对应的IP后,浏览器会以一个随机端口(端口范围:1024<随机端口<65535)向服务器的web程序(nginx、apache)的80端口发起TCP连接请求;
- 该请求经过负载的网络环境后到达服务端,进入到服务器的对应网卡,再进入Linux内核的TCP/IP协议栈,一层一层的解开数据包,甚至经过防火墙,最终到达nginx程序,确认TCP/IP连接;
- 确认TCP连接之后,客户端继续发起HTTP请求,常见请求有:get、post请求方法。
TCP/IP和HTTP协议
TCP/IP协议
TCP(TCP,Transmission Control Protocol)协议是传输控制协议,是一种面向连接的、可靠的、基于字节流的传输层通信协议;TCP协议就是控制数据包再传输过程中的规范格式。
IP(Internet Protocol)就是网际互连协议,是TCP/IP体系中的网络层协议。
设计IP的目的是提高网络的可扩展性:
一是解决互联网问题,实现大规模、异构网络的互联互通;
二是分割顶层网络应用和底层网络技术直接的耦合关系,利于两者独立发展;
TCP/IP协议指的不仅仅是TCP和IP两个协议,TCP/IP协议是由FTP、SMTP、TCP、UDP、IP等各种协议组成的协议簇,只因为TCP和IP协议最具有代表性,因此称为TCP/IP协议
HTTP协议
简介
HTTP(Hyper Text Transfer Protocol)是超文本传输协议的缩写,主要用于服务器传输超文本到本地浏览器的传输协议。
超文本指的是HTML、css、JavaScript和图片等,HTTP的出现是为了接收和发布HTML页面,经过不断地发展也可以用于接收一些音频、视频、文件等内容。
HTTP的基本工作流程
- 客户端发送的一个HTTP请求,说明客户端想要访问的资源和请求的动作。
- 服务端收到请求之后,服务端开始处理请求,并根据请求做出响应的动作访问服务器资源。
- 最后通过发送HTTP响应把结果返回给客户端。
- 其中一个请求的开始到一个响应的结束称为事务,当一个事务结束后还会在服务端添加一条日志条目。
包含内容
请求模式、响应模式、报文、端口号、URL、特性、状态码、请求字段。
请求响应模式
HTTP是一个客户端和服务器端请求和应答的标准(客户端是终端用户,服务器端是网站)。
由HTTP客户端发起一个请求,创建一个到服务器指定端口(默认端口80)的TCP连接。HTTP服务器则在那个端口监听客户端的请求,一旦收到请求,服务器会向客户端防火一个状态,比如“ HTTP/1.1 200 OK ”,以及返回的内容,如请求的文件、错误消息、或其他信息。
请求响应报文
客户端发送一个HTTP请求到服务器的请求包含一下格式:请求行(Request Line)、请求头部(Header)、空行和请求数据。
具体格式如下:
HTTP协议的8中请求类型介绍
HTTP 协议中共定义了八种方法或者叫“动作”来表明对 Request-URI 指定的资源的不同操作方式。
- OPTIONS:返回服务器针对特定资源所支持的HTTP请求方法,也可以利用向web服务器发送“*”请求来测试服务器的功能性。
- HEAD:向服务器索要与GET请求一致的响应,只不过响应体不会被返回。
- GET:向特定的资源发出请求。
- POST:向指定资源提交数据进行处理请求。数据被包含在请求体中。POST请求可能会导致新资源的创建或已有资源的修改。
- PUT:向指定资源位置上传其最新内容。
- DELETE:请求服务器删除Request-URI所表示的资源。
- TRACE:回显服务器收到的请求,主要用于测试或诊断。
- CONNECT:HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。
虽然 HTTP 的请求方式有 8 种,但是我们在实际应用中常用的也就是 get 和 post,其他请求方式也都可以通过这两种方式间接的来实现。
状态码分类
HTTP状态码由三个十进制数字组成,第一个十进制数字定义了状态码的类型,后两个数字没有分类的作用。
分类 | 分类描述 |
---|---|
1** | 信息,服务器收到请求,需要请求者继续执行操作 |
2** | 成功,操作被成功接收并处理 |
3** | 重定向,需要进一步的操作完成请求 |
4** | 客户端错误,请求包含语法错误或无法完成请求 |
5** | 服务器错误,服务器在处理请求的过程中发生了错误 |
常见状态码
200:请求成功
301:资源(网页等)被永久转移到其他URL
302:资源(网页等)被临时转移到其他URL,以后客户端继续使用原URL
305:必须使用代理访问
400:语法错误,服务器无法理解
401:要求身份认证
403:拒绝,服务器理解需求但是拒绝执行
404:请求的资源(网页等)不存在
405:客户端请求中的方法被禁止
500:内部服务器错误
502:作为网关或者代理工作的服务器尝试执行请求时,从上游服务器接收到无效的响应
503:由于临时的服务器维护或者过载,服务器当前无法处理请求
504:作为网关或者代理工作的服务器尝试执行请求时,未能及时从上游服务器
URI简介
什么是URI?
URI(Uniform Resource Identifier)是统一资源标识符。
HTTP请求的内容通称为“资源”。每个资源都由一个URI进行表示。
而URL是统一资源定位符,他是URI的一种。
什么是URL?
URL(Uniform Resource Locator)是统一资源定位符,也称为网页网址。
URL的组成:
- 示例:http://www.example.com:80/path/to/myfile.html?key1=value1&key2=value2#SomewhereInTheDocument
- 协议:“http://”告诉浏览器使用什么协议访问。
- 主机:“www.example.com”即域名,域名分一级域名如:www.example.com;二级域名如:example.com;三级域名如:wang.ming.example.com。此处是二级域名。
- 端口:“80”主机使用的访问端口。
- 路径:“/path/to/myfile.html”是web服务器上资源的路径。
- 查询:“key1=value1&key2=value2”是提供给web服务器的额外参数,使用“&”作为分隔符分割键值对。
- 片段:“SomewhereInTheDocument”是资源本身的一部分的一个锚点。
OSI七层模型
TCP/IP的握手与挥手
抓包分析三次握手
图解三次握手流程
抓包分析四次挥手
套接字socket学习
Nginx简介
什么是Nginx
Nginx是一个高性能的web和反向代理服务器,也是一个IMAP/POP3/SMTP服务器。
Nginx支持高并发,内存占用小;
Nginx支持配置文件动态修改;
Nginx是如何工作的
Nginx进程
- nginx 在启动后,会以 daemon 的方式在后台运行,后台进程包含一个 master 进程和多个 worker 进程,worker 进程以非 root 用户运行,可以在配置文件中配置运行 worker 进程的用户。
- master 进程主要用来管理 worker 进程,包含:接收来自外界的信号,向各 worker 进程发送信号,监控 worker 进程的运行状态,当 worker 进程退出后(异常情况下),会自动重新启动新的 worker 进程。
- worker 进程则是处理基本的网络事件。多个 worker 进程之间是对等的,他们同等竞争来自客户端的请求,各进程相互之间是独立的。一个请求,只可能在一个 worker 进程中处理,一个 worker 进程,不可能处理其它进程的请求。
主进程
主进程(master process)的功能:
- 读取 Nginx 配置文件并验证其有效性和正确性
- 按照配置启动、管理和关闭工作进程
- 接受外界指令,比如重启、升级及关闭服务器等指令
- 不中断服务,实现平滑升级,重启服务并应用新的配置
- 开启日志文件
工作进程
工作进程(woker process)的功能:
- 接收处理客户端的请求
- 将请求以此送入各个功能模块进行处理
- IO 调用,获取响应数据
- 与后端服务器通信,接收后端服务器的处理结果
- 缓存数据,访问缓存索引,查询和调用缓存数据
- 发送请求结果,响应客户端的请求
- 接收主程序指令,比如重启、升级和退出等