详解：HTTP/HTTPS协议

HTTP协议

一.HTTP是什么

HTTP，全称超文本传输协议，是一种用于分布式、协作式、超媒体信息系统的应用层协议。HTTP往往是基于传输层TCP协议实现的，采用的一问一答的模式，即发一个请求，返回一个响应。

Q：什么是超文本？

A：文本就是HTML，css等，超文本更厉害，内容不仅有文本有的，还可以有图片视频音频等二级制数据。

Q：什么是应用层协议，什么是传输层协议？

TCP/IP协议是传输层协议，简单来说，这个协议只管传输，像是一个搬运工，不管对数据的加工和处理。而HTTP协议是应用层协议，其不关心内容是怎么传输的，只关心数据加工处理等操作。

二.HTTP协议格式

我们可以使用Fiddler等抓包工具来获取HTTP请求或响应的报文内容。

1.请求

下面是我们访问哔哩哔哩时的请求（太多展示不过来，删除了一部分，但不影响）：

首行由三部分组成：方法+url+协议版本

header：请求的属性，冒号分割的键值对；每组属性之间使用\n分隔；遇到空行表示header部分结束，即body和header中间是有一行空行的，上面也特意展示出了这个细节。

Body：空行后面的内容都是Body；Body允许为空字符串；如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度；body可以是空的。

2.响应

我们对服务器发起请求，服务器会给我们响应，紧接着上面的访问哔哩哔哩的例子：

首行由三部分组成：版本号+状态码+状态码解释。

Body：空行后面的内容都是Body；Body允许为空字符串；如果Body存在,则在header中会有⼀个 Content-Length属性来标识Body的长度；如果服务器返回一个html页面，那么html页面内容就是在body中；body可以是空的。

三.HTTP请求

下面对上面请求报文内容中出现内容进行介绍。

1.url介绍

首先介绍一下url是什么。

url，全称统一资源定位符，也就是大家所谓的网址。下面是url的常见结构：

协议名：这个协议不一定的http协议，还可以是其他协议；可以省略，省略默认是http。

登录信息：一般省略，现在网站进行身份认证一般不通过url进行。

服务器地址：服务器的ip地址或域名，两者可以通过DNS域名解析系统完成相互转换。

端口号：区分应用程序，可以省略。

带层次的文件路径：用于访问某个主机上某个程序管理的某些资源，可以省略。

查询字符串：对访问资源的补充说明，使用键值对结构，键值对之间使用&分隔.键和值之间使用=分隔；可以省略，省略后相当于/. 。

片段标识符：主要用于页面内跳转，可以省略。

从上面我们可以看到一些特殊字符在url中已经被使用了，如果我们还想使用这些字符的话就要进行转义了。

转义的规则如下:将需要转码的字符转为16进制，然后从右到左，取4位(不足4位直接处理)，每2位做一位，前面加上%，编码成%XY格式。

2.方法（method）

方法告诉服务器我们这次请求想要干什么。

方法	说明	支持的HTTP协议版本
GET	获取资源	1.0、1.1
POST	传输实体主体	1.0、1.1
PUT	传输文件	1.0、1.1
HEAD	获取报文首部	1.0、1.1
DELETE	删除服务器指定资源	1.0、1.1
OPTIONS	返回服务器所⽀持的请求⽅法	1.0
TRACE	回显服务器端收到的请求	1.0
CONNECT	要求用隧道协议连接代理	1.0
LINK	建立和资源之间的联系	1.0
UNLINK	断开连接关系	1.0

1）GET方法

使用的最多。首行的第一部分为GET；URL的查询字符串（query string）可以为空；body部分为空，如果需要GET给服务器发送一些数据，通过查询字符串传递过去。

2）POST方法

使用的比较少。首行的第一部分为POST；URL的查询字符串一般为空；body一般不为空。典型应用场景：登录和上传。

补充：GET和POST的区别：

两者没有本质区别，经常能够混用。从两个单词的语义可以得到GET的获取数据，而POST是提交数据；GET的body一般为空，需要传递的数据通过query string传递，POST的query string一般为空，需要传递的数据通过body传递；GET请求一般是幂等的，POST请求一般是不幂等的(如果多次请求得到的结果⼀样,就视为请求是幂等的)；GET可以被缓存，POST不能被缓存。

3.报头（header）

header中使用了键值对结构，下面是报头种类：

1）Host：表示服务器主机的地址和端口；

2）Content-Length：表示body中的数据长度；

3）Content-Type：表示请求的body中的数据格式；

4）User-Agent：表示浏览器/操作系统的属性；

5）Referer：表示这个页面是从哪个页面跳转过来的；

6）Cookie：

Cookie是浏览器运行网页在本地硬盘存储数据的一种机制，这个数据可能是客户端（网页）自行通过JS写入的，也可能来自于服务器（服务器在HTTP响应的header中通过Set-Cookie字段给浏览器返回数据）（反正是程序员自行定义的），Cookie是按照键值对的方式来存储数据的，Cookie是按照域名维度来组织的。

每个不同的域名下都可以有不同的Cookie，不同网站之间的Cookie并不冲突。

浏览器保存了Cookie后，在后续给服务器发送请求的时候就会把这些Cookie键值对放到请求的header中传给服务器。一个典型的应用场景是登录认证，为什么不用每次来CSDN都要重新输入一遍账号密码，答案就在这。

四.状态码

用来表示访问一个页面的结果。下面是一些常见的状态码：

状态码	状态码解释	介绍
200	OK	表示访问成功
404	Not Found	没有找到资源
403	Forbidden	访问被拒绝，比如一些需要权限的页面
405	Method Not Allowed	不支持所有方法
500	Internal Server Error	服务器出现内部错误
504	Gateway Timeout	请求超时
302	Move temporarily	临时重定向
301	Moved Permanently	永久重定向

总结：

	类别	原因
1XX	informational（信息性状态码）	接收的请求正在处理
2XX	Success（成功状态码）	请求正常处理完毕
3XX	Redirection（重定向状态码）	需要进行附加操作以完成请求
4XX	Client Error（客户端错误状态码）	服务器无法处理请求
5XX	Server Error（服务器错误状态码）	服务器处理请求出错