在应用层中,协议一般是程序员定制的,但现在已经有了许多非常好用的协议,我们可以直接参考使用。其中http和https便是其中最常用的协议之一。
一.HTTP
超文本传输协议(Hypertext Transfer Protocol,HTTP)是一个简单的请求-响应协议,它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。我们学习http协议,就要先了解这个协议请求与响应的格式。
1.1 URL
URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,俗称网址。
我们访问互联网上的资源,即访问对应服务器上的一些资源。首先就必须要知道该服务器的ip地址和端口号,以及该服务上资源的具体位置。这些信息被组织在一起形成URL,于是我们就可以通过URL来访问目标服务器上的唯一资源。
URL通常是有协议名,域名,端口号,文件路径,查询参数构成。
- 协议名:通常是http/https,但由于http不安全,现在基本都是https
- 域名:由域名解析系统最终会转换为ip地址
- 端口号:http默认端口号为80,https为443,由浏览器自动指定
- 文件路径:以/开始,这个/代表web根目录,以当前服务器的工作路径为基础
- 查询参数:查询参数与文件路径通过?分割,参数之间通过&分割。kv结构
urlencode与urldecode:
由于url中有一些特殊字符,比如:& 汉字等,这些字符如果出现在查询参数中,浏览器会自动对其进行转换。反之,服务器会对url的转移字符进行解码获得实际字符。
* 将需要转码的字符转为16进制,然后从右到左,取4位(不足4位直接处理),每2位做一位,前面加上%,编码成%XY 格式
1.2 http请求
- 请求行:由三部分组成,以空格为分割,以\r\n为结尾,以区分请求行与请求报头
- 请求报头:由若干行kv结构组成
- 空行:用于区分http请求报头与有效载荷,以行为单位读取,读到空行表示报头读取结束
- 有效载荷:防止用户提交的参数,可以没有
1.2.1 请求方法
- POST: 通过正文部分提交参数等。html中,浏览器会根据表单(form)中的属性,封装不同请求方法的请求报文,将用户信息提交到服务端。
- GET:获取静态网页和通过URL的方式提交参数。
- GET方法提交参数不私密,POST提交参数私密一些,所有的登录注册支付都要使用POST方法提参。它们两个不是安全的,可以使用fiddler进行抓取浏览器请求
1.3 http响应
- 状态行:由三部分组成,以空格为分割,以\r\n为结尾,以区分状态行与响应报头
- 响应报头:由若干行kv结构组成
- 空行:用于区分http响应报头与有效载荷,以行为单位读取,读到空行表示报头读取结束
- 有效载荷:携带用户请求的资源
1.3.1 http状态码
- 3XX:永久性重定向-更改浏览器的本地书签,临时重定向-不更改浏览器的地址信息
- 302:临时重定向
- 307:临时重定向,使用get提交
- 301:永久重定向
- 4XX:404-Not Found ,403-forbidden
- 5XX:504-Bad Gateway
应用场景:
- 当你进入一个网页时,会自动跳转到另一个网页,这就是临时重定向
1.3.2 请求报头与响应报头属性:
- Host:x.x.x.x:port 主机ip+port
- Connection: keep-alive 长链接
- 在http/1.0中一个网页中可能包含许多不同资源,每个资源就会发起一次tcp连接,但这样效率太低,因此在http/1.1中只需要建立一次tcp连接,就可以将所有http请求发送到服务端。
- user-agent:xxxxx 浏览器字段
- Content-Length: xxx 有效载荷长度,防止粘包问题
- Content-Type:xxx 有效载荷中的资源类型,如何解释
- 在百度中搜索Content-Type对照表,可以查看各种资源的类型
- Location:xxxx 配合重定向使用
- referer:当前网页是从哪个网页跳转的
- Set-Cookie:xxxx
1.4 http的会话保持功能
http是无状态的!它只用来进行超文本传输。但是用户需要保持以前的状态,便于提高用户体验,所以http就要将用户是否在线要持续的记录下来,这就是http的会话保持。http的会话保持是通过cookie和session实现的。
客户端根据服务端发来的Set_Cookie信息,将cookie保存到本地文件/内存中。但这种方式有安全问题,当电脑被植入了木马病毒时,此时本地的cookie将会被黑客拿到,此时你的账号就会被盗用。现在用的是在服务端形成session对象(内存/文件),给客户端返回一个session id,用户再次访问服务端,将session_id提交到服务端,此时服务端根据session_id+ip进行用户身份核验。这个session_id是用特定算法形成的唯一值。
此时cookie信息保存在服务端,而不是客户端,一定程度上保证了用户信息的安全。如果黑客盗取了cookie的信息session id ,但是两次登录的ip地址不一样,就会识别到异常登录,释放session对象。
二.HTTPS
HTTPS (全称:Hypertext Transfer Protocol Secure),是以安全为目标的 HTTP 通道,在HTTP的基础上通过传输加密和身份认证保证了传输过程的安全性 。HTTPS 在HTTP 的基础下加入SSL,HTTPS 的安全基础是 SSL,因此加密的详细内容就需要 SSL。 HTTPS 存在不同于 HTTP 的默认端口及一个加密/身份验证层(在 HTTP与 TCP 之间)。这个系统提供了身份验证与加密通讯方法。它被广泛用于万维网上安全敏感的通讯,例如交易支付等方面 。
- HTTP不管是用GET还是POST方法,它们都是不安全的,因为它们传输的数据是明文传送的。而HTTPS是基于HTTP在应用层添加一层SSL/TLS软件层,这层是用来HTTP握手协商,加密解密的。
2.1 加密&解密
- 加密:将明文数据经过变化,生成密文
- 解密:将密文数据经过变化,还原为明文
- 密钥:辅助进行加密解密的数据
2.2 对称加密和非对称加密
2.2.1 对称加密
通过一个密钥加密和解密,这样的加密方式就是对称加密算法。
- 特点:速度快,但安全性较低
2.2.2 非对称加密
非对称加密有两个密钥,公开的是公钥,不公开的是私钥。用公钥加密,只能用私钥解密。
- 特点:速度较慢 ,但安全性较高
2.2.3 数据摘要 和 数据指纹
将一串文本经过hash算法后,形成固定大小的字符串,这个字符串具有很强的唯一性。这个字符串就是数据摘要,数据指纹。对数据摘要加密就得到了数字签名。
- 可以通过数据摘要判断原始文本是否被篡改
- 常见的摘要算法:MD5,SHA1,SHA512等
2.3 客户端与服务器的密钥协商
在客户端与服务器通信之前,他们需要先交换对应的密钥信息,用来后续的加密通信,保证双方通信的数据安全。服务器将自己的公钥发送给客户端,客户端经过CA证书验证该公钥的合法性,然后客户端用该公钥加密自己对称密钥,将自己的对象密钥发送给服务器,然后服务器用私钥解密得到对称密钥,以后客户端与服务器之间传输数据用对称密钥加密,这样既能保证效率,也能一定程度上保证了数据安全。
2.4 CA证书
服务器在使用HTTPS前,需要向CA机构申请一份数字证书,数字证书里面包含了证书加密信息、公钥信息等。CA证书证明了该公钥的合法性。如果没有CA证书,那么中间人便有可能替换服务器的公钥,那么客户端与服务器的数据明文信息都会被中间人所得知。
2.4.1 CA机构签名过程
2.4.2 客户端验证CA合法性过程
- 客户端收到CA证书后,将签名与数据分开,然后对数据进行相同的Hash散列形成数据摘要,对数字签名做CA公钥解密获得之前用CA私钥加密前的数据摘要,然后客户端判断这两个数据摘要是否相同,如果不同,说明这份证书不可信,直接丢弃,从而验证了公钥的合法性。
- 中间人不可能整体替换证书,因为他没有CA私钥,制造的数字签名浏览器无法用CA公钥解密,因此这个证书也会失效。