Web和HTTP
一个新型应用即万维网(World Wide Web)Web。
HTTP概况
Web的应用层协议是超文本传输协议(HTTP),它是Web的核心。
HTTP由两个程序实现:一个用户程序和一个服务器程序。
Web页面(Web Page)(也叫文档)是由对象组成的。
一个对象只是一个文件,诸如一个HTML文件、一个JPG图形等等。
并且它们可以通过一个URL地址寻址。
多数Web页面含有一个HTML基本文件以及几个引用对象。
每个URL地址由两部分组成:存放对象的服务器主机名和对象的路径名。
例如,URL地址:http://www.someSchool.edu/someDepartment/picture.gif,其中的www.someSchool.edu就是主机名,/somDepartment/picture.gif就是路径名。
因为Web浏览器实现了HTTP的客户端,Web服务器实现了HTTP的服务器端,用于存储Web对象。
HTTP定义了Web客户向Web服务器请求Web页面的方式,以及服务器向客户发送Web页面的方式。
HTTP使用TCP作为它的支撑运输协议(而不是在UDP上运行)。
客户端的套接字接口是客户进程与TCP连接之间的门,在服务器端的套接字接口则是服务器进程与TCP连接之间的门。
客户向它的套接字接口发送HTTP请求报文并从套接字接口接受HTTP响应报文。
服务器也同理。
因此HTTP协议不用担心数据丢失,也不关注TCP从网络的数据丢失和乱序故障中恢复的细节,那是TCP的工作。
HTTP也是一个无状态协议,因为HTTP服务器并不保存关于客户的任何信息,因此某个客户短短几秒内两次请求同一个对象,服务器不会因为刚刚为客户端提供了一次对象就不做出反应了,而是重新发送对象。
非持续连接和持续连接
持续连接:所有的请求/响应对是经过一个相同的、单独的TCP连接发送。
非持续连接:每个请求/响应对分别有一个不同于其它的、单独的TCP连接发送,并且在完成一次请求/响应后,会关闭该TCP连接。
HTTP默认方式下使用持续连接,但是也可以配置成为非持续连接。
采用非持续链接的HTTP
1.HTTP客户进程在端口号80发起一个到服务器www.someSchool.edu的TCP连接。
该端口号是HTTP的默认端口。
2.HTTP客户经它的套接字向该服务器发送一个HTTP请求报文。(报文中包含了路径名/someDepartment/home.index)
3.HTTP服务器进程经它的套接字接受请求报文,并从存储器(RAM或磁盘)中检索出对象(home.index),随后在一个HTTP响应报文中封装对象,并通过其套接字向客户端发送响应报文。
4.HTTP服务器进程通知TCP断开该TCP连接,但是实际到客户端接收到响应报文后,该TCP连接才会关闭。
5.HTTP客户接受响应报文,TCP连接关闭。
6.对每个引用的JPEG图形对象重复前四个步骤。
往返时间的定义(RTT):
该时间是指一个短分组从客户端到服务器端再到客户端的时间。
RTT包括:分组传播时延、分组在中间路由器和交换机上的排队时延、处理时延。
采用持续连接的HTTP
在持续连接下,服务器在发送响应报文后保持TCP连接的打开。
在后续相同的客户与服务器之间,后续的请求和响应报文可以继续在该TCP连接中进行。
如果一条连接经过一定时间间隔仍未被使用,HTTP服务器会被关闭该TCP连接。
HTTP报文格式
HTTP报文有两种:
请求报文和响应报文
HTTP请求报文
HTTP请求报文的第一行叫请求行,其后继的所有行都被称为首部行。
请求行有三个字段:方法字段、URL字段、HTTP协议版本字段。
方法字段可以取不同的值,包括GET、POST、HEAD、PUT、DELETE
绝大部分的HTTP请求报文使用GET方法。
意思是请求一个对象。
下面是一个请求报文的通用格式:
此处的实体体(entity body)在POST方法时会用到该实体,在GET中用不到。
当用户提交表单时,HTTP客户常常使用POST方法。
当然,用户提交表单的时候也可以不用POST方法,转用GET方法,此时的表单字段中所请求的URL中包括了输入的数据。
例如:一个表单使用GET方法,它有两个字段:“monkeys”和“bananas”这样,该URL结构为:
www.somsites.com/animalsearch? monkey&bananas
HEAD方法类似于GET方法,使用HEAD方法,服务器仅仅返回一个HTTP报文进行响应,并不返回请求对象,因此常常被程序开发者用来测试跟踪。
PUT方法常常与Web发行工具联合使用,它允许用户上传对象到指定的Web服务器上的指定目录。
DELETE方法允许用户删除Web服务器指定对象。
HTTP响应报文
下面是一个典型的HTTP响应报文。
它包含了三个部分:
初始状态行、首部行、实体体。
实体体在响应报文中是主要组成部分,即它包含了所请求的对象本身。
Connetction : clost代表发送报文后将关闭TCP连接。
下面是一个HTTP响应报文的通用格式。
下面是常见的状态码和短语。
用户与服务器的交互:cookie
cookie用来让web服务器识别到用户身份。
cookie技术有四个组件:
1.在HTTP响应报文中的一个cookie首部行。
2.在HTTP请求报文中的一个cookie首部行。
3.在用户端系统中保留一个cookie文件,由浏览器管理。
4.位于Web站点的一个后端数据库中。
下图是一个cookie工作过程。
Web缓存
Web缓存器也叫代理服务器。
Web缓存器有自己的磁盘存储空间。
在请求对象经过Web缓存器一般是以下情况:
1.浏览器创建一个到Web缓存器的TCP连接,并且向该Web缓存器发送一个HTTP请求。
2.Web缓存器进行检查,如果有浏览器所请求的对象,那么直接返回,否则Web缓存器建立一个到Web服务器的TCP连接,并且向Web服务器发送一个HTTP请求。
3.Web服务器接收到HTTP请求,向Web缓存器发送响应报文,并且关闭TCP连接。
4.Web缓存器接收到响应报文,并把其中的对象保存到本地磁盘中,随后将对象发送给浏览器,并且关闭TCP连接。
值得注意的是,Web缓存器既是客户又是服务器。
下面我们通过一个例子来加深对于Web缓存器设立的必要性,以及好处
我们假设对象的平均长度为1Mb,浏览器每秒发送15个请求,在因特哇那个接入链路一侧的路由器转发HTTP请求报文开始,到它接收响应报文我们硬性规定为2s。
此时局域网上的流量强度为:
接入链路上的流量强度为:
流量强度接近1,链路上的时延就会变得非常大并且无穷大的增长。
为此有两个解决方法:
1.更换更快的接入链路,但是成本非常昂贵。
2.使用Web缓存器,我们下面讨论使用Web缓存器。
假设缓存器满足请求的比率为0.4。
则40%的请求会立即被缓存器返回,只剩下60%的请求会经过15Mbps接入链路。
流量强度为:
1 × 0.6 = 0.6
则平均时延为:
约等于1.2秒。
可以看到使用缓存器的时延大大降低,并且成本相较于换链路非常低!
条件GET方法
存放在缓存器中的对象副本可能是陈旧,为此HTTP有一种机制,允许缓存器证实它的对象是最新的。
这种机制就是条件GET方法。
下面是一个简单的请求报文:
这是一个返回的响应报文:
此时条件方法报文:
If-modified-since用来确定在Web缓存器修改对象的最后时间是否与Web服务器修改对象的最后时间是否一致,如果一致则Web缓存器直接返回对象。否则,Web缓存器先从Web服务器接收最新的对象,再返回给Web浏览器。
因特网中的电子邮件
因特网电子邮件系统主要有三个组成部分:
用户代理、邮件服务器、简单邮件传输协议(SMTP)
SMTP协议
SMTP是电子邮件在应用层的协议,它依靠于TCP进行传输。
因此可以说:
SMTP一般不使用中间邮件服务器发送邮件,即使这两个邮件服务器位于地球的两端也是这样。
TCP连接可以是跨越很大的地理位置,并且建立TCP连接。
特别,如果Bob的邮件服务器没有开机,该报文会保留在Alice的邮件服务器上等待并进行新的尝试,这意味着邮件并不在中间的某个邮件服务器存留。
与HTTP的对比
HTTP主要是一个拉协议(pull protocol)
即主要是从服务器拉取信息
SMTP主要是一个推协议(push protocol)
即主要是向服务器推送信息
邮件访问协议
SMTP并不能使Bob从邮件服务器中拉取信息,因为SMTP是一个推协议。
因此人们发明了邮件访问协议,目前比较流行的访问协议:
1.第三版的邮局协议(POP3)
2.因特网的邮件访问协议(IMAP)
3.HTTP
POP3
POP3是一个极为简单的邮件访问协议,功能相当有限。
主要有三个阶段进行工作:
特许、事务处理以及更新
IMAP
基于Web的电子邮件
在这种服务中,用户代理就是普通的浏览器,用户和他远程邮箱之间的通信则通过HTTP进行。
当发件人(Alice)要发送一封电子邮件报文时,该电子邮件报文从Alice的浏览器发送到她的邮件服务器,使用的是HTTP而不是SMTP。
然后Alice的邮件服务器在与其他的邮件服务器之间发送和接收时,仍然使用的是SMTP。