HTTP协议详细介绍

http协议的由来

HTTP协议详细介绍

既然TCP/UDP是广泛使用的网络通信协议，那为啥有多出个http协议来呢？

笔者曾自己动手写过一个简单的web服务器处理软件，根据我的推断（不一定准确）。UDP协议具有不可靠性和不安全性，显然这很难满足web应用的需要。

而TCP协议是基于连接和三次握手的，虽然具有可靠性，但人具有一定的缺陷。但试想一下，普通的C/S架构软件，顶多上千个Client同时连接，而B/S架构的网站，十万人同时在线也是很平常的事儿。如果十万个客户端和服务器一直保持连接状态，那服务器如何满足承载呢？

这就衍生出了http协议。基于TCP的可靠性连接。通俗点说，就是在请求之后，服务器端立即关闭连接、释放资源。这样既保证了资源可用，也吸取了TCP的可靠性的优点。

正因为这点，所以大家通常说http协议是“无状态”的，也就是“服务器不知道你客户端干了啥”，其实很大程度上是基于性能考虑的。以至于后来有了session之类的玩意

什么是http协议

HTTP（HyperText Transport Protocol）是超文本传输协议
基于TCP/IP协议基础上的应用层协议，底层实现仍为socket
基于请求-响应模式：通信一定是从客户端开始，服务器端接收到客户端一定会做出对应响应
无状态：协议不对任何一次通信状态和任何数据做保存
无连接：一次连接只完成一次请求-响应，请求-响应完毕后会立即断开连接

http工作原理（事务）

一次http操作称之为一个事务，工作过程可分为四步

1.客户端与服务端建立连接
2.客户端发生一个http协议指定格式的请求
3.服务器端接收请求后，回应一个http协议指定格式的响应
4.客户端将服务器的响应显示展现给用户

状态码特点

1打头：消息通知
2打头：请求成功
3打头：重定向
4打头：客户端错误
5打头：服务器端错误

实战准备

在监视网络方面，windows平台上有一款叫做Sniffer的优秀软件，这也是很多“黑客”经常使用的嗅探工具。在研究http协议时，推荐大家使用一款

叫作httpwatch的工具。（遗憾的是，该工具是收费的。该咋办就咋办，你懂的）。安装完成后，可以在IE浏览器的tools中直接打开（目前也支持firefox）。如图所示

HTTP协议详细介绍

点击Record，就可以开始监视并记录http消息了。stop、Clear等等按钮的功能，这里就不一一介绍了。拿实例来说话，下面就是我记录访问main.aspx页面的时候记录的，能够清晰的看到http报文消息的详细信息，如图：

HTTP协议详细介绍

学习http协议，主要需要了解http的请求和响应（当然，还有get、post等请求方式，状态码、URI、MIME等）

HTTP请求协议

请求协议遵照以下格式

请求首行；        // 请求方式 请求路径 协议和版本，例如：GET /index.html HTTP/1.1
请求头信息；      // 请求头名称:请求头内容，即为key:value格式，例如：Host:localhost
空行；           // 用来与请求体分隔开
请求体。         // GET没有请求体，只有POST有请求体。

浏览器发送给服务器的内容就这个格式的，如果不是这个格式服务器将无法解读！在HTTP协议中，请求有很多请求方法，其中最为常用的就是GET和POST。

get请求

GET /562f25980001b1b106000338.jpg HTTP/1.1
Host    img.mukewang.com
User-Agent    Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36
Accept    image/webp,image/*,*/*;q=0.8
Referer    http://www.imooc.com/
Accept-Encoding    gzip, deflate, sdch
Accept-Language    zh-CN,zh;q=0.8

HTTP默认的请求方法就是GET
* 没有请求体
* 数据量有限制！
* GET请求数据会暴露在浏览器的地址栏中

GET请求常用的操作：
1. 在浏览器的地址栏中直接给出URL，那么就一定是GET请求
2. 点击页面上的超链接也一定是GET请求
3. 提交表单时，表单默认使用GET请求，但可以设置为POST

请求头

请求头（消息头）包含（客户机请求的服务器主机名，客户机的环境信息等）：

Accept：用于告诉服务器，客户机支持的数据类型  （例如：Accept:text/html,image/*）
Accept-Charset：用于告诉服务器，客户机采用的编码格式
Accept-Encoding：用于告诉服务器，客户机支持的数据压缩格式
Accept-Language：客户机语言环境
Host:客户机通过这个服务器，想访问的主机名
If-Modified-Since：客户机通过这个头告诉服务器，资源的缓存时间
Referer：客户机通过这个头告诉服务器，它（客户端）是从哪个资源来访问服务器的（防盗链）
User-Agent：客户机通过这个头告诉服务器，客户机的软件环境（操作系统，浏览器版本等）
Cookie：客户机通过这个头，将Coockie信息带给服务器
Connection：告诉服务器，请求完成后，是否保持连接
Date：告诉服务器，当前请求的时间
Content-Type：显示此HTTP请求提交的内容类型。一般只有post提交时才需要设置该属性
有关Content-Type属性值有如下两种编码类型：
（1）“application/x-www-form-urlencoded”： 表单数据向服务器提交时所采用的编码类型，默认的缺省值就是“application/x-www-form-urlencoded”。 然而，在向服务器发送大量的文本、包含非ASCII字符的文本或二进制数据时这种编码方式效率很低。
（2）“multipart/form-data”： 在文件上载时，所使用的编码类型应当是“multipart/form-data”，它既可以发送文本数据，也支持二进制数据上载。 当提交为表单数据时，可以使用“application/x-www-form-urlencoded”；当提交的是文件时，就需要使用“multipart/form-data”编码类型。

空行
实体内容：
就是指浏览器端通过http协议发送给服务器的实体数据。例如：name=dylan&id=110
（get请求时，通过url传给服务器的值。post请求时，通过表单发送给服务器的值）

post请求

POST / HTTP1.1
Host:www.wrox.com
User-Agent:Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)
Content-Type:application/x-www-form-urlencoded
Content-Length:40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

HTTP响应协议

响应格式

一般情况下，服务器接收并处理客户端发过来的请求后会返回一个HTTP的响应消息。

HTTP响应也由四个部分组成，分别是：状态行、消息报头、空行和响应正文。

HTTP协议详细介绍

http响应消息格式.jpg

例子

HTTP/1.1 200 OK
Date: Fri, 22 May 2009 06:07:21 GMT
Content-Type: text/html; charset=UTF-8

<html>
      <head></head>
      <body>
            <!--body goes here-->
      </body>
</html>

第一部分：状态行，由HTTP协议版本号，状态码，状态消息三部分组成。

第一行为状态行，（HTTP/1.1）表明HTTP版本为1.1版本，状态码为200，状态消息为（ok）

第二部分：消息报头，用来说明客户端要使用的一些附加信息

Location：这个头配合302状态吗，用于告诉客户端找谁
Server：服务器通过这个头，告诉浏览器服务器的类型
Content-Encoding：告诉浏览器，服务器的数据压缩格式
Content-Length：告诉浏览器，回送数据的长度
Content-Type：告诉浏览器，回送数据的类型
Last-Modified：告诉浏览器当前资源缓存时间
Refresh：告诉浏览器，隔多长时间刷新
Content-Disposition：告诉浏览器以下载的方式打开数据。例如： context.Response.AddHeader("Content-Disposition","attachment:filename=aa.jpg");                                        context.Response.WriteFile("aa.jpg");
Transfer-Encoding：告诉浏览器，传送数据的编码格式
ETag：缓存相关的头（可以做到实时更新）
Expries：告诉浏览器回送的资源缓存多长时间。如果是-1或者0，表示不缓存
Cache-Control：控制浏览器不要缓存数据   no-cache
Pragma：控制浏览器不要缓存数据          no-cache

Connection：响应完成后，是否断开连接。  close/Keep-Alive
Date：告诉浏览器，服务器响应时间

第三部分：空行，消息报头后面的空行是必须的

第四部分：响应正文，服务器返回给客户端的文本信息。

响应包含浏览器能够解析的静态内容，例如：html，纯文本，图片等等信息（例如空行后面的html部分为响应正文）

响应状态码

常见状态码：

200 OK                        //客户端请求成功
400 Bad Request               //客户端请求有语法错误，不能被服务器所理解
401 Unauthorized              //请求未经授权，这个状态代码必须和WWW-Authenticate报头域一起使用 
403 Forbidden                 //服务器收到请求，但是拒绝提供服务
404 Not Found                 //请求资源不存在，eg：输入了错误的URL
500 Internal Server Error     //服务器发生不可预期的错误
503 Server Unavailable        //服务器当前不能处理客户端的请求，一段时间后可能恢复正常

理解了以上的http请求消息和响应消息，相信你对于http协议已经理解得足够深刻了。关于http协议的更多具体细节，可以参照http RFC文档。

大致步骤就是：浏览器先向服务器发送请求，服务器接收到请求后，做相应的处理，然后封装好响应报文，再回送给浏览器。浏览器拿到响应报文后，再通过浏览器引擎去渲染网页，解析DOM树，javascript引擎解析并执行脚本操作，插件去干插件该干的事儿...关于浏览器渲染、解析的原理，可以参考http://kb.cnblogs.com/page/129756/

说白了，所谓web的本质，无非是：请求/处理/响应，任何的web服务器，任何的服务端编程语言，都没法脱离这个本质。而浏览器端解析html、图片等静态内容，呈现给用户，脚本引擎执行脚本代码，完成脚本代码要做的事儿（例如dom操作，css属性更改，发送ajax请求等等）

GET和POST请求的区别

简单来说：get请求是向浏览器要东西，post请求是向浏览器发东西。（简单粗暴）
GET请求

GET /books/?sex=man&name=Professional HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Connection: Keep-Alive

注意最后一行是空行
POST请求

POST / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

1、GET提交，请求的数据会附在URL之后（就是把数据放置在HTTP协议头中），以?分割URL和传输数据，多个参数用&连接；例如：login.action?name=hyddd&password=idontknow&verify=%E4%BD%A0 %E5%A5%BD。如果数据是英文字母/数字，原样发送，如果是空格，转换为+，如果是中文/其他字符，则直接把字符串用BASE64加密，得出如： %E4%BD%A0%E5%A5%BD，其中％XX中的XX为该符号以16进制表示的ASCII。

POST提交：把提交的数据放置在是HTTP包的包体中。上文示例中红色字体标明的就是实际的传输数据

因此，GET提交的数据会在地址栏中显示出来，而POST提交，地址栏不会改变。

2、传输数据的大小：首先声明：HTTP协议没有对传输的数据大小进行限制，HTTP协议规范也没有对URL长度进行限制。

而在实际开发中存在的限制主要有：

GET:特定浏览器和服务器对URL长度有限制，例如 IE对URL长度的限制是2083字节(2K+35)。对于其他浏览器，如Netscape、FireFox等，理论上没有长度限制，其限制取决于操作系统的支持。

因此对于GET提交时，传输数据就会受到URL长度的限制。

POST:由于不是通过URL传值，理论上数据不受限。但实际各个WEB服务器会规定对post提交数据大小进行限制，Apache、IIS6都有各自的配置。

GET和POST的区别

GET提交的数据会放在URL之后，以?分割URL和传输数据，参数之间以&相连，如EditPosts.aspx?name=test1&id=123456. POST方法是把提交的数据放在HTTP包的Body中.
GET提交的数据大小有限制（因为浏览器对URL的长度有限制），而POST方法提交的数据没有限制.
GET方式需要使用Request.QueryString来取得变量的值，而POST方式通过Request.Form来获取变量的值。
GET方式提交数据，会带来安全问题，比如一个登录页面，通过GET方式提交数据时，用户名和密码将出现在URL上，如果页面可以被缓存或者其他人可以访问这台机器，就可以从历史记录获得该用户的账号和密码

HTTP协议详细介绍

http协议的由来

什么是http协议

http工作原理（事务）

状态码特点

实战准备

HTTP请求协议

get请求

请求头

post请求

HTTP响应协议

响应格式

例子

第一部分：状态行，由HTTP协议版本号， 状态码， 状态消息 三部分组成。

第二部分：消息报头，用来说明客户端要使用的一些附加信息

第三部分：空行，消息报头后面的空行是必须的

第四部分：响应正文，服务器返回给客户端的文本信息。

响应状态码

GET和POST请求的区别

相关推荐

第一部分：状态行，由HTTP协议版本号，状态码，状态消息三部分组成。