11 Jun 18 复习,HTTP

11 Jun 18 复习 HTTP

http://www.cnblogs.com/linhaifeng/articles/8243379.html

  1. 爬虫最常用的三个头部字段

User_Agent::用户代理

Cookie:之前的登陆信息,凭证

Referer:从哪跳转来的

  1. HTTP中最基本的四个方法GET, POST, PUT, DELETE对应着对一个资源的查,改,增,删四个操作
  1. 状态码:由三位数字组成,第一个数字定义了响应的类别,共分五种类别:

1xx:指示信息--表示请求已接收,继续处理

2xx:成功--表示请求已被成功接收、理解、接受; 200成功

3xx:重定向--要完成请求必须进行更进一步的操作

4xx:客户端错误--请求有语法错误或请求无法实现

5xx:服务器端错误--服务器未能实现合法的请求

  1. 无连接

HTTP无连接说的是:当某个客户机在短时间多次次请求同一个资源,服务器并不能区别是否已经响应过用户的请求。

针对http无连接,人们设计了非持久连接和持久连接(长连接)

  1. 无状态:http是无状态协议,是说http协议没法保存客户机信息

优点:在服务器不需要先前信息时它的应答就较快。

缺点:缺少状态意味着如果后续处理需要前面的信息,则它必须重传。这样可能导致每次连接传送的数据量增大

关于http无状态阻碍了交互式应用程序的实现。比如记录用户浏览哪些网页、判断用户是否拥有权限访问等。于是,两种用于保持HTTP状态的技术就应运而生了,一个是Cookie,而另一个则是Session