python爬取某些网站出错的解决办法

用urllib2.urlopen方法打开糗事百科的网站，http://www.qiushibaike.com/，发现会失败，网上百度，说可能是服务器端对爬虫做了屏蔽，需要伪装header头部信息，下面的代码来自于http://bbs.csdn.net/topics/390736795

伪装的头部信息

只要在请求中加上伪装成浏览器的header就可以了，比如：
        headers = {
           'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
        }
        req = urllib2.Request(
            url = "http://m.qiushibaike.com/hot/page/1" ,
            headers = headers
        )
        myResponse  = urllib2.urlopen(req)

python爬取某些网站出错的解决办法

相关推荐