Python爬虫入门教程 9-100 河北阳光理政投诉板块

1.河北阳光理政投诉板块-写在前面

之前几篇文章都是在写图片相关的爬虫,今天写个留言板爬出,为另一套数据分析案例的教程做做准备,作为一个河北人,遵纪守法,有事投诉是必备的技能,那么咱看看我们大河北人都因为什么投诉过呢?

今天要爬取的网站地址 http://yglz.tousu.hebnews.cn/l-1001-5-,一遍爬取一遍嘀咕,别因为爬这个网站在去喝茶,再次声明,学习目的,切勿把人家网站爬瘫痪了。

Python爬虫入门教程 9-100 河北阳光理政投诉板块

2.河北阳光理政投诉板块-开始撸代码

今天再次尝试使用一个新的模块 lxml ,它可以配合xpath快速解析HTML文档,官网网站 https://lxml.de/index.html
利用pip安装lxml,如果安装失败,可以在搜索引擎多搜搜,内容很多,100%有解决方案。

pip install lxml

废话不多说,直接通过requests模块获取百度首页,然后用lxml进行解析

import requests
from lxml import etree  # 从lxml中导入etree

response