python 爬虫遇到的网页乱码有关问题
python 爬虫遇到的网页乱码问题
python 网页爬虫抓取的url页面 是GBK格式。
会显示乱码,所以以至于后面的用正则表达式匹配都是错误的。
以下方法可以解决此问题:
reload(sys)
sys.setdefaultencoding('utf-8')
sys.setdefaultencoding('utf-8')
在程序开头添加以上代码即可。