用python抓取的一个网页,本来是简体字的,抓下来之后变成繁体字了,怎么转换成简体字
用python抓取的一个网页,本来是简体字的,抓下来之后变成繁体字了,如何转换成简体字
我编了一个python程序来抓取网页内容,
file_url='http://www.....'
urldata = opener.open(file_url)
m=urldata.read()
原始网页是简体字的,charset=UTF-8 可是爬下来之后却是繁体字的,charset=UTF-8
为什么会变成繁体字的呢?
要怎么再转换成简体字网页呢?
新手,多谢高手指导
------解决方案--------------------
设下http header:
Accept-Language: zh-cn,zh;q=0.7,en-us;q=0.3
这个是我的firefox设的。你可以自己抓包看下你的浏览器发的是什么。
------解决方案--------------------
gbk啊或者gb2312
sdata = str(urldata,encoding="gbk")
------解决方案--------------------
我编了一个python程序来抓取网页内容,
file_url='http://www.....'
urldata = opener.open(file_url)
m=urldata.read()
原始网页是简体字的,charset=UTF-8 可是爬下来之后却是繁体字的,charset=UTF-8
为什么会变成繁体字的呢?
要怎么再转换成简体字网页呢?
新手,多谢高手指导
------解决方案--------------------
设下http header:
Accept-Language: zh-cn,zh;q=0.7,en-us;q=0.3
这个是我的firefox设的。你可以自己抓包看下你的浏览器发的是什么。
------解决方案--------------------
gbk啊或者gb2312
sdata = str(urldata,encoding="gbk")
------解决方案--------------------