python的'\uxxxx'类型的字符串怎么样才能提取到'\u'后面的xxxx呢?
问题描述:
我写了一个爬虫,爬到了网页里面的一个加密数字,是'\uxxxx'这种形式的,我需要把'\u'后面的xxxx提取出来。
但是我尝试了好多种办法,分割不了,替换不了,遍历也不行。
答
假设对象s是这样一个unicode对象,可以尝试如下代码:
parsed_code = []
for x in s:
parsed_code.append(hex(ord(x))[2:])
思路就是先获取unicode字符串的unicode值,再转为十六进制,然后剔除0x标志以提取需要的信息。
答
假设text = "\uxxxx\uxxxx..."
用
text.decode("unicode_escape")
或者
text.encode('utf-8').decode("unicode_escape")