python的'\uxxxx'类型的字符串怎么样才能提取到'\u'后面的xxxx呢?

python的'\uxxxx'类型的字符串怎么样才能提取到'\u'后面的xxxx呢?

问题描述:

我写了一个爬虫,爬到了网页里面的一个加密数字,是'\uxxxx'这种形式的,我需要把'\u'后面的xxxx提取出来。

但是我尝试了好多种办法,分割不了,替换不了,遍历也不行。

假设对象s是这样一个unicode对象,可以尝试如下代码:

parsed_code = []
for x in s:
    parsed_code.append(hex(ord(x))[2:])

思路就是先获取unicode字符串的unicode值,再转为十六进制,然后剔除0x标志以提取需要的信息。

假设text = "\uxxxx\uxxxx..."

text.decode("unicode_escape")
或者
text.encode('utf-8').decode("unicode_escape")