python的'\uxxxx'类型的字符串怎么样才能提取到'\u'后面的xxxx呢？

$python的'\uxxxx'类型的字符串怎么样才能提取到'\u'后面的xxxx呢？$

问题描述：

我写了一个爬虫，爬到了网页里面的一个加密数字，是'\uxxxx'这种形式的，我需要把'\u'后面的xxxx提取出来。

但是我尝试了好多种办法，分割不了，替换不了，遍历也不行。

答

假设对象s是这样一个unicode对象，可以尝试如下代码：

parsed_code = []
for x in s:
    parsed_code.append(hex(ord(x))[2:])

思路就是先获取unicode字符串的unicode值，再转为十六进制，然后剔除0x标志以提取需要的信息。

答

假设text = "\uxxxx\uxxxx..."
用
text.decode("unicode_escape")
或者
text.encode('utf-8').decode("unicode_escape")