网页学习体会

  • 首页
  • 个人博客
您的位置: 首页  >  IT文章  >  python 处理html文本的中文字符gbk转utf-8

python 处理html文本的中文字符gbk转utf-8

分类: IT文章 • 2022-05-24 14:27:03
#中文字符gbk转utf-8
    def gbk2utf8(self,raw):
        rs=raw.encode('raw_unicode_escape') #转为机器识别字符串
        s=repr(rs)
        ss=unicode(eval(s),"gbk")     #gbk解码为unicode
        utf8_str=ss.encode('utf-8')    #unicode编码为utf-8
        return utf8_str

  

相关推荐

  • python中文本字符处理的简单方法记录
  • python 处理html文本的中文字符gbk转utf-8
  • jsoup Cookbook(中文版)--爬虫(java) 1、解析和遍历一个HTML文档 2、解析一个HTML字符串 3、解析一个body片断 4、从一个URL加载一个Document 5、从一个文件加载一个文档 6、使用DOM方法来遍历一个文档 7、使用选择器语法来查找元素 8、从元素抽取属性,文本和HTML 9、处理URLs 10、示例程序: 获取所有链接 11、设置属性的值 12、设置一个元素的HTML内容 13、设置元素的文本内容 14、消除不受信任的HTML (来防止XSS攻击)
  • python中文本字符处理的简单方法记录
  • SnowNLP:•中文分词•词性标准•提取文本摘要,•提取文本关键词,•转换成拼音•繁体转简体的 处理中文文本的Python3 类库
  • python 爬取图片
  • python实现网页登录时的rsa加密流程
    网站免责声明 网站地图 最新文章 用户隐私 版权申明
本站所有数据收集于网络,如果侵犯到您的权益,请联系网站进行下架处理。   

Copyright © 2018-2021   Powered By 网页学习体会    备案号:   粤ICP备20002247号