Day2-Python基础2---字符编码与转码一、编码介绍：

详细内容http://www.cnblogs.com/yuanchenqi/articles/5956943.html

1、基本概念：

在python 2中默认编码是 ASCII，而在python 3中默认编码是 unicode
unicode 分为utf-32 (占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)，所以utf-16 是最常用的unicode版本，但是在文件里存的还是utf-8，因为utf8省空间
在python 3,encode编码的同时会把stringl变成bytes类型，decode解码的同时会把bytes类型变成string类型
在unicode编码中 1个中文字符=2个字节，1个英文字符 = 1个字节，切记：ASCII是不能存中文字符的
utf-8是可变长字符编码,它是unicode的优化，所有的英文字符依然按ASCII形式存储，所有的中文字符统一是3个字节
unicode包含了所有国家的字符编码，不同字符编码之间的转换都需要经过unicode的过程
python本身的默认编码是utf-8

2、python2中的编码和转码的过程，如图：

注：因为unicode是中间编码，任何字符编码之前的转换都必须解码成unicode，在编码成需要转的字符编码

3、py3的字符编码转换

在基本概念中已经说到python 3的编码，默认是unicode，所以字符编码之间的转换不需要decode过程，直接encode即可，代码如下：

 1 string = "你好"
 2 #string现在是utf-8的编码格式，属于unicode编码，无需要decode,直接encode
 3 s_to_gbk = string.encode("gbk")
 4 print(s_to_gbk)
 5 #反过来，gbk要是转换为utf-8需要先解码成unicode，在编码成utf-8
 6 gbk_to_utf8 = s_to_gbk.decode("gbk").encode("utf-8")
 7 print(gbk_to_utf8)
 8 #编码成utf-8
 9 decode_utf8 = gbk_to_utf8.decode("utf-8")
10 print(decode_utf8)

注：在python 3,encode编码的同时会把stringl变成bytes类型，decode解码的同时会把bytes类型变成string类型，所以你就不难看出encode后的把它变成了一个bytes类型的数据。还有需要特别注意的是：不管是否在python 3的文件开头申明字符编码，只能表示，这个python文件是这个字符编码，文件中的字符串还是unicode。

Day2-Python基础2---字符编码与转码 一、编码介绍：

详细内容http://www.cnblogs.com/yuanchenqi/articles/5956943.html

1、基本概念：

3、py3的字符编码转换

相关推荐

Day2-Python基础2---字符编码与转码一、编码介绍：