写文本的流程

这期间发生的字符与0和1之间的转化过程称为:字符编码

存 : j -> 0和1

取 : 0和1 -> j

存和取统称为字符编码

python解释器的原理

8位二进制数作为一个表与英文字符一一对应

中文表为GB2312或称为GBK

内存中编码格式统一位unicode(unicode是各国通用的编码)

从内存到硬盘的过程:unicode-->gbk称为编码encode

从硬盘到内存的过程:gbk-->unicode称为解码decode

存码时用什么编码,取的时候就用什么编码,不然会出现乱码

在python2解释语法的时候,生成变量时会把这个字符读进内存,这个时候有两种情况,一种是str编码,一种是unicode编码

str

直接编码成gbk的行式

unicode

直接编码成unicode的形式

举例:x = '上'

unicode 10101010110101011010101101010

x = 10101010110101011010101101010

print(10101010110101011010101101010)

当打印的时候,解释器会自动把'上'的unicode编码10101010110101011010101101010转成终端编码

pycharm右下角控制的是写入的代码字符以什么编码格式保存,在代码开头输入#coding:utf-8控制的是python3作为文本编辑器的时候以什么编码格式读取文本内容,python3默认以utf-8行式读取字符

unicode形式:解释定义变量的语法时,会开辟一块内存空间放入这个变量,然后这个变量在python3中以unicode的形式储存

utf-8形式:解释定义变量的语法时,会开辟一块内存空间放入这个变量,然后这个变量在python3中以utf-8的形式储存,但如果终端的编码为GBK就无法识别utf-8的编码

总结:新开辟的空间放入变量的时候,使用unicode转换,这样终端无论是什么形式的编码格式,都能够识别并打印