【编码】Unicode与UTF-8关系

Unicode字符集合

Unicode 也称为 UCS(Universal Coded Character Set:国际编码字符集合) 是一个字符集合。

对世界上大部分的文字系统进行了整理，编码，使电脑可以用更为简单的方式来呈现和处理文字。最新的版本 Unicode 11.0 已经包含了 137439 个字符。

Unicode 的数量之多，如果完全涵盖它，需要用 4 个字节来表示，但是计算机存储过程中却不是必须都用 4 个字节来完成。对于有些字符，尤其是编码在前面的字符我们也可以通过 1 个或两个字节来节省空间。

Unicode 只是一个字符集合，每个字符用一个数字来表示，但是这些数字在计算机内采用什么方式来存储，是全部都是 4 个字节，还是 1 到 4 个字节不等，这就涉及到了字符编码的概念

UTF-8 是使用互联网上使用最广泛的 unicode 编码方式。 UTF-8 只是 Unicode 的一种实现方式，UTF-8 是编码方式，而 Unicode 是字符集合

它是可变长的编码方式，长度从 1 个字节到 4 个字节不等。

其他

ISO8859-1,通常叫做Latin-1。是单字节编码，向下兼容ASCII，Latin-1包括了书写所有西方欧洲语言不可缺少的附加字符。而gb2312是标准中文字符集