您的位置：首页 > 编程语言 > Python开发

Python | Python学习之unicode和utf8

2021-01-03 21:57 288 查看

中文乱码、unicode和utf8

http://openskill.cn/article/448
https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386819196283586a37629844456ca7e5a7faa9b94ee8000

开始之前我们先了解下ASCII、GB2312、unicode、UTF-8都是啥？

编码演化史

ASCII编码

在很久很久以前，美国人发明了计算机，计算机只能处理数字也就是把文字转换为8个bit也就是一个字节，8个bit最大能表示的数字为255，而[A-Z]、[a-z]、[0-9]再加上键盘上的一些符号正好255个，所以ASCII编码就成为了美国人的标准编码(用一个字节代表一个字母或者符号)，正好也满足了美国人的需求。

GB2312

有了上面的情况，我大中国表示不服，我们中国汉字博大精深，255个明显是满足不了我们的需求的，于是我们就发明了GB2312编码(用两个字节表示汉字)，不仅包含了ASCII码还能表示我们的中国的汉字，于是有了我们中国的例子，世界各国纷纷研究出了支持自己语言的编码，在这种情况下多种语言混合显示就出现了乱码的情况了，对于这种情况就出现了unicode编码将所有语言统一到一起。

unicode

unicode编码的出现解决了多国语言展示乱码的问题，但是unicode的解决方案在全英文文档展示的情况下，unicode编码会比ASCII编码多一倍的存储空间(unicode的编码是16bit的，在表示ASCII编码时是直接在前面加上8个0)相应的在传输的时候就多了一倍的传输时间，在这种情况下就出现了UTF8编码。

UTF8

UTF8编码相比于8bit的ASCII编码和16bit的unicode编码来说，UTF8编码是不定长的，它可以使用两个字节代表英文，用三个字节代表中文，UTF8这个时候优势就很大了，在实际运用中，我们可以将文件编码互相转换以获取最大化的利用内存，把文件保存在内存中我们采用内存占用更小的UTF8编码的格式，读写文件时我们采用更大更全的unicode编码，具体实例图如下：

示例图

代码演示

Python2.7

windows

在python2.7中当要将字符串encode为utf8，我们需要确保之前的字符串的编码方式为unicode，所以当字符串编码不为unicode时，我们需要使用decode方法，而在使用decode方法时我们需要指明原有字符串的编码格式(在windows系统中解释器默认编码为GB2312，Linux系统中为UTF-8编码)，所以就有了s.decode("gb2312").encode("utf-8")。