您的位置：首页 > 编程语言 > Python开发

Python中字符编码与转码

2017-08-23 14:16 183 查看

一、什么是编码

①ASCII

在计算机中的所有数据，不论是文字、图片、视频、还是音频文件，本质上最终都是按照类似 01010101 的二进制存储的。

所以，目的明确了：如何将我们能识别的符号唯一的与一组二进制数字对应上？于是美利坚的同志想到通过一个电平的高低状态来代指0或1，八个电平做为一组就可以表示出256种不同状态，每种状态就唯一对应一个字符，比如A—>00010001,而英文只有26个字符，算上一些特殊字符和数字，128个状态也够用了；每个电平称为一个比特为，约定8个比特位构成一个字节，这样计算机就可以用127个不同字节来存储英语的文字了。这就是ASCII编码。

②GB2312

计算机来到中国后，没法显示中文，而且一个字节所有状态都被占满了！后来国人就自己重写一张表，规定一个小于127的字符的意义与原来相同，但两个大于127的字符连在一起时，就表示一个汉字，前面的一个字节从0xA1用到0xF7，后面一个字节从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。

③GBK 和 GB18030编码

但是汉字太多了，GB2312也不够用，于是规定：只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准，GBK 包括了 GB2312 的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。

④UNICODE编码：

很多其它国家都搞出自己的编码标准，彼此间却相互不支持。这就带来了很多问题。于是，国际标谁化组织为了统一编码：提出了标准编码准则：UNICODE 。UNICODE是用两个字节来表示为一个字符，它总共可以组合出65535不同的字符，这足以覆盖世界上所有符号（包括甲骨文）

⑤utf8:

对于英文世界的人们来讲，一个字节完全够了，比如要存储A,本来00010001就可以了，现在用了unicode，得用两个字节：00000000 00010001才行，浪费太严重！

基于此，美利坚的科学家们提出了天才的想法：utf8。

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度，当字符在ASCII码的范围时，就用一个字节表示，所以是兼容ASCII编码的。

这样显著的好处是，虽然在我们内存中的数据都是unicode，但当数据要保存到磁盘或者用于网络传输时，直接使用unicode就远不如utf8省空间啦！

二、python2的编码

在python2中，默认的字符编码是ASCII，不同字符编码见的转换都要先解码(decode)，然后再转码(encode)

#!/usr/bin/env python
#-*-coding:utf-8-*-

import sys
print(sys.getdefaultencoding())   #默认文件编码

msg = "这是我读过所有的书"
msg_gb2312 = msg.decode("utf-8").encode("gb2312")    #utf8到gb2312之间的转换
gb2312_to_gbk = msg_gb2312.decode("gbk").encode("gbk")  #gb2312到gbk之间的转换

print(msg)
print(msg_gb2312)
print(gb2312_to_gbk)

三、python3的编码

在python3里默认字符是Unicode，而文件编码是utf-8

#!/usr/bin/env python
import sys
print(sys.getdefaultencoding())

msg = "这是我读过所有的书"
msg_gb2312 = msg.encode("gb2312")  #默认就是unicode,不用再decode
gb2312_to_unicode = msg_gb2312.decode("gb2312")
gb2312_to_utf8 = msg_gb2312.decode("gb2312").encode("utf-8")

print(msg)
print(msg_gb2312)
print(gb2312_to_unicode)
print(gb2312_to_utf8)

备注：非常重要

1.在python2默认编码是ASCII, python3里默认是Unicode
2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)， 因此utf-16就是现在 \
最常用的unicode版本， 不过在文件里存的还是utf-8，因为utf8省空间
3.在python3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航