Python中字符编码与转码
2017-08-23 14:16
183 查看
一 、什么是编码
①ASCII
在计算机中的所有数据,不论是文字、图片、视频、还是音频文件,本质上最终都是按照类似 01010101 的二进制存储的。
所以,目的明确了:如何将我们能识别的符号唯一的与一组二进制数字对应上?于是美利坚的同志想到通过一个电平的高低状态来代指0或1,八个电平做为一组就可以表示出256种不同状态,每种状态就唯一对应一个字符,比如A—>00010001,而英文只有26个字符,算上一些特殊字符和数字,128个状态也够用了;每个电平称为一个比特为,约定8个比特位构成一个字节,这样计算机就可以用127个不同字节来存储英语的文字了。这就是ASCII编码。
②GB2312
计算机来到中国后,没法显示中文,而且一个字节所有状态都被占满了!后来国人就自己重写一张表,规定一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节从0xA1用到0xF7,后面一个字节从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。
③GBK 和 GB18030编码
但是汉字太多了,GB2312也不够用,于是规定:只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
④UNICODE编码:
很多其它国家都搞出自己的编码标准,彼此间却相互不支持。这就带来了很多问题。于是,国际标谁化组织为了统一编码:提出了标准编码准则:UNICODE 。UNICODE是用两个字节来表示为一个字符,它总共可以组合出65535不同的字符,这足以覆盖世界上所有符号(包括甲骨文)
⑤utf8:
对于英文世界的人们来讲,一个字节完全够了,比如要存储A,本来00010001就可以了,现在用了unicode,得用两个字节:00000000 00010001才行,浪费太严重!
基于此,美利坚的科学家们提出了天才的想法:utf8。
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,当字符在ASCII码的范围时,就用一个字节表示,所以是兼容ASCII编码的。
这样显著的好处是,虽然在我们内存中的数据都是unicode,但当数据要保存到磁盘或者用于网络传输时,直接使用unicode就远不如utf8省空间啦!
二、python2的编码
在python2中,默认的字符编码是ASCII,不同字符编码见的转换都要先解码(decode),然后再转码(encode)
三、python3的编码
在python3里默认字符是Unicode,而文件编码是utf-8
备注:非常重要
①ASCII
在计算机中的所有数据,不论是文字、图片、视频、还是音频文件,本质上最终都是按照类似 01010101 的二进制存储的。
所以,目的明确了:如何将我们能识别的符号唯一的与一组二进制数字对应上?于是美利坚的同志想到通过一个电平的高低状态来代指0或1,八个电平做为一组就可以表示出256种不同状态,每种状态就唯一对应一个字符,比如A—>00010001,而英文只有26个字符,算上一些特殊字符和数字,128个状态也够用了;每个电平称为一个比特为,约定8个比特位构成一个字节,这样计算机就可以用127个不同字节来存储英语的文字了。这就是ASCII编码。
②GB2312
计算机来到中国后,没法显示中文,而且一个字节所有状态都被占满了!后来国人就自己重写一张表,规定一个小于127的字符的意义与原来相同,但两个大于127的字符连在一起时,就表示一个汉字,前面的一个字节从0xA1用到0xF7,后面一个字节从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII 的中文扩展。
③GBK 和 GB18030编码
但是汉字太多了,GB2312也不够用,于是规定:只要第一个字节是大于127就固定表示这是一个汉字的开始,不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为 GBK 标准,GBK 包括了 GB2312 的所有内容,同时又增加了近20000个新的汉字(包括繁体字)和符号。
④UNICODE编码:
很多其它国家都搞出自己的编码标准,彼此间却相互不支持。这就带来了很多问题。于是,国际标谁化组织为了统一编码:提出了标准编码准则:UNICODE 。UNICODE是用两个字节来表示为一个字符,它总共可以组合出65535不同的字符,这足以覆盖世界上所有符号(包括甲骨文)
⑤utf8:
对于英文世界的人们来讲,一个字节完全够了,比如要存储A,本来00010001就可以了,现在用了unicode,得用两个字节:00000000 00010001才行,浪费太严重!
基于此,美利坚的科学家们提出了天才的想法:utf8。
UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,它可以使用1~4个字节表示一个符号,根据不同的符号而变化字节长度,当字符在ASCII码的范围时,就用一个字节表示,所以是兼容ASCII编码的。
这样显著的好处是,虽然在我们内存中的数据都是unicode,但当数据要保存到磁盘或者用于网络传输时,直接使用unicode就远不如utf8省空间啦!
二、python2的编码
在python2中,默认的字符编码是ASCII,不同字符编码见的转换都要先解码(decode),然后再转码(encode)
#!/usr/bin/env python #-*-coding:utf-8-*- import sys print(sys.getdefaultencoding()) #默认文件编码 msg = "这是我读过所有的书" msg_gb2312 = msg.decode("utf-8").encode("gb2312") #utf8到gb2312之间的转换 gb2312_to_gbk = msg_gb2312.decode("gbk").encode("gbk") #gb2312到gbk之间的转换 print(msg) print(msg_gb2312) print(gb2312_to_gbk)
三、python3的编码
在python3里默认字符是Unicode,而文件编码是utf-8
#!/usr/bin/env python import sys print(sys.getdefaultencoding()) msg = "这是我读过所有的书" msg_gb2312 = msg.encode("gb2312") #默认就是unicode,不用再decode gb2312_to_unicode = msg_gb2312.decode("gb2312") gb2312_to_utf8 = msg_gb2312.decode("gb2312").encode("utf-8") print(msg) print(msg_gb2312) print(gb2312_to_unicode) print(gb2312_to_utf8)
备注:非常重要
1.在python2默认编码是ASCII, python3里默认是Unicode 2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节),utf-8(占1-4个字节), 因此utf-16就是现在 \ 最常用的unicode版本, 不过在文件里存的还是utf-8,因为utf8省空间 3.在python3中encode,在转码的同时还会把string 变成bytes类型,decode在解码的同时还会把bytes变回string
相关文章推荐
- python---字符编码和转码
- Python学习之路day3-字符编码与转码
- python 学习之路(字符编码与转码)
- python---字符编码与转码
- python字符编码与转码
- 五分钟战胜Python字符编码
- python 字符编码
- Python字符编码详解
- python字符编码
- Python字符编码简介
- Python遇到字符编码出问题的一个相对万能的办法
- Python中的字符编码
- Python中关于变量定义与字符编码
- 更改python字符编码以便使用UTF-8的编码url路径
- Python 字符编码判断
- Python字符编码问题-学习记录
- Python 转码错误
- python网页数据转码方式
- Python,Day3 - 函数,文件操作,字符编码,json模块
- [python爬虫]对html解析读取编码格式,统一转码为utf-8