您的位置：首页 > 编程语言 > Python开发

Python----字符编码方法

2013-11-27 16:42 190 查看

ASCII标准在美国创建，并且定义了大多数美国程序员使用的文本字符串表示法。ASCII定义了从0到127的字符代码，并且允许每个字符存储在一个8位的字节中（实际上，只

有其中的7位真正用到）。例如，ASCII标准把字符'a'映射为整数值97（十六进制中的0x61），它存储在内存和文件的一个单个字节中。如果想要看到这是如何工作的，

Python的内置函数ord给出了一个字符的二进制值，并且chr针对一个给定的整数代码值

返回其字符：

>>> ord('a')

# 'a' is a byte with binary value 97 in ASCII

97

>>> hex(97)

'0x61'

>>> chr(97)

# Binary value 97 stands for character 'a'

'a'

编码是根据一个想要的编码名称，把一个字符串翻译为其原始字节形式

解码是根据其编码名称，把一个原始字节串翻译为字符串形式的过程

更程序化地说，字节和字符串之间的来回转换！

ASCII是UTF-8的一个7位的子集

对于所有小于128的字符代码，UTF-8编码与ASCII是二进制兼容的

但是，所有这些，ASCII、Latin-1、UTF-8以及很多其他的编码，都被认为是Unicode。

Unicode可以理解为一种规范。

Python的字符串类型

具体来说，Python语言提供了字符串类型在脚本中表示字符文本。在脚本中所使用的字

符串类型取决于所使用的Python的版本。Python 2.X有一种通用的字符串类型来表示二进

制数据和像ASCII这样的8位文本，还有一种特定的类型用来表示多字节Unicode文本：

str表示8位文本和二进制数据。

unicode用来表示宽字符Unicode文本。

Python 2.X的两种字符串类型是不同的（unicode考虑到字符的额外大小并且支持编码和

解码），但是，它们的操作集大多是重叠的。Python 2.X中的str字符串类型用于可以用8

位字节表示的文本，以及绝对字节值所表示的二进制数据。

相反，Python 3.X带有3种字符串对象类型——一种用于文本数据，两种用于二进制数

据：

str表示Unicode文本（8位的和更宽的）。

bytes表示二进制数据。

bytearray，是一种可变的bytes类型。

Python 3.0中所有3种字符串类型都支持类似的操作集，但是，它们都有不同的角色。

Python 3.X之后关于这一修改的主要目标是，把Python 2.X中常规的和Unicode字符串

类型合并到一个单独的字符串类型中，以支持常规的和Unicode文本：开发者想要删除

Python 2.X中的字符串区分，并且让Unicode的处理更加自然。假设ASCII和其他的8位文

本真的是一种简单的Unicode，这种融合听起来很符合逻辑

在Python2.6中，我们可以对简单的文本使用str并且对文本的更高级的形式使用二进制数据和

unicode；在Python 3.0中，我们将针对任何类型的文本（简单的和Unicode）使用str，

并且针对二进制数据使用bytes或bytearray。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航