《Unicode之痛》摘抄
2015-08-30 16:45
666 查看
Unicode之痛原文链接
Unicode 字符称为代码点(code point)用 U 后面加上 XXXX (其中, X 为16进制的字符)来表示字符
Unicode 标准定义了多种编码(encoding)方法将
Unicode 字符串有 encode 方法来产生
Python 3 中,
程序中均使用 unicode
输出时,编码成
一、概念
计算机只能看懂bytes,计算机中一切均为
bytes(字节):硬盘文件、网络传输、程序的输入、输出均由byte组成
Unicode 字符称为代码点(code point)用 U 后面加上 XXXX (其中, X 为16进制的字符)来表示字符
Unicode 标准定义了多种编码(encoding)方法将
bytes表示成代码点;其中,对 Unicode 进行传播和存储的最流行编码方式为 UTF-8 ,它用不同的
bytes来表示每一个代码点。
二、关于python
Python2 中,str对象存储的是
bytes。带u前缀的字符串是“unicode” 对象,存储的是 code points
Unicode 字符串有 encode 方法来产生
bytes;
bytes字符串有 decode 方法转换成 unicode ;两种方法都需要指定编码类型
Python 3 中,
str存储的是 unicode,
bytes类型存储的是 byte 串。可以通过加b 前缀来制造 byte字符串
三、策略
输入时,将bytes流 解码成 unicode。
程序中均使用 unicode
输出时,编码成
bytes流。
相关文章推荐
- Python动态类型的学习---引用的理解
- Python3写爬虫(四)多线程实现数据爬取
- 垃圾邮件过滤器 python简单实现
- 下载并遍历 names.txt 文件,输出长度最长的回文人名。
- Linux 与 Windows 对UNICODE 的处理方式
- install and upgrade scrapy
- Scrapy的架构介绍
- Centos6 编译安装Python
- 使用Python生成Excel格式的图片
- 让Python文件也可以当bat文件运行
- [Python]推算数独
- Python中zip()函数用法举例
- Python中map()函数浅析
- Python将excel导入到mysql中
- Python在CAM软件Genesis2000中的应用
- 使用Shiboken为C++和Qt库创建Python绑定
- FREEBASIC 编译可被python调用的dll函数示例