[点点搬家]中文问题
2015-01-06 17:48
190 查看
[四年前的博客了,干得漂亮]
最初的字符集7bit, 共128种,后来出现了ASCII, America Standard Code for Information Interchange,IBM扩展的,8bit, 256种。
ANSI:ASCII以及其扩展集,如GB2312。正式名称为MBCS,Multi-Byte Character System,但通常称为ANSI。
扩展集太多了,不便于交流,产生了Unicode,Universal Multiple-Octet Coded Character Set,32bit, 65536种。
标准的Unicode称为UTF-16, UCS(Universal Character Set) Transformation Format,就是32bit, 65536种。
由于许多系统已经采用了单字节传输,所以出现了UTF-8,它可以对Unicode进行编码。
如,“连通”两个字的Unicode为:DE 8F 1A 90
进行UTF-8编码后为:E8 BF 9E E9 80 9A
看到,Unicode每个汉字对应32bit, UTF-8每个汉字对应48bit....
UTF-8, 8bit编码, ASCII不作变换, 其他字符做变长编码, 每个字符1-3 byte. 通常作为外码. 有以下优点:
与CPU字节顺序无关, 可以在不同平台之间交流
容错能力高, 任何一个字节损坏后, 最多只会导致一个编码码位损失, 不会链锁错误(如GB码错一个字节就会整行乱码)
UTF-16, 16bit编码, 是变长码, 大致相当于20位编码, 值在0到0x10FFFF之间, 基本上就是unicode编码的实现. 它是变长码, 与CPU字序有关, 但因为最省空间, 常作为网络传输的外码.
UTF-16是unicode的preferred encoding.
最初的字符集7bit, 共128种,后来出现了ASCII, America Standard Code for Information Interchange,IBM扩展的,8bit, 256种。
ANSI:ASCII以及其扩展集,如GB2312。正式名称为MBCS,Multi-Byte Character System,但通常称为ANSI。
扩展集太多了,不便于交流,产生了Unicode,Universal Multiple-Octet Coded Character Set,32bit, 65536种。
标准的Unicode称为UTF-16, UCS(Universal Character Set) Transformation Format,就是32bit, 65536种。
由于许多系统已经采用了单字节传输,所以出现了UTF-8,它可以对Unicode进行编码。
如,“连通”两个字的Unicode为:DE 8F 1A 90
进行UTF-8编码后为:E8 BF 9E E9 80 9A
看到,Unicode每个汉字对应32bit, UTF-8每个汉字对应48bit....
UTF-8, 8bit编码, ASCII不作变换, 其他字符做变长编码, 每个字符1-3 byte. 通常作为外码. 有以下优点:
与CPU字节顺序无关, 可以在不同平台之间交流
容错能力高, 任何一个字节损坏后, 最多只会导致一个编码码位损失, 不会链锁错误(如GB码错一个字节就会整行乱码)
UTF-16, 16bit编码, 是变长码, 大致相当于20位编码, 值在0到0x10FFFF之间, 基本上就是unicode编码的实现. 它是变长码, 与CPU字序有关, 但因为最省空间, 常作为网络传输的外码.
UTF-16是unicode的preferred encoding.
相关文章推荐
- [点点搬家]求解很大半径球面上的整数点问题
- 【搬家】【Python】【Windows】Windows Console 中 Python 输出中文字符乱码的问题
- Wordpress 2.5.1成功搬家并解决wordpress中文Mysql数据库导入乱码问题
- Java , Installanywhere 在 Redhat 上的中文问题解决方法
- JDK1.2关于JDBC中文问题的解决方案
- 解决中文问题的几个常用的函数
- solaris上开发J2EE应用中文问题的解决
- jsp、servlet关于中文问题再谈
- linux Q&A of I18N and L10N linux中文问题
- J2EE Web组件中中文及相关的问题(二)
- xml+xsl应用,包含中文字符的URL编码问题
- 彻底解决JSP(含EJB)中文内码问题
- 升级到Delphi 6 - 兼容性问题(中文全文)
- Struts中文(包括资源文件)问题解决方案
- J2EE Web组件中中文及相关的问题(五)
- BS开发技巧之三: 处理中文文件名附件存到本地时缺省出现乱码问题
- 用XMLHTTP Post/Get HTML页面时的中文乱码问题之完全Script解决方案
- Java中文问题详解
- TOMCAT下的JIVE2的中文问题分析及解决
- [导入]xml+xsl应用,包含中文字符的URL编码问题