您的位置：首页 > 其它

编码的名词解释（整理）

2012-07-14 19:49 204 查看

中英文的区别：从ASCII、GB2312、GBK到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为:非中文<0x80；中文>0x80，英文为单字节，中文为双字节。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。GB2312的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上A0。在DBCS中，GB内码的存储格式始终是big
endian，即高位在前。从ASCII、GB2312、GBK到GB18030的编码方法是向下兼容的。而Unicode只与ASCII兼容（更准确地说，是与ISO-8859-1兼容），与GB码不兼容。例如“汉”字的Unicode编码是6C49，而GB码是BABA
GB2312：(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE
GBK：2000年的GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字，该编码与UCS兼容。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。GBK的编码区间为0X8140到0XFEFE。整个码表分为5个区间，称为GBK1(A1A1-A9FE)、GBK2（B0A1-F7EE）、GBK3(8140-A0FE)、GBK4(AA40-FEA0)、GBK5(A840-A9A0).其中GBK1包括符号717个，GBK2包括GB2312汉字6763个，GBK3包括GB13000.1中的汉字6080个，GBK4包括增补的汉字8160个,GBK5包括扩充汉字符号166个。
Unicode(UCS2)：文件头十六进制代码为FF、FE。为中、日、朝三国文字编码，把单个汉字的十六进制码反位存贮。Unicode的学名是"Universal Multiple-Octet Coded Character Set"，简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。从Unicode2.0开始，Unicode项目采用了与ISO
10646-1相同的字库和字码。Unicode协会现在的最新版本是2005年的Unicode 4.1.0。ISO的最新标准是10646-3:2003。怎样传输这些编码，是由UTF(UCS Transformation Format)规范规定的，常见的UTF规范包括UTF-8、UTF-7、UTF-16。IETF的RFC2781和RFC3629以RFC的一贯风格，清晰、明快又不失严谨地描述了UTF-16和UTF-8的编码方法。我总是记不得IETF是Internet Engineering Task Force的缩写。但IETF负责维护的RFC是Internet上一切规范的基础。
Unicode big endian：文件头十六进制代码为FE、FF。把单个汉字的十六进制码反位存贮。
UTF-8：文件头十六进制代码为EF、BB、BF。UTF-8就是以8位为单元对UCS进行编码。为不定长度的编码, 对英文，仍然和ASCII一样用1个字节表示，这个字节的值小于128(\x80)；对其他语言的用一个值位于128-256之间的字节开始，再加后面紧跟的2个字节表示，一个字符一共是3个字节；。从UCS-2到UTF-8的编码方式如下：
UCS-2编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx&
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。
UTF-16：UTF-16以16位为单元对UCS进行编码。UTF-16以16位为单元对UCS进行编码。对于小于0x10000的UCS码，UTF-16编码就等于UCS码对应的16位无符号整数。对于不小于0x10000的UCS码，定义了一个算法。不过由于实际使用的UCS2，或者UCS4的BMP必然小于0x10000，所以就目前而言，可以认为UTF-16和UCS-2基本相同。但UCS-2只是一个编码方案，UTF-16却要用于实际的传输，所以就不得不考虑字节序的问题。
UTF-32：Utf-32
是输入Unicode 字符方法, 使用一个固定值32 位为各个字符。Utf-32 最初是Ucs 4 标准的一个子集, 但JTC1/SC2/WG2 的原则和规程文件阐明, 字符的所有未来任务将被强迫对BMP 或第一14 架补充飞机并且取消了前供应为民办利用代码主张在小组60 对7F 和在飞机E0 里对FF 。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航