您的位置:首页 > 其它

常见字符编码详解ANSI,UTF-8,UCS,GBK,GB2312,BIG5

2017-04-07 16:46 232 查看
ASCII

American Standard Code for Information Interchange-美国信息交换标准代码,发表于1967年,到2007年12月,逐渐被Unicode取代。单字节字符编码,定义了128个字符

ANSI

使用多个字节来代表一个字符的各种汉字延伸编码方式,称为 ANSI 编码,通常使用 0x80~0xFF 范围的2个字节来表示1个字符。在简体中文Windows操作系统中,ANSI 编码代表 GBK 编码;在繁体中文Windows操作系统中,ANSI编码代表Big5;在日文Windows操作系统中,ANSI 编码代表 Shift_JIS 编码。ANSI编码表示英文字符时用一个字节,表示中文用两个或四个字节。

GB2312 

信息交换用汉字编码字符集,发布于1980年,共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。采用EUC储存方法,以便兼容于ASCII。每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”(也称“区字节)”,第二个字节称为“低位字节”(也称“位字节”)。汉字区的“高位字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE

GBK/GB13000

汉字内码扩展规范,发布于1995年。GBK 向下与 GB 2312 编码兼容,向上支持 ISO 10646.1 国际标准。使用了双字节编码方案,其编码范围从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字。

GB18030

GBK的取代版本,在GBK基础上增加了CJK统一汉字扩充A的汉字(2000版)。在GBK基础上增加了CJK统一汉字扩充B的汉字(2005版)

BIG5

大五码,通行于台湾、香港地区的一个繁体字编码方案,共收录13,060个中文字.Big5属中文内码(中文码分为中文内码及中文交换码两类).双字节字符集,使用了双八码储存方法,以两个字节来

UTF-8

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码。由Ken Thompson于1992年创建。现在已经标准化为RFC 3629。UTF-8用1到6个字节编码UNICODE字符。用在网页上可以同一页面显示中文简体繁体及其它语言。window下会有引导头xEFxBBxBF

UCS

Universal Character Set-通用字符集,UCS 是所有其他字符集标准的一个超集,ISO 10646标准

UCS-2/UTF-16

大部分字符都以固定长度的字节 (2字节) 储存,无法兼容于ASCII编码。除UTF-16支持超过2bytes的字集,UCS-2和UTF-16 大体是相同的

UCS-2BE/UTF-16BE[b](Big Endian)[/b]

在UCS-2/UTF-16数据之前增加引导头xFExFF

UCS-2LE/UTF-16LE(Little Endian)

在UCS-2/UTF-16数据之前增加引导头xFFxFE

UCS-4/UTF-32

UTF-32对每个字符都使用4字节,固定位方便截取,但点空间。 除UTF-32标准包含额外的Unicode意涵,UCS-4和UTF-32 大体是相同的

UCS-4BE/UTF-32BE

在UCS-4/UTF-32数据之前增加引导头xFExFFx00x00

UCS-4LE/UTF-32LE

在UCS-4/UTF-32数据之前增加引导头x00x00xFExFF

koi8-r

KOI8-R是KOI-8系列的斯拉夫文字8位元编码供俄语及保加利亚语使用在Unicode未流行之前KOI8-R 是最为广泛使用的俄语编码

cp932/Shift_JIS

Shift_JIS是一个日本电脑系统常用的编码表它能容纳全角及半角拉丁字母平假名片假名符号及日语汉字,它被命名为Shift_JIS的原因是它在放置全角字符时要避开原本在0xA1-0xDF放置的半角假名字符。在微软及IBM的日语电脑系统中即使用了这个编码表这个编码表称为CP932

ISO-2022

ISO 2022,全称ISO/IEC 2022,由国际标准化组织(ISO)及国际电工委员会(IEC)联合制定,是一个使用7位编码表示汉语文字、日语文字或朝鲜文字的方法。ISO 2022等同于欧洲标准组织(ECMA)的ECMA-35、中国国标GB 2312、日本工业规格JIS X 0202(旧称JIS C 6228)及韩国工业规格KS X 1004(旧称KS C 5620)。

ISO-8859

全称ISO/IEC 8859,是国际标准化组织(ISO)及国际电工委员会(IEC)联合制定的一系列8位字符集的标准,现时定义了15个字符集

Windows-1250

用于中欧和东欧语言(波兰,捷克,斯洛伐克,匈牙利,波斯尼亚塞尔维亚,克罗地亚,斯洛文尼亚,(拉丁语),罗马尼亚和阿尔巴尼亚

Windows-1251

用于西里尔字母表

Windows-1252

用于拉丁字母表

Windows-1253

用于希腊文

Windows-1254

用于土耳其语

Windows-1255

用于希伯莱语

Windows-1256

用于阿拉伯语

Windows-1257

用于爱沙尼亚,拉脱维亚和立陶宛语

Windows-1258

用于越南语
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  编码 utf-8 unicode gb2
相关文章推荐