您的位置:首页 > 其它

常见编码格式及字符集

2014-02-19 15:24 225 查看

常见编码格式及字符集主要有如下几种:

ASCII:

表示英语及西欧语言,用7个二进制位表示,能够表示128个字符,扩展表示用8个二进制位,表示256个字符。

GB2312:

国家简体中文字符集,兼容ASCII,使用16个二进制位表示,能够表示7445个汉字,包含6763个汉字,几近覆盖所有高频率汉字,是中国大陆的主要编码方式。当文章或网页包含繁体中文、日文、韩文等时,这些内容可能无法被正确编码和显示。

BIG5:

繁体中文编码方式,使用16个二进制位表示,表示13053个汉字,主要在台湾地区使用。

GBK:

它是GB2312的扩展,加入对繁体字的支持,兼容GB2312,使用16个二进制位表示,可表示21886个字符。虽然GBK支持简体和繁体中文,但对其他非拉丁字母语言的支持还是有问题的。

UNICODE:

世界650种语言的统一编码格式,有三种编码方式,分别为UTF-8、UTF-16、UTF-32,其中,以UTF-8最为通用,俗称“万国码”。UTF-8中字符使用8位序列来编码,用一个或几个字节来表示一个字符,它保留了ASCII码的编码作为它的一部分。

GB18030:

采用变字节编码,1个字节表示ASCII,2字节,4字节,可表示27484个字符,兼容GBK,解决了中文、日文、朝鲜语等的编码。

UCS:

国际标准ISO10646定义的通用字符集,与unicode类似,UCS-2与UNICODE兼容。具有两种格式,UCS-2、UCS-4,分别是2字节和4字节。

ISO-8859-1:

扩展ASCII,表示西欧、希腊语等。使用8位二进制位进行编码。

按所表示的文字分类,可以将字符编码格式分类如下:

语言字符集正式名称
英语、西欧语ASCII,ISO-8859-1MBCS多字节
简体中文GB2312MBCS多字节
繁体中文BIG5MBCS多字节
简繁中文GBKMBCS多字节
中文、日语、朝鲜语GB18030MBCS多字节
各国语言UNICODE,UCSMBCS多字节
注:MBCS,Multi-Byte Character System,多字节字符集,是一种替代Unicode以支持无法用单字节表示的字符集如中文、日文等的方法,为国际市场编码时应考虑使用Unicode或MBCS字符集,或使程序能够通过更改开关生成支持两种字符集之一的程序。最常见的MBCS的实现是双字节字符集DBCS。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  编码格式 字符集