查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码
2017-11-11 16:14
2081 查看
在所有IT项目中,汉字字符编码带来的问题是一个不小的工作量,经常导致乱码的发生。快速查询任意汉字的编码能够更快的定位错误。糖果云库新增了汉字字符集库,可查询任意汉字的Unicode编码,UTF8编码,GB2312编码,GBK编码,库的链接为:
http://www.tgyun.cc/lib/bigtang_汉字字符集
GB2312编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE。
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GBK编码范围:8140-FEFE,汉字编码范围见第二节:码位分配及顺序。
GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是”Universal Multiple-Octet Coded Character Set”,简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。
UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。
UCS-2有2^16=65536个码位,常说的Unicode编码指的是UCS-2的编码,它又有两种表示方法:
UTF-8就是以8位为单元对UCS进行编码。UTF-16以16位为单元对UCS进行编码。
http://www.tgyun.cc/lib/bigtang_汉字字符集
GB2312编码范围:A1A1-FEFE,其中汉字编码范围:B0A1-F7FE。
GB2312编码是第一个汉字编码国家标准,由中国国家标准总局1980年发布,1981年5月1日开始使用。GB2312编码共收录汉字6763个,其中一级汉字3755个,二级汉字3008个。同时,GB2312编码收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。
GBK编码范围:8140-FEFE,汉字编码范围见第二节:码位分配及顺序。
GBK编码,是对GB2312编码的扩展,因此完全兼容GB2312-80标准。GBK编码依然采用双字节编码方案,其编码范围:8140-FEFE,剔除xx7F码位,共23940个码位。共收录汉字和图形符号21886个,其中汉字(包括部首和构件)21003个,图形符号883个。GBK编码支持国际标准ISO/IEC10646-1和国家标准GB13000-1中的全部中日韩汉字,并包含了BIG5编码中的所有汉字。GBK编码方案于1995年12月15日正式发布,这一版的GBK规范为1.0版。
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是”Universal Multiple-Octet Coded Character Set”,简称为UCS。UCS可以看作是”Unicode Character Set”的缩写。
UCS有两种格式:UCS-2和UCS-4。顾名思义,UCS-2就是用两个字节编码,UCS-4就是用4个字节(实际上只用了31位,最高位必须为0)编码。
UCS-2有2^16=65536个码位,常说的Unicode编码指的是UCS-2的编码,它又有两种表示方法:
UTF-8就是以8位为单元对UCS进行编码。UTF-16以16位为单元对UCS进行编码。
相关文章推荐
- python中的汉字编码问题,兼及Qt,兼及各种编码 unicode, utf8,gbk,gb2312,gb18030.....
- python的编码判断_unicode_gbk/gb2312_utf8(附函数)
- MySQL学习6-编码方式-UTF8-GBK-ANSI-Unicode-GB2312-base64
- VC 实现 汉字 GBK(GB2312) 转化为 UTF8 编码
- VC 实现 汉字 GBK(GB2312) 转化为 UTF8 编码
- ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别
- BIG5编码, GB编码(GB2312, GBK, ...), Unicode编码, UTF8, WideChar, MultiByte, Char 说明与区别
- ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030各种常用编码区别
- java中以utf8和gbk编码的汉字对应的二进制,以及用unicode进行正则匹配
- VC 实现 汉字 GBK(GB2312) 转化为 UTF8 编码
- Python 2X 版本 痛苦的编码格式,一遍完美解决Unicode、GB2312、GBK编码格式的文章
- Linux下汉字编码的转换(gbk转换为utf8)
- 【转】对字符编码与Unicode,ISO 10646,UCS,UTF8,UTF16,GBK,GB2312的理解[holen@donews]
- 各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解
- python中编码问题——unicode, gbk, utf8
- 中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030
- ASCII 、GB2312、GBK、GB18030、unicode、UTF-8字符集编码详解
- 【JAVA编码专题】JAVA字符编码系列一:Unicode,GBK,GB2312,UTF-8概念基础
- 中文字符集编码Unicode ,gb2312 , cp936 ,GBK,GB18030
- 各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解