Unicode编码简介
2015-04-23 01:24
162 查看
一、介绍一些简单的概念:
1.
字符(Characters):各种文字和符号的总称。
2.
字符集(Character
sets ):是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。
3.
编码:用户存储字符的一种方法。
4.
编码包括以下两种形式:
1)互相关联的代码页,即代码页之间存在相互包含的关系,例如:ANSI中包含Double
bytecharacter sets;
2)独立的代码页,即两种代码页之间是并列关系,不存在相互包含的关系,例如:ISO/IEC
10646 (UCS – 4& UCS –2)、Unicode
那么代码页长什么样呢?如下图:
5.
主要的编码类型包括
1)ASCII
编码
Windows1252/ISO8859-1
2)Windows/ISO
内置编码
GB2312,GB18030
3)UNICODE
编码
UTF-8
UTF-16
二、下面开始介绍Unicode相关的内容
1.
什么是 Unicode?
Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字.
(如下图)
2. Unicode字符的特点
1) Unicode是一个单一的,通用的字符编码标准。
2) Unicode是统一的,固定宽度的编码方案。
3) Unicode是与语言无关的代码页。
4) Unicode是所有ANSI字符集的一个超集。
5) Unicode字符集包括新字符集。
6) Unicode字符包含跨语言重复的编码。
7) Unicode编码的空间范围从U
+ 0000 U +10ffff。
3. UTF
编码方法
UTF – UnicodeTransformation Format,这种编码方式是Unicode这个组织制定的,将Unicode编码进行了转换,主要包括两种:
1)
UTF –8:主要用于计算机网络中的数据传输
2)
UTF –16:是具有可扩展性的Unicode,包含UTF-8。
4.
如何使用Unicode输入字符
方法1:在
MicrosoftOffice Word中,选中部分字符后按Alt
+ X,可以将字符转为对应的Unicode
例如:在word中输入“搜”,选中后按Alt+x,“搜”字就会变成“641C”
方法2:在Microsoft
OfficeWord中,选中四位数字,按Alt+X,可以将Unicode转为对应的字符
例如:在word中输入“641C”,选中后按Alt+x,“641C”就会变成“搜”字
方法3:使用“区位码”输入法
5.
有关的编码bug
1)
编码中出现“?”:
这是编码问题,原因是代码页选择正确,但是这个字符不在所选择的这个代码页中,所以使用
“?”来代替。
2)
编码出现各种乱码:
原因是代码页选择错误,对所要显示的字符无法进行解码,就显示了一堆随机的字符。
3)
编码中出现 “囗”:
是字体问题,原因是当前所选择的这个字符集中,没有对应的字体,但是有对应的字符。
6.
字符编码的测试范围
1)
进行安装操作时的系统环境:修改计算机名,工作组名,域名,登录名等为中文或其他字符
2)
路径:将程序安装到中文或其他字符的路径下
3)
文件的保存和打开
4)
可编辑区域
5)
查找和替换
6)
复制和粘贴
7)
产品中不同组件之间的字符传递
8)
与其他外部产品之间的字符传递。
9)
使用本地模式
原文链接
如需转载该篇文章,请注明来自“搜狗测试”
相关文章推荐
- 编码格式简介(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312
- python unicode 及解码编码方式简介
- 常见字符编码简介:ASCII、Unicode、UTF-8、UTF16
- [十]基础数据类型之Unicode编码简介
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312
- 三种常见字符编码简介:ASCII、Unicode和UTF-8
- 计算机编码简介(ASCII、ANSI、EBCDIC、Unicode)
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312(转)
- 编码格式简介:ASCII码、ANSI、GBK、GB2312、GB18030和Unicode、UTF-8,BOM头
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312
- 编码格式简介(ANSI、GBK、GB2312、UTF-8、GB18030和 UNICODE)
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312及Unicode和UTF-8如何转化
- 计算机编码简介(ASCII、ANSI、EBCDIC、Unicode)
- 三种常见字符编码简介:ASCII、Unicode和UTF-8
- 字符编码简介:ASCII,Unicode,UTF-8,GB2312
- 三种常见字符编码简介:ASCII、Unicode和UTF-8