您的位置:首页 > 其它

Unicode编码简介

2015-04-23 01:24 162 查看


一、介绍一些简单的概念:

1.
字符(Characters):各种文字和符号的总称。

2.
字符集(Character
sets ):是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同。

3.
编码:用户存储字符的一种方法。

4.
编码包括以下两种形式:

1)互相关联的代码页,即代码页之间存在相互包含的关系,例如:ANSI中包含Double
bytecharacter sets;

2)独立的代码页,即两种代码页之间是并列关系,不存在相互包含的关系,例如:ISO/IEC
10646 (UCS – 4& UCS –2)、Unicode

那么代码页长什么样呢?如下图:



5.
主要的编码类型包括

1)ASCII
编码

Windows1252/ISO8859-1

2)Windows/ISO
内置编码

GB2312,GB18030

3)UNICODE
编码

UTF-8

UTF-16

二、下面开始介绍Unicode相关的内容

1.
什么是 Unicode?

Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码,使得电脑可以用更为简单的方式来呈现和处理文字.
(如下图)



2. Unicode字符的特点

1) Unicode是一个单一的,通用的字符编码标准。

2) Unicode是统一的,固定宽度的编码方案。

3) Unicode是与语言无关的代码页。

4) Unicode是所有ANSI字符集的一个超集。

5) Unicode字符集包括新字符集。

6) Unicode字符包含跨语言重复的编码。

7) Unicode编码的空间范围从U
+ 0000 U +10ffff。

3. UTF
编码方法

UTF – UnicodeTransformation Format,这种编码方式是Unicode这个组织制定的,将Unicode编码进行了转换,主要包括两种:

1)
UTF –8:主要用于计算机网络中的数据传输

2)
UTF –16:是具有可扩展性的Unicode,包含UTF-8。

4.
如何使用Unicode输入字符

方法1:在
MicrosoftOffice Word中,选中部分字符后按Alt
+ X,可以将字符转为对应的Unicode

例如:在word中输入“搜”,选中后按Alt+x,“搜”字就会变成“641C”

方法2:在Microsoft
OfficeWord中,选中四位数字,按Alt+X,可以将Unicode转为对应的字符

例如:在word中输入“641C”,选中后按Alt+x,“641C”就会变成“搜”字

方法3:使用“区位码”输入法

5.
有关的编码bug

1)
编码中出现“?”:

这是编码问题,原因是代码页选择正确,但是这个字符不在所选择的这个代码页中,所以使用
“?”来代替。

2)
编码出现各种乱码:

原因是代码页选择错误,对所要显示的字符无法进行解码,就显示了一堆随机的字符。

3)
编码中出现 “囗”:

是字体问题,原因是当前所选择的这个字符集中,没有对应的字体,但是有对应的字符。

6.
字符编码的测试范围

1)
进行安装操作时的系统环境:修改计算机名,工作组名,域名,登录名等为中文或其他字符

2)
路径:将程序安装到中文或其他字符的路径下

3)
文件的保存和打开

4)
可编辑区域

5)
查找和替换

6)
复制和粘贴

7)
产品中不同组件之间的字符传递

8)
与其他外部产品之间的字符传递。

9)
使用本地模式





原文链接

如需转载该篇文章,请注明来自“搜狗测试”
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息