您的位置:首页 > 编程语言 > Java开发

JAVA 代码点和代码单元

2016-12-27 21:46 148 查看
代码点指编码表(比如Unicode)中某个字符的代码值(数字),在Unicode标准中,代码点采用十六进制书写,书写时前面加U+,比如U+0041是字母A的代码点.

Unicode的代码点可以分为17个代码级别。第一个代码级别称为基本的多语言级别,代码点从U+0000到U+FFFF,其余16个附加级别,代码点从U+10000到U+10FFFF,其中包含了一些辅助字符。

UTF-16编码采用不同长度的编码表示所有的Unicode编码。基本的多语言级别,每个字符用16位表示;而辅助字符采用一对连续的代码单元进行编码。这样构成的编码值一定落入基本的多语言级别中空闲的2048字节内,通常成为替代区域。U+D800--U+DBFF用于第一个代码单元,U+DC00--U+DFFF用于第二个代码单元。

java中的代码单元指表示编码表字符的最小存储单元,用16位表示

Unicode 代码点U+0041U+00DFU+6771U+10400
表示字形
UTF-32 代码单元
00000041
000000DF
00006771
00010400
UTF-16 代码单元
0041
00DF
6771
D801DC00
UTF-8 代码单元
41
C39F
E69DB1
F0909080
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: