您的位置:首页 > 编程语言 > Java开发

JAVA中文字节编码确认

2014-11-09 09:24 337 查看
在使用java进行程序开发时,难免会遇到中文乱码的问题,如果已经确定知道中文字符串的初始编码,问题就很简单,只需要经过java提供的编码转换的接口转换一下即可,但有时候不知道初试编码是什么,比如从文件读取或者第三方接口返回的中文,这时候就无法确定该如何进行编码转换,在遇到这个问题的时候,不能乱碰尝试,这样是很低效的,我使用的方法是将中文字符串转换成字节数组,然后对照编码表来确认编码方式.在这里做下具体记录.

先列举下几种常见编码的中文表示方式:

1 ISO-8859-1

这种编码为单字节编码,字符集里不包括中文,无法表示中文字符

2 GBK、GB2312

中文标准编码、gb2312是gbk的子集,用来表示简体中文,用两个字节表示一个中文,例如字符串"你好",转换成字节数组后,字节数组的长度为4,一个汉字对应两个字节

3 UTF-8

使用3个字节来表示一个汉字

String ch = "浏览器";
byte[] array = ch.getBytes();
for(int i=0;i<array.length;i++){
System.out.print(array[i]);
}


打印的结果是:-28、-81、-64、-64、-58、-9

先转换为16进制,-28的二进制为28二进制取反后加1,28的二进制代码为:0001 1100,取反为:1110 0011 ,在加1为:1110 0100,对应的16进制为:E4

-81对应的16进制为:AF

查询编码表,"浏"对应的编码为:

GBK:E4AF

UNICODE:6D4F

所以可以确定编码为gbk编码
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: