您的位置：首页 > 其它

汉字字符编码与转码详解，iso-8859-1的妙用

2015-05-21 18:13 141 查看

程序中有汉字参数，经常会遇到编码转码问题，总结下：
1.汉字为多字节字符，须多字节编码解码，如"测试".getBytes("GBK");

这样"测试".getBytes("GBK")就变成一个byte数组，这时候你可以随意重新指定编码如iso-8859-1,
String s1=new String("测试".getBytes("GBK"),"iso-8859-1");

编为s1,这是s1就变成一个是iso-8859-1编码的字符串，如果你想重新转为中文，那么，你用什么字符集编码的，必须用什么字符集来解码，这里是iso-8859-1,可以这么来做

String s2 = new String(s1.getBytes("ISO-8859-1"),"GBK");

这样s2又重新变回中文了，所以当你打印s2时，就是“测试”。

2.用iso-8859-1做中间编码，注意不是开始编码和编回的编码（开始和编回的可用GBK或者UTF8），只做中间编码，原因：

[1]iso-8859-1是单字节字符编码，

[2]ANSI 编码 (如：GB2312, GBK(gbk包括了gb2312),BIG5,Shift_JIS,ISO-8859-2等等），是多字节编码（英文单字节，中文多字节）,不是定长编码；

[3]UNICODE ,UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig,是宽字节编码（所有字符均是多字节）

因此用iso-8859-1做中间码，会保持原有字节的秩序，不发生混乱；可以理解为其他的编码对iso-8859-1兼容吧。

因此，我们常常使用iso-8859-1做中间码来进行逆向操作，得到原始的“字节串”。

String s1=new String("测试".getBytes("GBK"),"iso-8859-1");

bytes = s1.getBytes("iso-8859-1")

然后再使用正确的ANSI 编码，比如 string = new String(bytes, "GBK")，来得到正确的“UNICODE 字符串”。

GBK-> iso-8859-1 -> iso-8859-1 -> GBK

不信的话可以试试，utf8和gb不能互相转换，只有iso-8859-1做中间码可以完美互相转码！！！

utf-8编码可以用gbk和iso8859-1解码后编回去
gbk编码后只能用iso8859-1解码后编回去

看个例子：

byte[] utf = "测试".getBytes("UTF8");
byte[] gbk = "测试".getBytes("GBK");
byte[] iso = "测试".getBytes("iso-8859-1");

String utf_gbk = new String(utf,"GBK");
String utf_iso = new String(utf,"iso-8859-1");

String utf_gbk_gbk_utf = new String(utf_gbk.getBytes("GBK"),"UTF8");
String utf_iso_ios_utf = new String(utf_iso.getBytes("iso-8859-1"),"UTF8");

System.out.println("utf被gbk,iso编后：==========");
System.out.println(utf_gbk);
System.out.println(utf_iso);

System.out.println("utf被编回：==========");
System.out.println(utf_gbk_gbk_utf);
System.out.println(utf_iso_ios_utf);

String gbk_utf = new String(gbk,"UTF8");
String gbk_iso = new String(gbk,"iso-8859-1");

String gbk_utf_utf_gbk = new String(gbk_utf.getBytes("UTF8"),"GBK");
String gbk_iso_iso_gbk = new String(gbk_iso.getBytes("iso-8859-1"),"GBK");
System.out.println("gbk被utf,iso编后：==========");
System.out.println(gbk_utf);
System.out.println(gbk_iso);

System.out.println("gbk被编回：==========");
System.out.println(gbk_utf_utf_gbk);
System.out.println(gbk_iso_iso_gbk);

String iso_utf = new String(iso,"UTF8");
String iso_gbk = new String(iso,"GBK");

String iso_utf_utf_iso = new String(iso_utf.getBytes("UTF8"),"iso-8859-1");
String iso_gbk_utf_iso = new String(iso_gbk.getBytes("GBK"),"iso-8859-1");
System.out.println("iso被utf,gbk编后：==========");
System.out.println(iso_utf);
System.out.println(iso_gbk);

System.out.println("iso被编回：==========");
System.out.println(iso_utf_utf_iso);
System.out.println(iso_gbk_utf_iso);

结果：

utf被gbk,iso编后：==========
娴嬭瘯
æµè¯
utf被编回：==========
测试
测试
gbk被utf,iso编后：==========
����
²âÊÔ
gbk被编回：==========
锟斤拷锟斤拷
测试
iso被utf,gbk编后：==========
??
??
iso被编回：==========
??
??

3.setCharacterEncoding() 该函数用来设置http请求或者相应的编码。

对于request，是指提交内容的编码，指定后可以通过getParameter()则直接获得正确的字符串，如果不指定，则默认使用iso8859-1编码，需要进一步处理。参见下述"表单输入"。值得注意的是在执行setCharacterEncoding()之前，不能执行任何getParameter()。java doc上说明：This method must be called prior to reading request parameters or reading input using getReader()。而且，该指定只对POST方法有效，对GET方法无效。分析原因，应该是在执行第一个getParameter()的时候，java将会按照编码分析所有的提交内容，而后续的getParameter()不再进行分析，所以setCharacterEncoding()无效。而对于GET方法提交表单是，提交的内容在URL中，一开始就已经按照编码分析所有的提交内容，setCharacterEncoding()自然就无效。

对于response，则是指定输出内容的编码，同时，该设置会传递给浏览器，告诉浏览器输出内容所采用的编码。

在JSP页面获取表单的值时会出现乱码，有两种解决方法：

一种是在调用getParameter之前通过request.setCharacterEncoding设置字符编码，

另一种是调用new String(str.getBytes("iso8859-1"), "UTF-8");编码后解码，这两种方法都可以得到正确的结果

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航