汉字字符编码与转码详解,iso-8859-1的妙用
2015-05-21 18:13
141 查看
程序中有汉字参数,经常会遇到编码转码问题,总结下:
1.汉字为多字节字符,须多字节编码解码,如"测试".getBytes("GBK");
这样"测试".getBytes("GBK")就变成一个byte数组,这时候你可以随意重新指定编码如iso-8859-1,
String s1=new String("测试".getBytes("GBK"),"iso-8859-1");
编为s1,这是s1就变成一个是iso-8859-1编码的字符串,如果你想重新转为中文,那么,你用什么字符集编码的,必须用什么字符集来解 码,这里是iso-8859-1,可以这么来做
String s2 = new String(s1.getBytes("ISO-8859-1"),"GBK");
这样s2又重新变回中文了,所以当你打印s2时,就是“测试”。
2.用iso-8859-1做中间编码,注意不是开始编码和编回的编码(开始和编回的可用GBK或者UTF8),只做中间编码,原因:
[1]iso-8859-1是单字节字符编码,
[2]ANSI 编码 (如:GB2312, GBK(gbk包括了gb2312),BIG5,Shift_JIS,ISO-8859-2等等),是多字节编码(英文单字节,中文多字节),不是定长编码;
[3]UNICODE ,UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig,是宽字节编码(所有字符均是多字节)
因此用iso-8859-1做中间码,会保持原有字节的秩序,不发生混乱;可以理解为其他的编码对iso-8859-1兼容吧。
因此,我们常常使用iso-8859-1做中间码来进行逆向操作,得到原始的“字节串”。
String s1=new String("测试".getBytes("GBK"),"iso-8859-1");
bytes = s1.getBytes("iso-8859-1")
然后再使用正确的ANSI 编码,比如 string = new String(bytes, "GBK"),来得到正确的“UNICODE 字符串”。
GBK-> iso-8859-1 -> iso-8859-1 -> GBK
不信的话可以试试,utf8和gb不能互相转换,只有iso-8859-1做中间码可以完美互相转码!!!
utf-8编码可以用gbk和iso8859-1解码后编回去
gbk编码后只能用iso8859-1解码后编回去
看个例子:
结果:
3.setCharacterEncoding() 该函数用来设置http请求或者相应的编码。
对于request,是指提交内容的编码,指定后可以通过getParameter()则直接获得正确的字符串,如果不指定,则默认使用iso8859-1编码,需要进一步处理。参见下述"表单输入"。值得注意的是在执行setCharacterEncoding()之前,不能执行任何getParameter()。java doc上说明:This method must be called prior to reading request parameters or reading input using getReader()。而且,该指定只对POST方法有效,对GET方法无效。分析原因,应该是在执行第一个getParameter()的时候,java将会按照编码分析所有的提交内容,而后续的getParameter()不再进行分析,所以setCharacterEncoding()无效。而对于GET方法提交表单是,提交的内容在URL中,一开始就已经按照编码分析所有的提交内容,setCharacterEncoding()自然就无效。
对于response,则是指定输出内容的编码,同时,该设置会传递给浏览器,告诉浏览器输出内容所采用的编码。
在JSP页面获取表单的值时会出现乱码,有两种解决方法:
一种是在调用getParameter之前通过request.setCharacterEncoding设置字符编码,
另一种是调用new String(str.getBytes("iso8859-1"), "UTF-8");编码后解码,这两种方法都可以得到正确的结果
1.汉字为多字节字符,须多字节编码解码,如"测试".getBytes("GBK");
这样"测试".getBytes("GBK")就变成一个byte数组,这时候你可以随意重新指定编码如iso-8859-1,
String s1=new String("测试".getBytes("GBK"),"iso-8859-1");
编为s1,这是s1就变成一个是iso-8859-1编码的字符串,如果你想重新转为中文,那么,你用什么字符集编码的,必须用什么字符集来解 码,这里是iso-8859-1,可以这么来做
String s2 = new String(s1.getBytes("ISO-8859-1"),"GBK");
这样s2又重新变回中文了,所以当你打印s2时,就是“测试”。
2.用iso-8859-1做中间编码,注意不是开始编码和编回的编码(开始和编回的可用GBK或者UTF8),只做中间编码,原因:
[1]iso-8859-1是单字节字符编码,
[2]ANSI 编码 (如:GB2312, GBK(gbk包括了gb2312),BIG5,Shift_JIS,ISO-8859-2等等),是多字节编码(英文单字节,中文多字节),不是定长编码;
[3]UNICODE ,UTF-8, UTF-7, UTF-16, UnicodeLittle, UnicodeBig,是宽字节编码(所有字符均是多字节)
因此用iso-8859-1做中间码,会保持原有字节的秩序,不发生混乱;可以理解为其他的编码对iso-8859-1兼容吧。
因此,我们常常使用iso-8859-1做中间码来进行逆向操作,得到原始的“字节串”。
String s1=new String("测试".getBytes("GBK"),"iso-8859-1");
bytes = s1.getBytes("iso-8859-1")
然后再使用正确的ANSI 编码,比如 string = new String(bytes, "GBK"),来得到正确的“UNICODE 字符串”。
GBK-> iso-8859-1 -> iso-8859-1 -> GBK
不信的话可以试试,utf8和gb不能互相转换,只有iso-8859-1做中间码可以完美互相转码!!!
utf-8编码可以用gbk和iso8859-1解码后编回去
gbk编码后只能用iso8859-1解码后编回去
看个例子:
byte[] utf = "测试".getBytes("UTF8"); byte[] gbk = "测试".getBytes("GBK"); byte[] iso = "测试".getBytes("iso-8859-1"); String utf_gbk = new String(utf,"GBK"); String utf_iso = new String(utf,"iso-8859-1"); String utf_gbk_gbk_utf = new String(utf_gbk.getBytes("GBK"),"UTF8"); String utf_iso_ios_utf = new String(utf_iso.getBytes("iso-8859-1"),"UTF8"); System.out.println("utf被gbk,iso编后:=========="); System.out.println(utf_gbk); System.out.println(utf_iso); System.out.println("utf被编回:=========="); System.out.println(utf_gbk_gbk_utf); System.out.println(utf_iso_ios_utf); String gbk_utf = new String(gbk,"UTF8"); String gbk_iso = new String(gbk,"iso-8859-1"); String gbk_utf_utf_gbk = new String(gbk_utf.getBytes("UTF8"),"GBK"); String gbk_iso_iso_gbk = new String(gbk_iso.getBytes("iso-8859-1"),"GBK"); System.out.println("gbk被utf,iso编后:=========="); System.out.println(gbk_utf); System.out.println(gbk_iso); System.out.println("gbk被编回:=========="); System.out.println(gbk_utf_utf_gbk); System.out.println(gbk_iso_iso_gbk); String iso_utf = new String(iso,"UTF8"); String iso_gbk = new String(iso,"GBK"); String iso_utf_utf_iso = new String(iso_utf.getBytes("UTF8"),"iso-8859-1"); String iso_gbk_utf_iso = new String(iso_gbk.getBytes("GBK"),"iso-8859-1"); System.out.println("iso被utf,gbk编后:=========="); System.out.println(iso_utf); System.out.println(iso_gbk); System.out.println("iso被编回:=========="); System.out.println(iso_utf_utf_iso); System.out.println(iso_gbk_utf_iso);
结果:
utf被gbk,iso编后:========== 娴嬭瘯 æµè¯ utf被编回:========== 测试 测试 gbk被utf,iso编后:========== ���� ²âÊÔ gbk被编回:========== 锟斤拷锟斤拷 测试 iso被utf,gbk编后:========== ?? ?? iso被编回:========== ?? ??
3.setCharacterEncoding() 该函数用来设置http请求或者相应的编码。
对于request,是指提交内容的编码,指定后可以通过getParameter()则直接获得正确的字符串,如果不指定,则默认使用iso8859-1编码,需要进一步处理。参见下述"表单输入"。值得注意的是在执行setCharacterEncoding()之前,不能执行任何getParameter()。java doc上说明:This method must be called prior to reading request parameters or reading input using getReader()。而且,该指定只对POST方法有效,对GET方法无效。分析原因,应该是在执行第一个getParameter()的时候,java将会按照编码分析所有的提交内容,而后续的getParameter()不再进行分析,所以setCharacterEncoding()无效。而对于GET方法提交表单是,提交的内容在URL中,一开始就已经按照编码分析所有的提交内容,setCharacterEncoding()自然就无效。
对于response,则是指定输出内容的编码,同时,该设置会传递给浏览器,告诉浏览器输出内容所采用的编码。
在JSP页面获取表单的值时会出现乱码,有两种解决方法:
一种是在调用getParameter之前通过request.setCharacterEncoding设置字符编码,
另一种是调用new String(str.getBytes("iso8859-1"), "UTF-8");编码后解码,这两种方法都可以得到正确的结果
相关文章推荐
- 中文乱码问题 ? 原因:JSP中默认使用iso-8859-1字符编码方式,不支持中文 ? 常见的支持中文的编码方式:gb2312(常用简体汉字)、gbk(简体和繁体汉字)、utf-8 ? 解决中文乱码
- 字符编码详解(ASCII ,utf-8,unicode,gbk,gb2312,iso 8859-1等)
- ISO-8859-1 、 UTF-8 、 Unicode Code 转码对照表(一部分:规律/ 二部分:详解/ 三部分:表格)
- 彻底搞清楚字符编码: ASCII, ISO_8859, GB2312,UCS, Unicode, UTF8.(GBK, GB18030, BIG5, UTF-7,UTF-16,UTF-32)
- 在Apache Tomcat中一劳永逸的汉字处理方法:从iso-8859-1到UTF-8
- 各种编码方式详解,ASCII、ISO-8859-1、GB2312、GBK、UTF-16、UTF-8等
- ascii码 iso 8859-1 Unicode 字符编码 UTF8编码 区别 表格
- 彻底搞清楚字符编码: ASCII, ISO_8859, GB2312,UCS, Unicode, UTF8.(GBK, GB18030, BIG5, UTF-7,UTF-16,UTF-32) .
- jsp页面中的汉字问题和表单提交汉字问题(***.getBytes("ISO-8859-1")行报错)
- ascii码 iso 8859-1 Unicode 字符编码 UTF8编码 区别 表格
- 彻底搞清楚字符编码: ASCII, ISO_8859, GB2312,UCS, Unicode, Utf-8
- ISO 8859(GBK) 编码文件转码到UTF-8编码文件
- ISO 8859 语言字符集详解
- PHP版 汉字转码的实现详解
- 查看和设置MySQL数据库字符集(转) (默认情况下,mysql的字符集是latin1(ISO_8859_1)(注:MySQL5.6不能用此方法修改字符编码)
- 彻底搞清楚字符编码: ASCII, ISO_8859, GB2312,UCS, Unicode, UTF8.(GBK, GB18030, BIG5, UTF-7,UTF-16,UTF-32)
- 字符编码详解及由来(UNICODE,UTF-8,GBK)[转帖]
- JAVA字符编码系列二:Unicode,ISO-8859,GBK,UTF-8编码及相互转换
- 用UltraISO写入ISO映像到U盘USB-HDD启动详解 img_usb镜像制作