您的位置:首页 > 编程语言 > Java开发

Java字符编码转换过程说明

2012-01-15 01:53 316 查看
======================================================

注:本文源代码点此下载

======================================================

jvm
jvm启动后,jvm会设置一些系统属性以表明jvm的缺省区域。
user.language,user.region,file.encoding等。 可以使用system.getproperties()详
细查看所有的系统属性。
如在英文操作系统(如unix)下,可以使用如下属性定义强制指定jvm为中文环境
-dclient.encoding.override=gbk -dfile.encoding=gbk -duser.language=zh
-duser.region=cn
.java-->.class编译
说明:一般javac根据当前os区域设置,自动决定源文件的编码.可以通过-encoding强制
指定.
错误可能:
1 gbk编码源文件在英文环境下编译,javac不能正确转换.曾见于java/jsp在英文unix
下. 检测方法:写\u4e00格式的汉字,绕开javac编码,再在jvm中,将汉字作为int打印,
看值是否相等;或直接以utf-8编码打开.class文件,看看常量字符串是否正确保存汉
字。
文件读写
外部数据如文件经过读写和转换两个步骤,转为jvm所使用字符。
inputstream/outputstream用于读写原始外部数据,reader/writer执行读写和转换两
个步骤。
1 文件读写转换由java.io.reader/writer执行;输入输出流
inputstream/outputstream处理汉字不合适,应该首选使用reader/writer,如
filereader/filewriter。
2 filereader/filewriter使用jvm当前编码读写文件.如果有其它编码格式,使用
inputstreamreader/outputstreamwriter
3 printstream有点特殊,它自动使用jvm缺省编码进行转换。
读取.properties文件
.propeties文件由properties类以iso8859-1编码读取,因此不能在其中直接写汉字,
需要使用jdk 的native2ascii工具转换汉字为\uxxxx格式。命令行:native2ascii –
encoding gbk inputfile outputfile
读取xml文件
1 xml文件读写同于文件读写,但应注意确保xml头中声明如与文件编码保持一致。
2 javax.xml.saxparser类接受inputstream作为输入参数,对于reader,需要用
org.xml.sax.inputsource包装一下,再给saxparser。
3 对于utf-8编码 xml,注意防止编辑器自动加上\ufffe bom头, xml parser会报告
content is not allowed in prolog。
字节数组
1 使用 new string(bytearray,encoding) 和string.getbytes(encoding)在字节
数组和字符串之间进行转换
也可以用bytearrayinputstream/bytearrayoutputstream转为流后再用
inputstreamreader/outputstreamwriter转换。
错误编码的字符串(iso8859-1转码gbk)
如果我们得到的字符串是由错误的转码方式产生的,例如:对于gbk中文,由iso8859-1
方式转换,此时如果用调试器看到的字符串一般是 的样子,长度一般为文本的字节长
度,而非汉字个数。
可以采用如下方式转为正确的中文:
text = new string( text.getbytes(“iso8859-1”),”gbk”);
jdbc
转换过程由jdbc driver执行,取决于各jdbc数据库实现。对此经验尚积累不够。
1 对于oracle数据库,需要数据库创建时指定编码方式为gbk,否则会出现汉字转码错

2 对于 sql server 2000 ,最好以nvarchar/nchar类型存放文本,即不存在中文/编码
转换问题。
3 连接 mysql,将 connectionstring 设置成 encoding 为 gb2312:
string connectionstring=
"jdbc:mysql://localhost/test?useunicode=true&characterencoding=gb2312";
web/servlet/jsp
1 对于jsp,确定头部加上 这
样的标签。
2 对于servlet,确定 设置setcontenttype (“text/html; charset=gb2312”),以上
两条用于使得输出汉字没有问题。
3 为输出html head中加一个,让浏览器正确确定html编码。
4 为web应用加一个filter,确保每个request明确调用setcharacterencoding方法,让
输入汉字能够正确解析。
import java.io.ioexception;
import javax.servlet.filter;
import javax.servlet.filterchain;
import javax.servlet.filterconfig;
import javax.servlet.servletexception;
import javax.servlet.servletrequest;
import javax.servlet.servletresponse;
import javax.servlet.unavailableexception;
import javax.servlet.http.httpservletrequest;
/**
* example filter that sets the character encoding to be used in parsing the
* incoming request
*/
public class setcharacterencodingfilter
implements filter {
public setcharacterencodingfilter()
{}
protected boolean debug = false;
protected string encoding = null;
protected filterconfig filterconfig = null;
public void destroy() {
this.encoding = null;
this.filterconfig = null;
}
public void dofilter(servletrequest request, servletresponse response,
filterchain chain) throws ioexception,
servletexception {
//if (request.getcharacterencoding() == null)
//{
//string encoding = getencoding();
//if (encoding != null)
//request.setcharacterencoding(encoding);
//
//}
request.setcharacterencoding(encoding);
if ( debug ){
system.out.println(
((httpservletrequest)request).getrequesturi()+"setted to "+encoding );
}
chain.dofilter(request, response);
}
public void init(filterconfig filterconfig) throws servletexception {
this.filterconfig = filterconfig;
this.encoding = filterconfig.getinitparameter("encoding");
this.debug = "true".equalsignorecase(
filterconfig.getinitparameter("debug") );
}
protected string getencoding() {
return (this.encoding);
}
}
web.xml中加入:
localencodingfilter
localencodingfilter
com.ccb.ectipmanager.request.setcharacterencodingfilter
encoding
gb2312
debug
false
localencodingfilter
/*
5 用于weblogic(vedor-specific):
其一:在web.xml里加上如下脚本:
weblogic.httpd.inputcharset./*
gbk
其二(可选)在weblogic.xml里加上如下脚本:
/*
gbk
swing/awt/swt
对于swing/awt,java会有些缺省字体如dialog/san serif,这些字体到系统真实字体
的映射在$jre_home/lib/font.properties.xxx文件中指定。排除字体显示问题时,首
先需要确定jvm的区域为zh_cn,这样font.properties.zh_cn文件才会发生作用。对于
font.properties.zh_cn , 需要检查是否映射缺省字体到中文字体如宋体。
在swing中,java自行解释ttf字体,渲染显示;对于awt,swt显示部分交由操作系统。
首先需要确定系统装有中文字体。
1 汉字显示为”□”,一般为显示字体没有使用中文字体,因为java对于当前字体显示
不了的字符,不会像windows一样再采用缺省字体显示。
2 部分不常见汉字不能显示,一般为显示字库中汉字不全,可以换另外的中文字体试
试。
3 对于awt/swt,首先确定jvm运行环境的区域设置为中文,因为此处设计jvm与操作系
统api调用的转换问题,再检查其它问题。
jni
jni中jstring以utf-8编码给我们,需要我们自行转为本地编码。对于windows,可以采
用widechartomultibyte/multibytetowidechar函数进行转换,对于unix,可以采用
iconv库。
这里从sun jdk 1.4 源代码中找到一段使用jvm string 对象的getbytes的转换方式,
相对简单和跨平台,不需要第三方库,但速度稍慢。函数原型如下:
/* convert between java strings and i18n c strings */
jniexport jstring
newstringplatform(jnienv *env, const char *str);
jniexport const char *
getstringplatformchars(jnienv *env, jstring jstr, jboolean *iscopy);
jniexport jstring jnicall
jnu_newstringplatform(jnienv *env, const char *str);
jniexport const char * jnicall
jnu_getstringplatformchars(jnienv *env, jstring jstr, jboolean *iscopy);
jniexport void jnicall
jnu_releasestringplatformchars(jnienv *env, jstring jstr, const char *str);
附件jni_util.h,jni_util.c
tuxedo/jolt
jolt对于传递的字符串需要用如下进行转码
new string(ls_tt.getbytes("gbk"),"iso8859-1")
对于返回的字符串
new string(error_message.getbytes("iso8859-1"),"gbk");
jolt 的系统属性 bea.jolt.encoding不应该设置,如果设置,jsh会报告说错误的协议.
jdk1.4/1.5新增部分
字符集相关类(charset/charsetencoder/charsetdecoder)
jdk1.4开始,对字符集的支持在java.nio.charset包中实现。
常用功能:
1 列出jvm所支持字符集:charset.availablecharsets()
2 能否对看某个unicode字符编码,charsetencoder.canencode()
unicode surrogate/cjk ext b
unicode 范围一般所用为\u0000-\uffff范围,jvm使用1个char就可以表示,对于cjk
ext b区汉字,范围大于\u20000,则需要采用2个char方能表示,此即unicode
surrogate。这2个char的值范围 落在character.surrogate 区域内,用
character.gettype()来判断。
jdk 1.4尚不能在swing中正确处理surrogate区的unicode字符,jdk1.5可以。对于cjk
ext b区汉字,目前可以使用的字库为”宋体-方正超大字符集”,随office安装。
常见问题
在jvm下,用system.out.println不能正确打印中文,显示为???
system.out.println是printstream,它采用jvm缺省字符集进行转码工作,如果jvm的
缺省字符集为iso8859-1,则中文显示会有问题。此问题常见于unix下,jvm的区域没有
明确指定的情况。
在英文unix环境下,用system.out.println能够正确打印汉字,但是内部处理错误
可能是汉字在输入转换时,就没有正确转码:
即gbk文本à(iso8859-1转码)àjvm char(iso8859-1编码汉字)à (iso8859-1转码)à
输出。
gbk汉字经过两次错误转码,原封不动的被传递到输出,但是在jvm中,并未以正确的
unicode编码表示,而是以一个汉字字节一个char的方式表示,从而导致此类错误。
gb2312-80,gbk,gb18030-2000 汉字字符集
gb2312-80 是在国内计算机汉字信息技术发展初始阶段制定的,其中包含了大部分常用
的一、二级汉字,和 9 区的符号。该字符集是几乎所有的中文系统和国际化的软件都
支持的中文字符集,这也是最基本的中文字符集。其编码范围是高位0xa1-0xfe,低位
也是 0xa1-0xfe;汉字从 0xb0a1 开始,结束于 0xf7fe;
gbk 是 gb2312-80 的扩展,是向上兼容的。它包含了 20902 个汉字,其编码范围是
0x8140-0xfefe,剔除高位 0x80 的字位。其所有字符都可以一对一映射到 unicode 2.
0,也就是说 java 实际上提供了 gbk 字符集的支持。这是现阶段 windows 和其它一
些中文操作系统的缺省字符集,但并不是所有的国际化软件都支持该字符集,感觉是他
们并不完全知道 gbk 是怎么回事。值得注意的是它不是国家标准,而只是规范。随着
gb18030-2000国标的发布,它将在不久的将来完成它的历史使命。
gb18030-2000(gbk2k) 在 gbk 的基础上进一步扩展了汉字,增加了藏、蒙等少数民族
的字形。gbk2k 从根本上解决了字位不够,字形不足的问题。它有几个特点,
它并没有确定所有的字形,只是规定了编码范围,留待以后扩充。
编码是变长的,其二字节部分与 gbk 兼容;四字节部分是扩充的字形、字位,其编码
范围是首字节 0x81-0xfe、二字节0x30-0x39、三字节 0x81-0xfe、四字节0x30-0x39。
utf-8/utf-16/utf-32
utf,即unicode transformer format,是unicode代码点(code point)的实际表示方
式,按其基本长度所用位数分为utf-8/16/32。它也可以认为是一种特殊的外部数据编
码,但能够与unicode代码点做一一对应。
utf-8是变长编码,每个unicode代码点按照不同范围,可以有1-3字节的不同长度。
utf-16长度相对固定,只要不处理大于\u200000范围的字符,每个unicode代码点使用
16位即2字节表示,超出部分使用两个utf-16即4字节表示。按照高低位字节顺序,又分
为utf-16be/utf-16le。
utf-32长度始终固定,每个unicode代码点使用32位即4字节表示。按照高低位字节顺
序,又分为utf-32be/utf-32le。
utf编码有个优点,即尽管编码字节数不等,但是不像gb2312/gbk编码一样,需要从文
本开始寻找,才能正确对汉字进行定位。在utf编码下,根据相对固定的算法,从当前
位置就能够知道当前字节是否是一个代码点的开始还是结束,从而相对简单的进行字符
定位。不过定位问题最简单的还是utf-32,它根本不需要进行字符定位,但是相对的大
小也增加不少。
关于gcj jvm
gcj并未完全依照sun jdk的做法,对于区域和编码问题考虑尚不够周全。gcj启动时,
区域始终设为en_us,编码也缺省为iso8859-1。但是可以用reader/writer做正确编码

======================================================

在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定
这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: