Java中字符串在不同字符编码中所占字节数
2014-04-27 21:34
330 查看
Java中字符串所占的字节数和字符编码密切相关。
Java编码实际上可以涉及这几个方面的知识:IDE的编码,操作系统默认编码,Java字符编码。
例如:我们使用eclipse编写Java程序时,可以在工程属性中设置Java程序的编码,若不设置,则程序的编码默认是操作系统的编码,这里设置的编码即为代码文件的编码;或者我们使用vim编写Java程序时,可以设置系统的环境变量LANG,例如 zh_CN.UTF-8,zh_CN.GB18030等,此时,代码文件的编码就是LANG所指定的编码。这就是IDE的编码,IDE的编码很重要,例如一个Java代码文件是UTF-8编码的,而你的IDE是GB18030编码,则显示就会出现乱码了。
Java中字符的编码是指Java中的字符串所采取的编码,例如有下面一段程序,用于计算字符串所占字节数,运行在Windows 7上:
[java] view plaincopy
publicclassCharset
{
publicstaticvoidmain(String[]
args) {
//TODO
Auto-generated method stub
Stringmsg
= "中国abc";
System.out.println(msg);
intlen
= msg.getBytes().length;//按操作系统默认编码来编码
System.out.println(len);
try{
len=
msg.getBytes("GB2312").length;//输出7
System.out.println("GB2312:"+len);
len=
msg.getBytes("GBK").length;//输出7
System.out.println("GBK:"+len);
len=
msg.getBytes("GB18030").length;//输出7,2*2+3,一个汉字占2字节,一个英文字母一个字节
System.out.println("GB18030:"+len);
len=
msg.getBytes("UTF-8").length;//输出9,2*3+3=9,一个汉字占3字节,一个英文字母一个字节.
System.out.println("UTF-8:"+len);
len=
msg.getBytes("UTF-16").length;//输出12
System.out.println("UTF-16:"+len);
len=
msg.getBytes("UTF-32").length;//输出20
System.out.println("UTF-32:"+len);
len=
msg.getBytes("Unicode").length;//输出12
System.out.println("Unicode:"+len);
}catch(
java.io.UnsupportedEncodingException e)
{
System.out.println(e.getMessage().toString());
}
}
}
程序输出是:
中国abc
7
GB2312: 7
GBK: 7
GB18030: 7
UTF-8: 9
UTF-16: 12
UTF-32: 20
Unicode: 12
分析:
len = msg.getBytes().length的值是7,这是因为Windows
7操作系统字符编码是GBK(GB2312或GBK或GB18030)
Java编码实际上可以涉及这几个方面的知识:IDE的编码,操作系统默认编码,Java字符编码。
例如:我们使用eclipse编写Java程序时,可以在工程属性中设置Java程序的编码,若不设置,则程序的编码默认是操作系统的编码,这里设置的编码即为代码文件的编码;或者我们使用vim编写Java程序时,可以设置系统的环境变量LANG,例如 zh_CN.UTF-8,zh_CN.GB18030等,此时,代码文件的编码就是LANG所指定的编码。这就是IDE的编码,IDE的编码很重要,例如一个Java代码文件是UTF-8编码的,而你的IDE是GB18030编码,则显示就会出现乱码了。
Java中字符的编码是指Java中的字符串所采取的编码,例如有下面一段程序,用于计算字符串所占字节数,运行在Windows 7上:
[java] view plaincopy
publicclassCharset
{
publicstaticvoidmain(String[]
args) {
//TODO
Auto-generated method stub
Stringmsg
= "中国abc";
System.out.println(msg);
intlen
= msg.getBytes().length;//按操作系统默认编码来编码
System.out.println(len);
try{
len=
msg.getBytes("GB2312").length;//输出7
System.out.println("GB2312:"+len);
len=
msg.getBytes("GBK").length;//输出7
System.out.println("GBK:"+len);
len=
msg.getBytes("GB18030").length;//输出7,2*2+3,一个汉字占2字节,一个英文字母一个字节
System.out.println("GB18030:"+len);
len=
msg.getBytes("UTF-8").length;//输出9,2*3+3=9,一个汉字占3字节,一个英文字母一个字节.
System.out.println("UTF-8:"+len);
len=
msg.getBytes("UTF-16").length;//输出12
System.out.println("UTF-16:"+len);
len=
msg.getBytes("UTF-32").length;//输出20
System.out.println("UTF-32:"+len);
len=
msg.getBytes("Unicode").length;//输出12
System.out.println("Unicode:"+len);
}catch(
java.io.UnsupportedEncodingException e)
{
System.out.println(e.getMessage().toString());
}
}
}
程序输出是:
中国abc
7
GB2312: 7
GBK: 7
GB18030: 7
UTF-8: 9
UTF-16: 12
UTF-32: 20
Unicode: 12
分析:
len = msg.getBytes().length的值是7,这是因为Windows
7操作系统字符编码是GBK(GB2312或GBK或GB18030)
相关文章推荐
- [转]Java中字符串在不同字符编码中所占字节数
- Java中字符串在不同字符编码中所占字节数
- Java中字符串在不同字符编码中所占字节数
- Java中,字符串在不同编码格式下所占字节数
- java不同的编码格式下字符串所占用的字节数
- Java不同编码方式,中英文字符所占字节数
- Java中字符串在不同字符编码中所占字节数
- Java知识点整理:第十三章:字符串的序列化(文字的编码方案)、字符流(Reader Writer)、对象序列化
- java语言基础—字符串—java中字符串中的字符占用字节数分析
- 编程:判断一个给定字符串中字符全都不同java
- Java反转字符串和相关字符编码的问题解决
- 如何用java实现不同编码方式字符串的转换(包含异常处理、重复不终止输入、缓冲区bufferedreader的使用)
- java后台与jsp前台特殊字符处理(字符串编码与解码)
- 中文字符占用字节数在不同编码方式下的区别
- C#和Java时间字符串的毫秒字符不同
- Java反转字符串和相关字符编码问题
- java比较两个字符串完全不同处高亮显示(过滤了某些字符串前面不不相干字符)
- 字符串-不同的编码格式下所占用的字节数【转】
- java中如何从字符串中删选中文字符(GBK编码和UTF-8编码)
- java后台与jsp前台特殊字符处理(字符串编码与解码)