在Java中按字节获得字符串长度的两种方法
2015-11-10 19:35
676 查看
由于Java是基于Unicode编码的,因此,一个汉字的长度为1,而不是2。但有时需要以字节单位获得字符串的长度。例如,“123abc长城”按字节长度计算是10,而按Unicode计算长度是8。为了获得10,需要从头扫描根据字符的Ascii来获得具体的长度。如果是标准的字符,Ascii的范围是0至255,如果是汉字或其他全角字符,Ascii会大于255。因此,可以编写如下的方法来获得以字节为单位的字符串长度。
public int getWordCount(String s)
{
int length = 0;
for(int i = 0; i < s.length(); i++)
{
int ascii = Character.codePointAt(s, i);
if(ascii >= 0 && ascii <=255)
length++;
else
length += 2;
}
return length;
}
当然,也可以采用正则表达式来简化上面的方法,代码如下:
public int getWordCount(String s)
{
s = s.replaceAll("[^\\x00-\\xff]", "**");
int length = s.length();
return length;
}
上面代码的基本原理是将字符串中所有的非标准字符(双字节字符)替换成两个标准字符(**,或其他的也可以)。这样就可以直接例用length方法获得字符串的字节长度了。
备注:String.getByte().length() ;//我用的utf-8获取的汉字长度为3,这种方式不适合我的需求。
出处:http://www.blogjava.net/nokiaguy/archive/2010/04/11/317982.html
public int getWordCount(String s)
{
int length = 0;
for(int i = 0; i < s.length(); i++)
{
int ascii = Character.codePointAt(s, i);
if(ascii >= 0 && ascii <=255)
length++;
else
length += 2;
}
return length;
}
当然,也可以采用正则表达式来简化上面的方法,代码如下:
public int getWordCount(String s)
{
s = s.replaceAll("[^\\x00-\\xff]", "**");
int length = s.length();
return length;
}
上面代码的基本原理是将字符串中所有的非标准字符(双字节字符)替换成两个标准字符(**,或其他的也可以)。这样就可以直接例用length方法获得字符串的字节长度了。
备注:String.getByte().length() ;//我用的utf-8获取的汉字长度为3,这种方式不适合我的需求。
出处:http://www.blogjava.net/nokiaguy/archive/2010/04/11/317982.html
相关文章推荐
- JDK环境变量详细讲解
- java基础1
- Struts2文件上传的大小限制问题
- JDK和JRE的区别与联系
- java源码分析06-Class
- JavaBean-- 保存 范围
- spring 事务问题
- Java四类八种基本数据类型
- struts拦截器使用
- JAVA——对象所占内存空间大小的计算
- Java依据文件头获取文件类型
- java基础问题(1)
- 【转】学习JAVA的步骤
- java多线程 学习笔记(二)——线程执行器 Executor
- java 工具类 ---反射字段值封装到对象中
- ubuntu 12.04安装jdk
- java练习——多态与异常处理
- JavaBean-- 设置和取得属性
- java源码分析05-TreeMap
- java使用socket上传文件,实现server端和client端