您的位置:首页 > 编程语言 > Java开发

全半角字符转换

2016-05-26 17:30 441 查看
用户输入的内容经常既有全角字符,又有半角字符

在pinyin4j的分词中,会将全角字符转换为半角字符,造成分词前后字符不一致

为了解决这个问题,查找了Unicode表,写了全半角转换的工具如下:

/**
* <PRE>
* 提供对字符串的全角->半角,半角->全角转换
* </PRE>
*/
public class BCConvertUtil {

/**
* ASCII表中可见字符从!开始,偏移位值为33(Decimal)
*/
static final char DBC_CHAR_START = 33; // 半角!

/**
* ASCII表中可见字符到~结束,偏移位值为126(Decimal)
*/
static final char DBC_CHAR_END = 126; // 半角~

/**
* 全角对应于ASCII表的可见字符从!开始,偏移值为65281
*/
static final char SBC_CHAR_START = 65281; // 全角!

/**
* 全角对应于ASCII表的可见字符到~结束,偏移值为65374
*/
static final char SBC_CHAR_END = 65374; // 全角~

/**
* ASCII表中除空格外的可见字符与对应的全角字符的相对偏移
*/
static final int CONVERT_STEP = 65248; // 全角半角转换间隔

/**
* 全角空格的值,它没有遵从与ASCII的相对偏移,必须单独处理
*/
static final char SBC_SPACE = 12288; // 全角空格 12288

/**
* 半角空格的值,在ASCII中为32(Decimal)
*/
static final char DBC_SPACE = ' '; // 半角空格

/**
* <PRE>
* 半角字符->全角字符转换
* 只处理空格,!到˜之间的字符,忽略其他
* </PRE>
*/
public static String bj2qj(String src) {
if (src == null) {
return null;
}
StringBuilder buf = new StringBuilder(src.length());
src.chars().forEach(i -> buf.append(bj2qj((char) i)));
return buf.toString();
}

public static char bj2qj(char c) {
if (c == DBC_SPACE) { // 如果是半角空格,直接用全角空格替代
return SBC_SPACE;
} else if ((c >= DBC_CHAR_START) && (c <= DBC_CHAR_END)) { // 字符是!到~之间的可见字符
return (char) (c + CONVERT_STEP);
} else {
return c;
}
}

/**
* <PRE>
* 全角字符->半角字符转换
* 只处理全角的空格,全角!到全角~之间的字符,忽略其他
* </PRE>
*/
public static String qj2bj(String src) {
if (src == null) {
return null;
}
StringBuilder buf = new StringBuilder(src.length());
src.chars().forEach(i -> buf.append(qj2bj((char) i)));
return buf.toString();
}

public static char qj2bj(char c) {
if (c >= SBC_CHAR_START && c <= SBC_CHAR_END) { // 如果位于全角!到全角~区间内
return (char) (c - CONVERT_STEP);
} else if (c == SBC_SPACE) { // 如果是全角空格
return DBC_SPACE;
} else { // 不处理全角空格,全角!到全角~区间外的字符
return c;
}
}

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息