您的位置:首页 > 其它

逆向最长匹配算法的实现

2009-06-22 10:59 239 查看
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

逆向最长匹配法是基于字符串匹配的一种分词算法,即按从右至左的顺序对句子循环扫描字符串,并与所提供的关键词表进行比较,如存在则提取出该串作为关键词。相比较正向最大匹配法,逆向匹配的分词精度略高于正向匹配。

算法的程序实现核心代码如下:

while (startIndex >= 0) { //循环取字符串
str = title.substring(startIndex, endIndex);
for (int i = 0; i < str.length(); i++) {
ss = title.substring(startIndex + i, endIndex);
if (matchlist.contains(ss)
&& this.ifexit(words, ss, type)) { //去重
if (type == TERM_TYPE) {
wdto = new WordModel();//dto封装了关键词及其权重
wdto.setWord(ss);
wdto.setValue(this.computeWithTfx(ss, title2));//计算权重
words.add(wdto);
} else {
words.add(ss);//不需要计算权重则add字符串
}
title = title.substring(0, startIndex + i);
if (title.length() > maxlength) {
startIndex = title.length() - maxlength;
endIndex = title.length();
} else {
startIndex = 0;
endIndex = title.length();
}
break;
}
if (i == str.length() - 1) {//若匹配不成功则移位截取新串
startIndex = startIndex - 1;
endIndex = endIndex - 1;
}
}
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: