逆向最长匹配算法的实现
2009-06-22 10:59
239 查看
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
逆向最长匹配法是基于字符串匹配的一种分词算法,即按从右至左的顺序对句子循环扫描字符串,并与所提供的关键词表进行比较,如存在则提取出该串作为关键词。相比较正向最大匹配法,逆向匹配的分词精度略高于正向匹配。
算法的程序实现核心代码如下:
逆向最长匹配法是基于字符串匹配的一种分词算法,即按从右至左的顺序对句子循环扫描字符串,并与所提供的关键词表进行比较,如存在则提取出该串作为关键词。相比较正向最大匹配法,逆向匹配的分词精度略高于正向匹配。
算法的程序实现核心代码如下:
while (startIndex >= 0) { //循环取字符串 str = title.substring(startIndex, endIndex); for (int i = 0; i < str.length(); i++) { ss = title.substring(startIndex + i, endIndex); if (matchlist.contains(ss) && this.ifexit(words, ss, type)) { //去重 if (type == TERM_TYPE) { wdto = new WordModel();//dto封装了关键词及其权重 wdto.setWord(ss); wdto.setValue(this.computeWithTfx(ss, title2));//计算权重 words.add(wdto); } else { words.add(ss);//不需要计算权重则add字符串 } title = title.substring(0, startIndex + i); if (title.length() > maxlength) { startIndex = title.length() - maxlength; endIndex = title.length(); } else { startIndex = 0; endIndex = title.length(); } break; } if (i == str.length() - 1) {//若匹配不成功则移位截取新串 startIndex = startIndex - 1; endIndex = endIndex - 1; } } }
相关文章推荐
- 自己写中文分词器之(一)_逆向最大匹配算法的实现
- python实现机械分词之逆向最大匹配算法代码示例
- 简单的逆向最大匹配算法实现中文分词(Python)
- 最长上升子序列问题 nlogn 实现算法的简述
- [CodeProject每日一荐]实现Double Metaphone语音匹配算法[一]:介绍与C++实现
- Python 最大逆向匹配算法
- 【图】二分图最大匹配算法的应用及Matlab实现
- 蛙蛙推荐:[算法练习]最长不完全匹配子串频率计算
- 中文分词的逆向最大匹配算法
- 蛮力法:设计算法求解字符串的模式匹配问题,并编程实现。
- 用正向和逆向最大匹配算法进行中文分词(续)
- 二分图匹配匈牙利算法DFS实现
- 最大正向匹配算法 PHP实现
- Android Java实现余弦匹配算法示例代码
- 实现一个比较高级的字符匹配算法,即一串很长的字符,要求找到符合要求字符的字符串
- 最长匹配IP路由表查询问题——Trie Tree 实现
- 计算电磁学数值模式匹配算法实现
- <仅是自己做笔记。。。系列15>实现一个挺高级的字符匹配算法: 给一串很长字符串,要求找到符合要求的字符串,例如目的串:123 1******3***2 ,12*****3这些都要找出来
- KMP模式匹配算法 C++实现
- 模式匹配 -- KMP 算法原理与实现