您的位置:首页 > 职场人生

教你几招,让你在社交,职场上人人对你刮目相看

2008-04-01 22:09 357 查看
 

出处:http://hi.baidu.com/lewutian/item/0231d0f26132e2b731c19997

/**
@本程序测试了四种中文分词(标准,ChineseAnayzer,je,Smart(基于中科院))的方法,读者可以通过本程序分析学习这四种中文分词方法的优劣
@其中lucene采用的2.4.1最新版本,点击这里下载学习
@中科院分词java版学习和下载到这里
@je-Analyzer下载到这里
*/
public static void main(String[] args)
    {
        String text ="发展中国家在上海大学城购买了道具和服装" ;    
        StandardAnalyzer analyzerStand = new StandardAnalyzer();//内置
        ChineseAnalyzer    chineseAnalyzer = new ChineseAnalyzer();//lucene2.4版本+
        CJKAnalyzer cjkanalyzer = new CJKAnalyzer();//亚洲字符分析器
        MMAnalyzer    analyzer = new MMAnalyzer();//je-analyzer
        Analyzer    smartChineseAnalyzer = new SmartChineseAnalyzer();//基于中科院
        try
        {
            AnalyzerUtils.displaytokens(analyzerStand, text);
            AnalyzerUtils.displaytokens(chineseAnalyzer, text);
            AnalyzerUtils.displaytokens(cjkanalyzer, text);
            AnalyzerUtils.displaytokens(smartChineseAnalyzer, text);
            AnalyzerUtils.displaytokens(analyzer, text);
        }
        catch (IOException e)
        {
                e.printStackTrace();
        }

Run and Show results:



从结果可以看出2点:
正确率: Je>=Smart>=二分法>=Chinese>=Stand
时间:     Stand<=二分法Chinese<= Smart<=Je
还有一点,就是经过几次分析后,可以明显看出基于中科院的那个分词时间明显下降一个数量级,没有仔细
研究,怀疑和隐马尔科夫模型有关。

其他的优劣请读者自我发掘,有问题麻烦告诉我,Thx。 http://hi.baidu.com/lewutian推荐文章: 1. VC MFC中设置对话框的背景色、背景图片
2. 将汉字转化为拼音 实现中英文混合排序 pinyin4j
3. 1
4. 1
5. Lucene 2.2.0
6. 转一篇比较好的Lucene的文章
7. Lucene构架全文搜索引擎
8. lucene 对目录索引和搜索例子
9. 用开源软件构建垂直搜索引擎
10. Lucene简单使用
11. lucene中文切词(没加庖丁方法的)算法
12. lucene demo
13. 采访IK Analyzer 中文分词器开源项目作者林良益
14. Lucene中文分词下载
15. lucence 3.0 分词测试
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: