中文文章情感分析-开源工具分享
2015-12-19 10:42
399 查看
最近研究了一阵子中文情感分析的一些paper,很感兴趣,于是最终决定写一个中文情感分析的工具。作为开源思想的忠实粉丝,我也献丑一次,把自己拙劣的代码呈现给大家,欢迎大家拍板砖。希望这个工具能给大家带来一些实际的用处。
目前,这个工具只实现了使用一种基本算法来预测文章的情感。经过本人测试,基本满足对中文句子的情感倾向分析,而且准确度可以信赖。大家如果有这个需求,想简单分析一下某个汉语评论集合的情感倾向,可以直接把这个工具拿去使用。
下面是这个工具的性能和准确度量化指标:
性能: 每秒处理约10万汉字
准确度: 约90%
本人会长期维护这个工具,并会逐步添加更多的预测算法,增加更多算法的选择。
Bitbucket库地址:https://bitbucket.org/shichaoqu/semantic-analysis-tool/overview
工具提供的功能:
1. 基于python-jieba中文分词包,对文章和句子进行分词;
2. 使用大连理工大学情感分析词库,对文章分词结果进行词语的情感预测;
3. 使用bsa_agorithm作为基本情感分析算法,基于词语的情感预测来聚合整个文章的情感倾向和情感强度。
TODO list:
1. 扩展情感词典,未来会添加hownet和ntsu情感词词库的支持,并添加响应的情感词定位接口;
2. 扩展情感分析算法,支持更多常见算法的选择,提供更精确的情感分析算法;
3. 情感信息抽取,提取观点持有者,主语和情感陈述,以及他们之间的关系。
目前,这个工具只实现了使用一种基本算法来预测文章的情感。经过本人测试,基本满足对中文句子的情感倾向分析,而且准确度可以信赖。大家如果有这个需求,想简单分析一下某个汉语评论集合的情感倾向,可以直接把这个工具拿去使用。
下面是这个工具的性能和准确度量化指标:
性能: 每秒处理约10万汉字
准确度: 约90%
本人会长期维护这个工具,并会逐步添加更多的预测算法,增加更多算法的选择。
Bitbucket库地址:https://bitbucket.org/shichaoqu/semantic-analysis-tool/overview
工具提供的功能:
1. 基于python-jieba中文分词包,对文章和句子进行分词;
2. 使用大连理工大学情感分析词库,对文章分词结果进行词语的情感预测;
3. 使用bsa_agorithm作为基本情感分析算法,基于词语的情感预测来聚合整个文章的情感倾向和情感强度。
TODO list:
1. 扩展情感词典,未来会添加hownet和ntsu情感词词库的支持,并添加响应的情感词定位接口;
2. 扩展情感分析算法,支持更多常见算法的选择,提供更精确的情感分析算法;
3. 情感信息抽取,提取观点持有者,主语和情感陈述,以及他们之间的关系。
相关文章推荐
- css :fitst-of-type与:first-child的区别
- haproxy的log配置
- Java编程思想笔记02:组合与继承、final、策略设计模式与适配器模式、内部类、序列化控制(注意事项)
- greendao的使用
- Git解决合并分支冲突
- iOS崩溃调试的使用和技巧总结
- 决策树
- iBatis中的like的使用
- LeetCode——Search Insert Position
- rpm 工具
- 老翟书摘:《MBA教不了的创富课》
- HackerRank Huffman Decoding(Huffman解码)
- 第一个TCL自定义命令测试通过
- hibernate 中无法成功创建表
- Grub2登录绕过验证漏洞
- opencv cvCreateVideoWriter()参数
- PHP memcached使用
- 《数据挖掘导论》学习
- 时域分析与频域分析
- 让IE6 IE7 IE8 IE9 IE10 IE11支持Bootstrap的解决方法