分词工具关键词提取对比
2013-11-07 11:04
190 查看
试了三种目前比较流行的分词工具,他们都支持关键词提取,对比了一下,可以看到差别如何。
首先给出中科院针对汉语的词性标准信息(可能后面会更新):
1. 名词 (1个一类,7个二类,5个三类)
名词分为以下子类:
n 名词
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
nl 名词性惯用语
ng 名词性语素
nw 新词
2. 时间词(1个一类,1个二类)
t 时间词
tg 时间词性语素
3. 处所词(1个一类)
s 处所词
4. 方位词(1个一类)
f 方位词
5. 动词(1个一类,9个二类)
v 动词
vd 副动词
vn 名动词
vshi 动词“是”
vyou 动词“有”
vf 趋向动词
vx 形式动词
vi 不及物动词(内动词)
vl 动词性惯用语
vg 动词性语素
6. 形容词(1个一类,4个二类)
a 形容词
ad 副形词
an 名形词
ag 形容词性语素
al 形容词性惯用语
7. 区别词(1个一类,2个二类)
b 区别词
bl 区别词性惯用语
8. 状态词(1个一类)
z 状态词
9. 代词(1个一类,4个二类,6个三类)
r 代词
rr 人称代词
rz 指示代词
rzt 时间指示代词
rzs 处所指示代词
rzv 谓词性指示代词
ry 疑问代词
ryt 时间疑问代词
rys 处所疑问代词
ryv 谓词性疑问代词
rg 代词性语素
10. 数词(1个一类,1个二类)
m 数词
mq 数量词
11. 量词(1个一类,2个二类)
q 量词
qv 动量词
qt 时量词
12. 副词(1个一类)
d 副词
13. 介词(1个一类,2个二类)
p 介词
pba 介词“把”
pbei 介词“被”
14. 连词(1个一类,1个二类)
c 连词
cc 并列连词
15. 助词(1个一类,15个二类)
u 助词
uzhe 着
ule 了 喽
uguo 过
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一样 一般 似的 般
udh 的话
uls 来讲 来说 而言 说来
uzhi 之
ulian 连 (“连小学生都会”)
16. 叹词(1个一类)
e 叹词
17. 语气词(1个一类)
y 语气词(delete yg)
18. 拟声词(1个一类)
o 拟声词
19. 前缀(1个一类)
h 前缀
20. 后缀(1个一类)
k 后缀
21. 字符串(1个一类,2个二类)
x 字符串
xx 非语素字
xu 网址URL
22. 标点符号(1个一类,16个二类)
w 标点符号
wkz 左括号,全角:( 〔 [ { 《 【 〖〈 半角:( [ { <
wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wyz 左引号,全角:“ ‘ 『
wyy 右引号,全角:” ’ 』
wj 句号,全角:。
ww 问号,全角:? 半角:?
wt 叹号,全角:! 半角:!
wd 逗号,全角:, 半角:,
wf 分号,全角:; 半角: ;
wn 顿号,全角:、
wm 冒号,全角:: 半角: :
ws 省略号,全角:…… …
wp 破折号,全角:—— -- ——- 半角:--- ----
wb 百分号千分号,全角:% ‰ 半角:%
wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
文章内容如下:
11月4日至6日,中共中央政治局常委、国务院总理李克强在黑龙江同江、抚远、哈尔滨等地考察。这是4日傍晚,李克强来到同江银川乡幸福大院,察看洪灾后五保户和特困户安置情况。 新华社记者 黄敬文 摄
11月4日至6日,中共中央政治局常委、国务院总理李克强在黑龙江同江、抚远、哈尔滨等地考察。
今夏,黑龙江部分地区遭受严重洪涝灾害,近9万户群众的房屋损毁或倒塌。眼下临近隆冬,灾区又地处严寒地带,正值过冬安置的关键时刻,受灾群众能不能安全温暖过冬,李克强十分牵挂。他来到受灾最严重的同江市八岔赫哲族村,踩着泥泞湿滑的道路,查看村民房屋状况和越冬准备情况。他对围拢来的群众说,你们这里洪灾发生后,党中央国务院高度重视,习近平总书记等中央领导同志作出批示,省委、省政府带领大家奋力抢险救灾,做了大量艰苦细致的工作,取得了抗洪救灾的胜利,没有因灾死亡一个人。他特别叮嘱当地干部,这里冬天冰天雪地,最低温度达零下40摄氏度,要把排查工作做细做深做到位,看群众房屋安不安全,保暖程度够不够,绝不能让一个群众受冻,使大家住得保暖、住得保险。暮色渐浓,李克强走进安置受灾五保户和特困户的银川乡幸福大院,看到新建的安置房里暖融融的,他十分高兴。他对周围的群众说,党和政府惦记你们的冷暖,我们一起努力共渡难关、重建家园。冬天过暖和了,来年一定有好春天、好日子。考察回到驻地,李克强又立即召开工作会,进一步部署做好群众越冬、灾后重建、水毁工程修复和今冬明春农业生产等工作。
效果如下:
分析:张华平老师的学生晓阳童鞋告诉我他们是用熵来提取关键词的,具体请看这篇文章:http://blog.csdn.net/zhaoxinfan/article/details/12751405
这里的关键词不仅仅局限于名词,动词也可以
效果如下:
群众=100,
李克强=69,
中央=40,
受灾=40,
安置=38,
考察=32,
冬天=30,
工作=30,
保暖=29,
安全=28,
救灾=28,
国务院=28,
越冬=27,
过冬=26,
重建=26,
情况=25,
政府=25,
洪灾=25,
同江=25,
黑龙江=24
分析:fudanNLP的关键词提取技术并不是用TF-IDF,而是类似于Pagerank的Textrank。可以看到这里也不仅仅局限于名词。
效果如下:
李克强,73.68312172970364
群众,64.47241212406624
同江,55.262258226241265
黑龙江,55.262258226241265
国务院总理,48.07902740042174
中共中央政治局常委,48.07902740042174
抚远,46.05188185520105
哈尔滨,46.05188185520105
银川,46.05188185520105
五保户,46.0517229457616
情况,46.0517229457616
特困户,46.0517229457616
大院,46.0517229457616
房屋,46.0517229457616
洪灾,46.0517229457616
新华社记者,38.46322192033739
黄敬文,36.841560864851814
洪涝灾害,28.847416440253042
关键时刻,28.847416440253042
赫哲族,27.63182551330567
分析:ANSJ提取关键词的方法不是正统的TF-IDF,而是通过词的位置获取权重,具体可以看这里:http://blog.csdn.net/zhaoxinfan/article/details/10403917
不知道作者是怎么想的,这里只会把词性以"n"开头的名词看成是关键词,所以提取出来的都是名词。判断条件如下:
当我把那个判断条件去掉之后,得到的效果如下:
李克强,73.68312172970364
群众,64.47241212406624
同江,55.262258226241265
黑龙江,55.262258226241265
安置,55.26207473078057
国务院总理,48.07902740042174
中共中央政治局常委,48.07902740042174
哈尔滨,46.05188185520105
抚远,46.05188185520105
银川,46.05188185520105
幸福,46.051847037796456
受灾,46.05181918532998
考察,46.05172894231714
来到,46.05172894231714
五保户,46.0517229457616
情况,46.0517229457616
特困户,46.0517229457616
房屋,46.0517229457616
洪灾,46.0517229457616
大院,46.0517229457616
我倒是觉得这个好一点,为何关键词必须要是名词呢?
经过总结,觉得下面这些词性的词都可以成为关键词:
a 形容词
ad 副形词
ag 形容词性语素
an 名形词
i 成语
j 简称略语
l 习用语
n 名词
ng 名词语素
nr 人名
ns 地名
nt 机构团体
nx 名词非语素词
nz 其他专名
s 处所词
v 动词
vd 副动词
vg 动词语素
vn 名动词
三种分词工具的关键词提取比较到此结束。
首先给出中科院针对汉语的词性标准信息(可能后面会更新):
1. 名词 (1个一类,7个二类,5个三类)
名词分为以下子类:
n 名词
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
nl 名词性惯用语
ng 名词性语素
nw 新词
2. 时间词(1个一类,1个二类)
t 时间词
tg 时间词性语素
3. 处所词(1个一类)
s 处所词
4. 方位词(1个一类)
f 方位词
5. 动词(1个一类,9个二类)
v 动词
vd 副动词
vn 名动词
vshi 动词“是”
vyou 动词“有”
vf 趋向动词
vx 形式动词
vi 不及物动词(内动词)
vl 动词性惯用语
vg 动词性语素
6. 形容词(1个一类,4个二类)
a 形容词
ad 副形词
an 名形词
ag 形容词性语素
al 形容词性惯用语
7. 区别词(1个一类,2个二类)
b 区别词
bl 区别词性惯用语
8. 状态词(1个一类)
z 状态词
9. 代词(1个一类,4个二类,6个三类)
r 代词
rr 人称代词
rz 指示代词
rzt 时间指示代词
rzs 处所指示代词
rzv 谓词性指示代词
ry 疑问代词
ryt 时间疑问代词
rys 处所疑问代词
ryv 谓词性疑问代词
rg 代词性语素
10. 数词(1个一类,1个二类)
m 数词
mq 数量词
11. 量词(1个一类,2个二类)
q 量词
qv 动量词
qt 时量词
12. 副词(1个一类)
d 副词
13. 介词(1个一类,2个二类)
p 介词
pba 介词“把”
pbei 介词“被”
14. 连词(1个一类,1个二类)
c 连词
cc 并列连词
15. 助词(1个一类,15个二类)
u 助词
uzhe 着
ule 了 喽
uguo 过
ude1 的 底
ude2 地
ude3 得
usuo 所
udeng 等 等等 云云
uyy 一样 一般 似的 般
udh 的话
uls 来讲 来说 而言 说来
uzhi 之
ulian 连 (“连小学生都会”)
16. 叹词(1个一类)
e 叹词
17. 语气词(1个一类)
y 语气词(delete yg)
18. 拟声词(1个一类)
o 拟声词
19. 前缀(1个一类)
h 前缀
20. 后缀(1个一类)
k 后缀
21. 字符串(1个一类,2个二类)
x 字符串
xx 非语素字
xu 网址URL
22. 标点符号(1个一类,16个二类)
w 标点符号
wkz 左括号,全角:( 〔 [ { 《 【 〖〈 半角:( [ { <
wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >
wyz 左引号,全角:“ ‘ 『
wyy 右引号,全角:” ’ 』
wj 句号,全角:。
ww 问号,全角:? 半角:?
wt 叹号,全角:! 半角:!
wd 逗号,全角:, 半角:,
wf 分号,全角:; 半角: ;
wn 顿号,全角:、
wm 冒号,全角:: 半角: :
ws 省略号,全角:…… …
wp 破折号,全角:—— -- ——- 半角:--- ----
wb 百分号千分号,全角:% ‰ 半角:%
wh 单位符号,全角:¥ $ £ ° ℃ 半角:$
文章内容如下:
11月4日至6日,中共中央政治局常委、国务院总理李克强在黑龙江同江、抚远、哈尔滨等地考察。这是4日傍晚,李克强来到同江银川乡幸福大院,察看洪灾后五保户和特困户安置情况。 新华社记者 黄敬文 摄
11月4日至6日,中共中央政治局常委、国务院总理李克强在黑龙江同江、抚远、哈尔滨等地考察。
今夏,黑龙江部分地区遭受严重洪涝灾害,近9万户群众的房屋损毁或倒塌。眼下临近隆冬,灾区又地处严寒地带,正值过冬安置的关键时刻,受灾群众能不能安全温暖过冬,李克强十分牵挂。他来到受灾最严重的同江市八岔赫哲族村,踩着泥泞湿滑的道路,查看村民房屋状况和越冬准备情况。他对围拢来的群众说,你们这里洪灾发生后,党中央国务院高度重视,习近平总书记等中央领导同志作出批示,省委、省政府带领大家奋力抢险救灾,做了大量艰苦细致的工作,取得了抗洪救灾的胜利,没有因灾死亡一个人。他特别叮嘱当地干部,这里冬天冰天雪地,最低温度达零下40摄氏度,要把排查工作做细做深做到位,看群众房屋安不安全,保暖程度够不够,绝不能让一个群众受冻,使大家住得保暖、住得保险。暮色渐浓,李克强走进安置受灾五保户和特困户的银川乡幸福大院,看到新建的安置房里暖融融的,他十分高兴。他对周围的群众说,党和政府惦记你们的冷暖,我们一起努力共渡难关、重建家园。冬天过暖和了,来年一定有好春天、好日子。考察回到驻地,李克强又立即召开工作会,进一步部署做好群众越冬、灾后重建、水毁工程修复和今冬明春农业生产等工作。
1、NLPIR分词(ICTCLAS)
地址是:http://ictclas.nlpir.org/效果如下:
分析:张华平老师的学生晓阳童鞋告诉我他们是用熵来提取关键词的,具体请看这篇文章:http://blog.csdn.net/zhaoxinfan/article/details/12751405
这里的关键词不仅仅局限于名词,动词也可以
2、FudanNLP
地址是:http://jkx.fudan.edu.cn/nlp/fudannlp.do效果如下:
群众=100,
李克强=69,
中央=40,
受灾=40,
安置=38,
考察=32,
冬天=30,
工作=30,
保暖=29,
安全=28,
救灾=28,
国务院=28,
越冬=27,
过冬=26,
重建=26,
情况=25,
政府=25,
洪灾=25,
同江=25,
黑龙江=24
分析:fudanNLP的关键词提取技术并不是用TF-IDF,而是类似于Pagerank的Textrank。可以看到这里也不仅仅局限于名词。
3、ANSJ
地址:http://demo.ansj.org/效果如下:
李克强,73.68312172970364
群众,64.47241212406624
同江,55.262258226241265
黑龙江,55.262258226241265
国务院总理,48.07902740042174
中共中央政治局常委,48.07902740042174
抚远,46.05188185520105
哈尔滨,46.05188185520105
银川,46.05188185520105
五保户,46.0517229457616
情况,46.0517229457616
特困户,46.0517229457616
大院,46.0517229457616
房屋,46.0517229457616
洪灾,46.0517229457616
新华社记者,38.46322192033739
黄敬文,36.841560864851814
洪涝灾害,28.847416440253042
关键时刻,28.847416440253042
赫哲族,27.63182551330567
分析:ANSJ提取关键词的方法不是正统的TF-IDF,而是通过词的位置获取权重,具体可以看这里:http://blog.csdn.net/zhaoxinfan/article/details/10403917
不知道作者是怎么想的,这里只会把词性以"n"开头的名词看成是关键词,所以提取出来的都是名词。判断条件如下:
if (!(pos.startsWith("n"))|| "num".equals(pos)) { return 0; }
当我把那个判断条件去掉之后,得到的效果如下:
李克强,73.68312172970364
群众,64.47241212406624
同江,55.262258226241265
黑龙江,55.262258226241265
安置,55.26207473078057
国务院总理,48.07902740042174
中共中央政治局常委,48.07902740042174
哈尔滨,46.05188185520105
抚远,46.05188185520105
银川,46.05188185520105
幸福,46.051847037796456
受灾,46.05181918532998
考察,46.05172894231714
来到,46.05172894231714
五保户,46.0517229457616
情况,46.0517229457616
特困户,46.0517229457616
房屋,46.0517229457616
洪灾,46.0517229457616
大院,46.0517229457616
我倒是觉得这个好一点,为何关键词必须要是名词呢?
经过总结,觉得下面这些词性的词都可以成为关键词:
a 形容词
ad 副形词
ag 形容词性语素
an 名形词
i 成语
j 简称略语
l 习用语
n 名词
ng 名词语素
nr 人名
ns 地名
nt 机构团体
nx 名词非语素词
nz 其他专名
s 处所词
v 动词
vd 副动词
vg 动词语素
vn 名动词
三种分词工具的关键词提取比较到此结束。
相关文章推荐
- 分词工具关键词提取对比
- 中文文本分词,关键词提取工具jcseg使用方法
- 聊天机器人 ,中文翻译,繁简 ,关键词提取,主题提取,摘要提取 ,命名体识别,分词 ,情感分析,正负类分析 ,近义词,同义词,句子相似性,聚类,监督,无监督,词性标注,词向量句子向量
- 练手玩意:基于盘古开源分词组件的数据库关键词提取程序(ASPX)
- NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
- 中文分词工具ieba和pyltp功能对比
- SnowNLP:•中文分词•词性标准•提取文本摘要,•提取文本关键词,•转换成拼音•繁体转简体的 处理中文文本的Python3 类库
- jieba分词、关键词提取、词性标注
- Sql Server-使用Sql Server自带的分词功能实现字段关键词提取(分词能力很低,慎用)
- asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取
- “中文分词 关键词提取”的资料收集
- asp中利用CSW中文分词组件来实现自己网站的内容关键词自动提取
- 练手玩意:基于盘古开源分词组件的数据库关键词提取程序(ASPX)
- Thinkphp3.2使用scws中文分词 提取关键词
- 基于结巴分词进行分词与关键词提取
- 文件分词以及提取关键词
- VS源文件提取工具vsjuicer 实现细节
- 关键词推荐工具中的用户引导机制
- ubuntu下文件对比工具meld安装
- 利用信息熵提取文章关键词