中科院中文分词工具ICTCLAS30进行名实体识别的方法
2010-01-19 21:53
351 查看
使用中科院的分词工具ICTCLAS30可以进行名实体识别,方法也很简单就是在分词时候同时进行词性标注,然后把代表人名、地名、时间名、数量的提取出来。
例如:
最近/t 不/d 知道/v 怎么/ryv 的/ude1 ,/wd 脑子/n 总是/d 不/d 好使/a ,/wd 突然/ad 发现/v 最近/t 是/vshi 心/n 、/wn 脑/n 、/wn 人/n 分离/vi 了/y ,/wd 心里/s 感觉/n 的/ude1 ,/wd 脑子/n 里/f 想/v 的/ude1 跟/p 自己/rr 做/v 的/ude1 完全/ad 就/d 不/d 一致/a 。/wj 沈平/nr ,/wd 2009年/t 2010年/t
则把“最近/t ”,沈平/nr ,2009年/t 2010年/t 提取出来即可,只要加个判断是否是如下的词性,如果是即为名实体。
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
t 时间词
s 处所词
同时该工具还具有提取关键字并计算关键词权重的功能,至于具体的权重计算公式目前还没有搞清楚。
例如:
最近/t 不/d 知道/v 怎么/ryv 的/ude1 ,/wd 脑子/n 总是/d 不/d 好使/a ,/wd 突然/ad 发现/v 最近/t 是/vshi 心/n 、/wn 脑/n 、/wn 人/n 分离/vi 了/y ,/wd 心里/s 感觉/n 的/ude1 ,/wd 脑子/n 里/f 想/v 的/ude1 跟/p 自己/rr 做/v 的/ude1 完全/ad 就/d 不/d 一致/a 。/wj 沈平/nr ,/wd 2009年/t 2010年/t
则把“最近/t ”,沈平/nr ,2009年/t 2010年/t 提取出来即可,只要加个判断是否是如下的词性,如果是即为名实体。
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
t 时间词
s 处所词
同时该工具还具有提取关键字并计算关键词权重的功能,至于具体的权重计算公式目前还没有搞清楚。
相关文章推荐
- 使用Stanford CoreNLP的Python封装包处理中文(分词、词性标注、命名实体识别、句法树、依存句法分析)
- 利用Ansj中文分词工具对段落进行切词
- 中科院NLPIR中文分词java版应用方法
- Python 中文分词工具 ——结巴分词的使用方法总结
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- Python结巴中文分词工具使用过程中遇到的问题及解决方法
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- Python 中文分词工具 ——结巴分词的使用方法总结
- OpenNLP进行中文命名实体识别(下:载入模型识别实体)
- Lucene下引入ICTCLAS进行中文分词的实现方法
- 利用庖丁解牛工具进行中文分词
- 中科院中文分词系统ICTCLAS之人名识别词典分析
- python调用中科院分词器进行中文分词
- 【python】使用中科院NLPIR分词工具进行mysql数据分词
- OpenNLP进行中文命名实体识别(下:载入模型识别实体)
- 中文文本分词,关键词提取工具jcseg使用方法
- Lucene下引入ICTCLAS进行中文分词的实现方法
- PYTHON 结巴中文分词工具的基础使用