您的位置:首页 > 职场人生

中科院中文分词工具ICTCLAS30进行名实体识别的方法

2010-01-19 21:53 351 查看
使用中科院的分词工具ICTCLAS30可以进行名实体识别,方法也很简单就是在分词时候同时进行词性标注,然后把代表人名、地名、时间名、数量的提取出来。
例如:
最近/t 不/d 知道/v 怎么/ryv 的/ude1 ,/wd 脑子/n 总是/d 不/d 好使/a ,/wd 突然/ad 发现/v 最近/t 是/vshi 心/n 、/wn 脑/n 、/wn 人/n 分离/vi 了/y ,/wd 心里/s 感觉/n 的/ude1 ,/wd 脑子/n 里/f 想/v 的/ude1 跟/p 自己/rr 做/v 的/ude1 完全/ad 就/d 不/d 一致/a 。/wj 沈平/nr ,/wd 2009年/t 2010年/t

则把“最近/t ”,沈平/nr ,2009年/t 2010年/t 提取出来即可,只要加个判断是否是如下的词性,如果是即为名实体。
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
t 时间词
s 处所词

同时该工具还具有提取关键字并计算关键词权重的功能,至于具体的权重计算公式目前还没有搞清楚。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息