您的位置：首页 > 职场人生

中科院中文分词工具ICTCLAS30进行名实体识别的方法

2010-01-19 21:53 351 查看

使用中科院的分词工具ICTCLAS30可以进行名实体识别，方法也很简单就是在分词时候同时进行词性标注，然后把代表人名、地名、时间名、数量的提取出来。
例如：
最近/t 不/d 知道/v 怎么/ryv 的/ude1 ，/wd 脑子/n 总是/d 不/d 好使/a ，/wd 突然/ad 发现/v 最近/t 是/vshi 心/n 、/wn 脑/n 、/wn 人/n 分离/vi 了/y ，/wd 心里/s 感觉/n 的/ude1 ，/wd 脑子/n 里/f 想/v 的/ude1 跟/p 自己/rr 做/v 的/ude1 完全/ad 就/d 不/d 一致/a 。/wj 沈平/nr ，/wd 2009年/t 2010年/t

则把“最近/t ”，沈平/nr ，2009年/t 2010年/t 提取出来即可，只要加个判断是否是如下的词性，如果是即为名实体。
nr 人名
nr1 汉语姓氏
nr2 汉语名字
nrj 日语人名
nrf 音译人名
ns 地名
nsf 音译地名
nt 机构团体名
nz 其它专名
t 时间词
s 处所词

同时该工具还具有提取关键字并计算关键词权重的功能，至于具体的权重计算公式目前还没有搞清楚。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 职场休闲名实体识别 ICTCLAS30

相关文章推荐

新的分享

章节导航