您的位置:首页 > 大数据 > 人工智能

纯文本人工智能之名词信息提取及存储

2011-12-30 16:50 357 查看
正确识别出句子后,接下来就是句子中包含的信息如何提取及保存下来了。这里先详细谈谈保存的问题。
前边说过,保存信息是以词节点的方式来实现的。汉语中名词分为专用名词、抽象名词和方位名词这三类。表示专用名称的叫做"专用名词",表示抽象事物的名称的叫做"抽象名词",表示方位的叫做"方位名词"。除了方位名词外,另外两类名词所包含的信息可以用“有什么”和“是什么来”解析它们所包含的信息。
例如“张三”,这是一个人名,是教师,是爸爸,是志愿服务队员,有女儿,有工作,有老婆,有工资等很多信息,大家可以自己试下,看能不能找出名词除了有和是以外描述的方法。这样我们利用前边讲到的结构体,就可以把它的信息全部存储起来了。下边 举个例子给大家。
“张三的女儿的同学李四是我的朋友。”这句 通过分词后可以得到这样一个句子链表:
“张三->的->女儿->的->同学->李四->是->王五->的->朋友->。”
这样程序根据汉语的习惯,通过“的”字,再结合”的”字前后词的词性,以及”是”等信息就可以分析及存储以下的信息:

有 女儿 有 同学
张三 张三的女儿(新生成的专有名词)
是 … 是 .

有 朋友
王五 是 李四的朋友

有 ...
张三的女儿的同学(新生成的专有名词)

是 李四,王五的朋友

接下来在用其它的方法(后边逐步说)分析,后"张三的女儿"这个新的专用名词暂时保留,"张三的女儿的同学",用李四代替,同时是部分添加信息,"张三的女儿的同学",调整后的信息如下:

有 同学,朋友.
李四

是 张三的女儿的同学 ,王五的朋友
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: