纯文本人工智能之名词信息提取及存储
2011-12-30 16:50
357 查看
正确识别出句子后,接下来就是句子中包含的信息如何提取及保存下来了。这里先详细谈谈保存的问题。
前边说过,保存信息是以词节点的方式来实现的。汉语中名词分为专用名词、抽象名词和方位名词这三类。表示专用名称的叫做"专用名词",表示抽象事物的名称的叫做"抽象名词",表示方位的叫做"方位名词"。除了方位名词外,另外两类名词所包含的信息可以用“有什么”和“是什么来”解析它们所包含的信息。
例如“张三”,这是一个人名,是教师,是爸爸,是志愿服务队员,有女儿,有工作,有老婆,有工资等很多信息,大家可以自己试下,看能不能找出名词除了有和是以外描述的方法。这样我们利用前边讲到的结构体,就可以把它的信息全部存储起来了。下边 举个例子给大家。
“张三的女儿的同学李四是我的朋友。”这句 通过分词后可以得到这样一个句子链表:
“张三->的->女儿->的->同学->李四->是->王五->的->朋友->。”
这样程序根据汉语的习惯,通过“的”字,再结合”的”字前后词的词性,以及”是”等信息就可以分析及存储以下的信息:
有 女儿 有 同学
张三 张三的女儿(新生成的专有名词)
是 … 是 .
有 朋友
王五 是 李四的朋友
有 ...
张三的女儿的同学(新生成的专有名词)
是 李四,王五的朋友
接下来在用其它的方法(后边逐步说)分析,后"张三的女儿"这个新的专用名词暂时保留,"张三的女儿的同学",用李四代替,同时是部分添加信息,"张三的女儿的同学",调整后的信息如下:
有 同学,朋友.
李四
是 张三的女儿的同学 ,王五的朋友
前边说过,保存信息是以词节点的方式来实现的。汉语中名词分为专用名词、抽象名词和方位名词这三类。表示专用名称的叫做"专用名词",表示抽象事物的名称的叫做"抽象名词",表示方位的叫做"方位名词"。除了方位名词外,另外两类名词所包含的信息可以用“有什么”和“是什么来”解析它们所包含的信息。
例如“张三”,这是一个人名,是教师,是爸爸,是志愿服务队员,有女儿,有工作,有老婆,有工资等很多信息,大家可以自己试下,看能不能找出名词除了有和是以外描述的方法。这样我们利用前边讲到的结构体,就可以把它的信息全部存储起来了。下边 举个例子给大家。
“张三的女儿的同学李四是我的朋友。”这句 通过分词后可以得到这样一个句子链表:
“张三->的->女儿->的->同学->李四->是->王五->的->朋友->。”
这样程序根据汉语的习惯,通过“的”字,再结合”的”字前后词的词性,以及”是”等信息就可以分析及存储以下的信息:
有 女儿 有 同学
张三 张三的女儿(新生成的专有名词)
是 … 是 .
有 朋友
王五 是 李四的朋友
有 ...
张三的女儿的同学(新生成的专有名词)
是 李四,王五的朋友
接下来在用其它的方法(后边逐步说)分析,后"张三的女儿"这个新的专用名词暂时保留,"张三的女儿的同学",用李四代替,同时是部分添加信息,"张三的女儿的同学",调整后的信息如下:
有 同学,朋友.
李四
是 张三的女儿的同学 ,王五的朋友
相关文章推荐
- 人工智能系统通过网络提高其性能 “信息提取”系统转换纯文本为可以统计分析的数据
- 文本文件信息导入Excel中(NPOI方式,只提取公司名称、手机号码)
- 使用BeautifulSoup提取网页信息并自动存储
- NLTK学习笔记(七):文本信息提取
- 数据提取 “1,123,123,52” 这种信息存储方式的分离
- NLTK08《Python自然语言处理》code07 从文本提取信息
- 人工智能:python 实现 第十一章,从时间序列数据中提取统计信息
- 提取HTML中的文本信息
- Matlab搜索文件夹(包含子文件夹)下文本,提取文本并存储
- 正则:制作对文本信息提取,可方便于制作,WebGame的语言包提取
- HtmlParser提取网页中的纯文本信息-java
- C语言通过关键字从文本中提取有效信息
- Lucene学习之Tika提取文本信息
- 7.NLTK之从文本提取信息
- 运用python提取文本信息实战-rdoq time matching
- 【C语言】文件存储写入信息(文本方式)
- 从文本中提取特定信息
- Python自然语言处理 7 从文本提取信息
- 有一个“小组员工”信息数据,存储在employee.txt文本中 逗号分隔的各个信息是:员工编号,员工姓名,员工工资
- 富文本信息存储显示?乱码问题