人工智能系统通过网络提高其性能 “信息提取”系统转换纯文本为可以统计分析的数据
2016-11-27 10:58
736 查看
Larry Hardesty|MIT新闻办公室
2016年11月10号
在互联网未公开的浩瀚信息汪洋里,大部分都是以纯文本未加密的形式存在的。这些数据可以为我们解释很多问题,比如说某种化学用品的使用和疾病爆发的关系,或者说新闻报道的形式与大选结果的关系等等,可能都可以在互联网数据中找到答案。但是从纯文本提取信息并整理后用来量化分析可能会过多的增加时间复杂度。
信息提取-或者是自动化分类数据项保存为文本成为人工智能研究的主题。上个星期,在计算语言学学会举办的大会上,MIT计算机科学与人工智能实验室通过对自然语言处理的实证研究获得了最佳论文奖,它是彻底改变传统机器学习提取信息的新方法。
大部分机器学习系统通过人工标注来梳理训练样本得到的相应分类模型。比如,人们可能首先需要标注某一集合文字的词性,从而机器学习系统解决模糊语义词组的分析。比如通过该方法可以分析“她”何时作为直接宾语使用何时作为形容词。
该系统具有代表性的是计算机科学家将尽可能的为机器学习系统提供足够的的训练数据从而增强其处理复杂问题的准确率。
为了与传统的方法进行比较,MIT的研究员们在他们新的论文里通过少量的数据来训练他们的系统,因为这正是他们所研究的通常数据不是很充足的场景。但是他们发现了有限数据的简单解决方法。
“在传统的自然语言处理信息提取过程中,将会给你一篇文章并且你需要不管花多大的代价都必须将信息从这篇文章中准确的提取出来。而这完全不同于我们平时将要解决此类问题的方法。我们当读到一篇文章无法理解时,我们会继续去网上找一篇我们能够理解的来阅读。”电子科学和计算机科学的Delta电子教授Regina Barzilay在新的论文里这样提到。
置信度提升法
本质上来讲,MIT研究者所研究的新系统与其是同样的原理。机器学习系统通常将每个分类器分配一个统计分类器可能正确率方法的置信度分数,它将从给定模型识别的训练数据中获得。在研究者的新系统中,如果置信度分数过低,该系统将自动的产生设定好的网页搜索请求来增加包含此类数据的文本内容从而进行提取。
该系统会试图将从新文本中抽取的相关数据和最初抽取获得的结果进行核对。如果分数仍然过低,该系统将通过搜索关键字继续请求下一篇文章,以此类推。
“基础抽取器没有改变。”电子工程和计算机科学的MIT系的研究生Adam Yala说。他也是新论文的合著者之一。“你将发现文章将会被抽取器很容易理解。所以就算是很弱的抽取器,你只要从网络上找到适合自动化符合要求的数据即可。”和Yala和Barzilay一样是这篇论文的第一作者,同样也是EECS的研究生Karthik Narasimhan这样说
系统所做的每一个决策很显然都是机器学习的结果。系统学会如何产生搜索请求并且测定其抽取任务抽取的相关文章的似然率,然后决定最佳策略来合并多次请求抽取的结果。
事实验证
研究者在试验中将该系统应用到两种情形的抽取任务中。一个是美国大规模枪击事件的数据采集,这将是枪支管控方法效果的推行研究的基本资源。另一个是食品污染的事件的相似数据采集。该系统分别对两个任务来训练。在第一个场景中,大规模枪击事件的数据库中该系统抽取了枪击者的名字,枪击的地点以及分别造成多少人受伤和死亡的情况。在食品污染的案例中,它抽取了食物的类型,污染物类型,发生的地点。在每个案例中,该系统都通过大概300个文件完成了训练。
从这些文件中,该系统所学的搜索的数据项集都倾向于其所抽取的数据项。比如说,大规模枪击的名字和“警察”,“指认”,“逮捕”和“指控”联系起来。在训练过程中,平均每篇文章该系统都会通过网上抽取9到10篇相关的文章来进行分析完成。
研究者将该系统的性能和通过更多传统机器学习技术训练的抽取器进行比较。每个人物的每条数据项,该系统都要优于前者大概10个百分点。
宾夕法尼亚大学计算机与信息科学的副教授Chris Callison-Burch说:“自然语言处理的困难在于同样的信息你可以用很多种方法来表述,而系统将所有情况建立一个综合模型将是面临的挑战之一。Barzilay和她的同事们发明的系统的高明之处在于其可以在网络上请求更多的信息从而简化了其处理的复杂度。这很聪明并且有效。”
Callison-Burch的团队利用自然语言处理和人工检查的结合建立了一个枪支犯罪信息数据库,很大程度上与MIT研究者的训练出来的系统类似。“我们爬取数百万的文章并且将那些我们认为与枪支犯罪关联的文章挑选出来,然后进行手动的抽取。如果有了像Regina他们那样的模型,将为我们在预测一篇文章是否与我们所标注的有关联节省很多时间。这将是我未来非常想要做的。”
2016年11月10号
在互联网未公开的浩瀚信息汪洋里,大部分都是以纯文本未加密的形式存在的。这些数据可以为我们解释很多问题,比如说某种化学用品的使用和疾病爆发的关系,或者说新闻报道的形式与大选结果的关系等等,可能都可以在互联网数据中找到答案。但是从纯文本提取信息并整理后用来量化分析可能会过多的增加时间复杂度。
信息提取-或者是自动化分类数据项保存为文本成为人工智能研究的主题。上个星期,在计算语言学学会举办的大会上,MIT计算机科学与人工智能实验室通过对自然语言处理的实证研究获得了最佳论文奖,它是彻底改变传统机器学习提取信息的新方法。
大部分机器学习系统通过人工标注来梳理训练样本得到的相应分类模型。比如,人们可能首先需要标注某一集合文字的词性,从而机器学习系统解决模糊语义词组的分析。比如通过该方法可以分析“她”何时作为直接宾语使用何时作为形容词。
该系统具有代表性的是计算机科学家将尽可能的为机器学习系统提供足够的的训练数据从而增强其处理复杂问题的准确率。
为了与传统的方法进行比较,MIT的研究员们在他们新的论文里通过少量的数据来训练他们的系统,因为这正是他们所研究的通常数据不是很充足的场景。但是他们发现了有限数据的简单解决方法。
“在传统的自然语言处理信息提取过程中,将会给你一篇文章并且你需要不管花多大的代价都必须将信息从这篇文章中准确的提取出来。而这完全不同于我们平时将要解决此类问题的方法。我们当读到一篇文章无法理解时,我们会继续去网上找一篇我们能够理解的来阅读。”电子科学和计算机科学的Delta电子教授Regina Barzilay在新的论文里这样提到。
置信度提升法
本质上来讲,MIT研究者所研究的新系统与其是同样的原理。机器学习系统通常将每个分类器分配一个统计分类器可能正确率方法的置信度分数,它将从给定模型识别的训练数据中获得。在研究者的新系统中,如果置信度分数过低,该系统将自动的产生设定好的网页搜索请求来增加包含此类数据的文本内容从而进行提取。
该系统会试图将从新文本中抽取的相关数据和最初抽取获得的结果进行核对。如果分数仍然过低,该系统将通过搜索关键字继续请求下一篇文章,以此类推。
“基础抽取器没有改变。”电子工程和计算机科学的MIT系的研究生Adam Yala说。他也是新论文的合著者之一。“你将发现文章将会被抽取器很容易理解。所以就算是很弱的抽取器,你只要从网络上找到适合自动化符合要求的数据即可。”和Yala和Barzilay一样是这篇论文的第一作者,同样也是EECS的研究生Karthik Narasimhan这样说
系统所做的每一个决策很显然都是机器学习的结果。系统学会如何产生搜索请求并且测定其抽取任务抽取的相关文章的似然率,然后决定最佳策略来合并多次请求抽取的结果。
事实验证
研究者在试验中将该系统应用到两种情形的抽取任务中。一个是美国大规模枪击事件的数据采集,这将是枪支管控方法效果的推行研究的基本资源。另一个是食品污染的事件的相似数据采集。该系统分别对两个任务来训练。在第一个场景中,大规模枪击事件的数据库中该系统抽取了枪击者的名字,枪击的地点以及分别造成多少人受伤和死亡的情况。在食品污染的案例中,它抽取了食物的类型,污染物类型,发生的地点。在每个案例中,该系统都通过大概300个文件完成了训练。
从这些文件中,该系统所学的搜索的数据项集都倾向于其所抽取的数据项。比如说,大规模枪击的名字和“警察”,“指认”,“逮捕”和“指控”联系起来。在训练过程中,平均每篇文章该系统都会通过网上抽取9到10篇相关的文章来进行分析完成。
研究者将该系统的性能和通过更多传统机器学习技术训练的抽取器进行比较。每个人物的每条数据项,该系统都要优于前者大概10个百分点。
宾夕法尼亚大学计算机与信息科学的副教授Chris Callison-Burch说:“自然语言处理的困难在于同样的信息你可以用很多种方法来表述,而系统将所有情况建立一个综合模型将是面临的挑战之一。Barzilay和她的同事们发明的系统的高明之处在于其可以在网络上请求更多的信息从而简化了其处理的复杂度。这很聪明并且有效。”
Callison-Burch的团队利用自然语言处理和人工检查的结合建立了一个枪支犯罪信息数据库,很大程度上与MIT研究者的训练出来的系统类似。“我们爬取数百万的文章并且将那些我们认为与枪支犯罪关联的文章挑选出来,然后进行手动的抽取。如果有了像Regina他们那样的模型,将为我们在预测一篇文章是否与我们所标注的有关联节省很多时间。这将是我未来非常想要做的。”
相关文章推荐
- 《Spark商业案例与性能调优实战100课》第1课:商业案例之通过RDD实现分析大数据电影点评系统中电影的用户行为信息
- 蜜罐技术——通过布置一些作为诱饵的主机、网络服务或者信息,诱使攻击方对它们实施攻击,从而可以对攻击行为进行捕获和分析
- Oracle性能分析11:系统统计信息
- 负载均衡 性能优化,网络安全,https,分布式系统,日志分析,离线数据分析视频教程
- 机器学习、统计分析、数据挖掘、神经网络、人工智能、模式识别,
- Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析
- 人工智能:python 实现 第十一章,从时间序列数据中提取统计信息
- 机器学习、统计分析、数据挖掘、神经网络、人工智能、模式识别之间的关系是什么?
- 通过压缩数据提高Domino网络传输性能
- Spark商业案例与性能调优实战100课》第2课:商业案例之通过RDD实现分析大数据电影点评系统中电影流行度分析
- NetFlow是CISCO发布的一款用于分析网络数据包信息的工具包
- 使用分区表来提高应用系统的性能并方便数据管理
- Windows Azure 解决方案系列: 通过全球数据中心网络,地图服务提高了80%性能表现
- 纯文本人工智能之名词信息提取及存储
- WEB应用 信息管理系统 数据分析展示系统 OA办公工作流 快速构建与开发平台
- Windows Azure 解决方案系列: 通过全球数据中心网络,地图服务提高了80%性能表现
- 主机性能监控系统--7.获取网络性能信息(升级版)
- AppScan Source Edition是否可以和Email系统集成,通过邮件系统分发缺陷信息?
- Windows Azure 解决方案系列: 通过全球数据中心网络,地图服务提高了80%性能表现
- 基于Mix网络的通信系统安全性性能分析