网页数据抽取的方法介绍
2006-04-22 22:38
281 查看
网页数据抽取的方法介绍
http://scholar.google.com/scholar?hl=zh-CN&lr=lang_zh-CN&newwindow=1&q=cache:TEq4wMcpnU4J:www.insun.hit.edu.cn/upfiles/at2004111118424287159.pdf+author:%22%3F%3F%3F+intitle:%22%E4%B8%80%E7%A7%8D%E6%96%B0%E7%9A%84%E5%9F%BA%E4%BA%8E%E7%BB%9F%E8%AE%A1%E7%9A%84%E8%87%AA
早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编写代码,开发一个分装器程序,把网页的逻辑特征抽取出来并把他们存入到数据库。TSIMMIS[13,25,28,29]系统和“斯坦福-IBM多信息源管理系统(1995)”是比较早的帮助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并且保证所获取信息一致性。其重点是开发支持这种包装过程的语言和工具。对于数据量大,结构动态变化的网站而言,需要一种更为有效的分装器建造方法。一般说来,数据库领域的人把注意力放在错综复杂的信息如何进行整合,分装器则用手工建造。另一方面,AI领域的人则把重点放在机器学习的方法如何能用在网站结构的自动学习上。本章将重点介绍分装器的自动或半自动的生成系统。分装器及其自动生成的复杂度和难易度将取决于网站结构的层次。第4 .1.节介绍的系统主要是针对结构化程度相对好的网站。这类系统多数是源自分装器生成领域的研究者。第4.2.节介绍了能处理结构缺少规范化的网页。这类系统较多地受到传统的IE领域的影响。
http://scholar.google.com/scholar?hl=zh-CN&lr=lang_zh-CN&newwindow=1&q=cache:TEq4wMcpnU4J:www.insun.hit.edu.cn/upfiles/at2004111118424287159.pdf+author:%22%3F%3F%3F+intitle:%22%E4%B8%80%E7%A7%8D%E6%96%B0%E7%9A%84%E5%9F%BA%E4%BA%8E%E7%BB%9F%E8%AE%A1%E7%9A%84%E8%87%AA
早期从网站上抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编写代码,开发一个分装器程序,把网页的逻辑特征抽取出来并把他们存入到数据库。TSIMMIS[13,25,28,29]系统和“斯坦福-IBM多信息源管理系统(1995)”是比较早的帮助建造分装器程序的框架系统。TSIMMIS的目标是以一体化的方式获取不同信息源的信息并且保证所获取信息一致性。其重点是开发支持这种包装过程的语言和工具。对于数据量大,结构动态变化的网站而言,需要一种更为有效的分装器建造方法。一般说来,数据库领域的人把注意力放在错综复杂的信息如何进行整合,分装器则用手工建造。另一方面,AI领域的人则把重点放在机器学习的方法如何能用在网站结构的自动学习上。本章将重点介绍分装器的自动或半自动的生成系统。分装器及其自动生成的复杂度和难易度将取决于网站结构的层次。第4 .1.节介绍的系统主要是针对结构化程度相对好的网站。这类系统多数是源自分装器生成领域的研究者。第4.2.节介绍了能处理结构缺少规范化的网页。这类系统较多地受到传统的IE领域的影响。
相关文章推荐
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- 数据挖掘方法案例介绍
- python中requests爬去网页内容出现乱码问题解决方法介绍
- MySQL数据导入导出方法与工具介绍(1)
- 【excel处理技巧】如何在Excel中快速辨别两列数据是否一致的五种方法介绍
- 网页图片延迟加载LazyLoad.js使用方法介绍和实例
- PHP重定向网页的具体实现方法介绍
- 分别介绍以下数据提供者连接各种数据库的方法 (vb.net)
- 详细介绍ASP.NET页面间数据传递的使用方法
- C++使用POST方法向网页提交数据-----C++发送HTTP数据获取Google天气预报
- Python 爬虫 正则抽取网页数据和Scrapy简单使用