WEB网页结构化信息抽取技术介绍(网页库级)
2008-07-03 11:51
288 查看
WEB结构化信息抽取就是将网页中的非结构化数据按照一定的需求抽取成结构化数据。是垂直搜索引擎和通用搜索引擎最大的差别。、
如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话……
公司企业信息搜索那就应该抽取出:公司名称、地址、电话、联系人…… …………
结构化信息抽取有两种方式可以实现,比较简单的是模板方式,还有一种是对网页不依赖的网页库级的结构化信息抽取方式,网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。
特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度,由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。 缺点:技术难度高,前期研发成本高,周期长。适合网页库级别结构化数据采集和搜索的高端应用。
我们的技术是对网页不依赖的web结构化信息抽取技术,适合高端的垂直搜索应用或者高端的竞争情报分析系统。
文章由 Kamovo 网站策划咨询机构 转载
如:比较购物搜索那就需要抓取网页后,对网页中的商品信息进行抽取,抽取出商品名称、价格、简介……甚至可以进一步将笔记本简介细分成“品牌、型号、CPU、内存、硬盘、显示屏、……”
房产信息搜索那就应该抽取出那应该抽取出:类型、地域、地址、房型、面积、装修情况、租金、联系人、联系电话……
公司企业信息搜索那就应该抽取出:公司名称、地址、电话、联系人…… …………
结构化信息抽取有两种方式可以实现,比较简单的是模板方式,还有一种是对网页不依赖的网页库级的结构化信息抽取方式,网页库结构化信息抽取是采用页面结构分析与智能节点分析转换的方法,自动抽取结构化的数据。
特点:可对任意的正常网页进行抽取,完全自动化,不用对具体网站事先生成模板,对每个网页自动实时得生成抽取规则,完全不需要人工干预。智能抽取准确率高,不是机械的匹配,采用智能分析技术,准确率能达到98%以上。能保证较快处理速度,由于采用页面的智能分析技术,先去除了垃圾块,降低分析的压力,是处理速度大大提高。通用性较好,易于维护,只需设定参数、配置相应的特征就能改进相应的抽取性能;一般的非专业人员经过简单培训就能维护。 缺点:技术难度高,前期研发成本高,周期长。适合网页库级别结构化数据采集和搜索的高端应用。
我们的技术是对网页不依赖的web结构化信息抽取技术,适合高端的垂直搜索应用或者高端的竞争情报分析系统。
文章由 Kamovo 网站策划咨询机构 转载
相关文章推荐
- WEB网页结构化信息抽取技术介绍(网页库级)
- WEB网页结构化信息抽取技术介绍(网页库级)
- WEB网页结构化信息抽取技术介绍(网页库级)
- WEB网页结构化信息抽取技术介绍
- 网页库级垂直搜索引擎技术(三)一堆信息抽取的资料文档
- Web信息抽取技术在统一检索系统中的应用研究
- Web 信息抽取技术
- Web信息抽取技术研究的发展历程
- 网页正文抽取技术模块和模型介绍
- Web信息抽取技术纵览一(转载)
- 基于 Web 的数据挖掘--自动抽取用 HTML、XML 和 Java 编写的信息
- GIS+=地理信息+容器技术(2)——Dockers技术介绍
- 基于主题的Web信息采集技术研究(二)
- JavaWeb-Servlet技术的监听器-解析与实例-网站在线用户信息与网页点击量
- C#实现通过程序自动抓取远程Web网页信息
- 【Web开发技术】Web开发、Tomcat组成结构、技术介绍
- C#实现通过程序自动抓取远程Web网页信息
- 360杯信息安全技术大赛Web第一题分析
- web前端三大技术介绍之HTML
- 恶意网页逃避JavaScript沙盒过滤技术及应对介绍