正文提取
2012-11-10 15:29
246 查看
基于统计信息
基于DOM的网页主题信息自动提取
http://www.ccf.org.cn/resources/1190201776262/2010/05/12/h049617026.pdf
总结:与主题无关的块总是含有大量的无关链接和极少非链接文字
[PDF] 使用特征文本密度的网页正文提取
http://www.cqvip.com/qk/95939x/201003/32891243.html
总结:与主题无关的块总是含有大量的“无关词“,如“版权“,”声明“,“搜索“,”首页“,”帮助“。可以计算无关词和总文本的比例。
基于标签密度的自适应正文提取方法
http://wenku.baidu.com/view/773479eb998fcc22bcd10d12.html
总结:除了通过超链接标签,还可以通过其他标签密度来确定正文。但个人认为这种方式可靠性不高。
基于视觉
http://hi.baidu.com/gghgdk/item/9d5d5e0945e3fe96a2df4308
总结:正文节点在网页的位置总是在“中间”的,以及和其中图像元素的数量也有关联。
基于决策树
基于双决策的新闻网页正文精确抽取
http://file.lw23.com/4/4f/4fa/4fa9ed31-f1fa-42c1-abea-51d9f143b4a9.pdf
总结:人类识别正文段通过两个步骤:1.大概判断正文范围。2判读该正文范围内的段落是否属于正文部分。因此,机器识别可以通过全局和局部两个方面进行决策。
想法:对于决策树(暂时不理解其工作方式,求相关书目)的训练数据,可以通过这种方式获得。制作一个浏览器插件,类似于firebug或clipper的节点选择,可以选择页面的DOM元素,通过手工选取正文节点,该插件将数据传回服务器。通过这种方式将url和人工确定的正文节点对应,形成大量的训练数据。
基于包装器
通过为特定站点建立特定的包装器,即特定的正文节点获取模式,可以准确判断特定站点的正文节点。确定是需要手工确定站点。可以借助在”基于决策树“小节提到的训练数据获取方式来简化包装器的构建。
通俗来讲,就是为正文提取建立黑名单和白名单。
对当前某些插件的理解
研究了clearly的源码。源码的获取详见http://blog.csdn.net/cattail2012/article/details/8168025。 从文件js/bulk.js的4320行起,描述的是该插件如何进行网页净化的。我称之为网页净化,因为clearly做的是这样一件事情:它从body 节点开始,对文档所有节点进行遍历处理,处理依据4419行的$R.parsingOptions,对不同的节点进行不同处理,如保留该节点或者删除该节
点,对节点的属性也进行删除或者修改,通过这种方式净化了页面元素。也就是说,clearly并没有做寻找正文节点这个工作,以此推测,对于 readability或pocket等插件,它们也都没有做提取正文节点的工作。而且对于它们的需求,也没有必要进行正文节点的获取。虽然这些插件没有进行正文提取,但是对于非正文节点的删除这个思想,可以使用在正文节点提取的算法中。
可行性分析
理论上,基于统计信息和视觉信息可以创建出可行的正文提取方案。
相关文献(未读)
Machine Learning for Information Extraction in Informal Domains
http://reports-archive.adm.cs.cmu.edu/anon/1999/CMU-CS-99-104.pdf
[PDF]Fact or fiction: Content classification for digital libraries - Ercim http://www.erci 4000
m.eu/publication/ws-proceedings/DelNoe02/AidanFinn.pdf
Two Approaches to Bringing Internet Services to WAP Devices
http://www9.org/w9cdrom/228/228.html
Seeing the Whole in Parts: Text Summarization forWeb Browsing on Handheld Devices
http://ilpubs.stanford.edu:8090/511/1/2001-45.pdf
基于DOM的网页主题信息自动提取
http://www.ccf.org.cn/resources/1190201776262/2010/05/12/h049617026.pdf
总结:与主题无关的块总是含有大量的无关链接和极少非链接文字
[PDF] 使用特征文本密度的网页正文提取
http://www.cqvip.com/qk/95939x/201003/32891243.html
总结:与主题无关的块总是含有大量的“无关词“,如“版权“,”声明“,“搜索“,”首页“,”帮助“。可以计算无关词和总文本的比例。
基于标签密度的自适应正文提取方法
http://wenku.baidu.com/view/773479eb998fcc22bcd10d12.html
总结:除了通过超链接标签,还可以通过其他标签密度来确定正文。但个人认为这种方式可靠性不高。
基于视觉
http://hi.baidu.com/gghgdk/item/9d5d5e0945e3fe96a2df4308
总结:正文节点在网页的位置总是在“中间”的,以及和其中图像元素的数量也有关联。
基于决策树
基于双决策的新闻网页正文精确抽取
http://file.lw23.com/4/4f/4fa/4fa9ed31-f1fa-42c1-abea-51d9f143b4a9.pdf
总结:人类识别正文段通过两个步骤:1.大概判断正文范围。2判读该正文范围内的段落是否属于正文部分。因此,机器识别可以通过全局和局部两个方面进行决策。
想法:对于决策树(暂时不理解其工作方式,求相关书目)的训练数据,可以通过这种方式获得。制作一个浏览器插件,类似于firebug或clipper的节点选择,可以选择页面的DOM元素,通过手工选取正文节点,该插件将数据传回服务器。通过这种方式将url和人工确定的正文节点对应,形成大量的训练数据。
基于包装器
通过为特定站点建立特定的包装器,即特定的正文节点获取模式,可以准确判断特定站点的正文节点。确定是需要手工确定站点。可以借助在”基于决策树“小节提到的训练数据获取方式来简化包装器的构建。
通俗来讲,就是为正文提取建立黑名单和白名单。
对当前某些插件的理解
研究了clearly的源码。源码的获取详见http://blog.csdn.net/cattail2012/article/details/8168025。 从文件js/bulk.js的4320行起,描述的是该插件如何进行网页净化的。我称之为网页净化,因为clearly做的是这样一件事情:它从body 节点开始,对文档所有节点进行遍历处理,处理依据4419行的$R.parsingOptions,对不同的节点进行不同处理,如保留该节点或者删除该节
点,对节点的属性也进行删除或者修改,通过这种方式净化了页面元素。也就是说,clearly并没有做寻找正文节点这个工作,以此推测,对于 readability或pocket等插件,它们也都没有做提取正文节点的工作。而且对于它们的需求,也没有必要进行正文节点的获取。虽然这些插件没有进行正文提取,但是对于非正文节点的删除这个思想,可以使用在正文节点提取的算法中。
可行性分析
理论上,基于统计信息和视觉信息可以创建出可行的正文提取方案。
相关文献(未读)
Machine Learning for Information Extraction in Informal Domains
http://reports-archive.adm.cs.cmu.edu/anon/1999/CMU-CS-99-104.pdf
[PDF]Fact or fiction: Content classification for digital libraries - Ercim http://www.erci 4000
m.eu/publication/ws-proceedings/DelNoe02/AidanFinn.pdf
Two Approaches to Bringing Internet Services to WAP Devices
http://www9.org/w9cdrom/228/228.html
Seeing the Whole in Parts: Text Summarization forWeb Browsing on Handheld Devices
http://ilpubs.stanford.edu:8090/511/1/2001-45.pdf
相关文章推荐
- 【Python】提取网页正文内容的相关模块与技术
- c#第五次作业---正文提取
- 从HTML文件中提取正文的简单方案
- WebCollector网页正文提取
- c#第五次作业---正文提取
- 搜索引擎当前主流正文提取的思路
- 网页正文提取的思路
- 我为开源做贡献,网页正文提取——Html2Article
- 提取HTML的正文类
- 在正文中提取有实际意义的数字
- 蛙蛙推荐:蛙蛙牌正文提取算法
- python 任意新闻正文提取
- 网页正文内容的提取
- 数据挖掘笔记-聚类-DBSCAN-网页正文提取
- 目前互联网上公布出来的正文提取算法,大家可以综合比较下
- Python Show-Me-the-Code 第 0008 题 提取HTML正文内容
- 《C#程序设计》 第五次作业:开源项目“网页正文提取”的理解
- [scrapy] scrapy 使用goose作为正文提取
- 分词 正文提取 java
- java提取html正文的图片代码