您的位置:首页 > 其它

正文提取

2012-11-10 15:29 246 查看
基于统计信息

基于DOM的网页主题信息自动提取

http://www.ccf.org.cn/resources/1190201776262/2010/05/12/h049617026.pdf

总结:与主题无关的块总是含有大量的无关链接和极少非链接文字

 

[PDF] 使用特征文本密度的网页正文提取

http://www.cqvip.com/qk/95939x/201003/32891243.html

总结:与主题无关的块总是含有大量的“无关词“,如“版权“,”声明“,“搜索“,”首页“,”帮助“。可以计算无关词和总文本的比例。

 

基于标签密度的自适应正文提取方法

http://wenku.baidu.com/view/773479eb998fcc22bcd10d12.html

总结:除了通过超链接标签,还可以通过其他标签密度来确定正文。但个人认为这种方式可靠性不高。

 基于视觉

http://hi.baidu.com/gghgdk/item/9d5d5e0945e3fe96a2df4308

总结:正文节点在网页的位置总是在“中间”的,以及和其中图像元素的数量也有关联。

基于决策树

基于双决策的新闻网页正文精确抽取

http://file.lw23.com/4/4f/4fa/4fa9ed31-f1fa-42c1-abea-51d9f143b4a9.pdf

总结:人类识别正文段通过两个步骤:1.大概判断正文范围。2判读该正文范围内的段落是否属于正文部分。因此,机器识别可以通过全局和局部两个方面进行决策。

想法:对于决策树(暂时不理解其工作方式,求相关书目)的训练数据,可以通过这种方式获得。制作一个浏览器插件,类似于firebug或clipper的节点选择,可以选择页面的DOM元素,通过手工选取正文节点,该插件将数据传回服务器。通过这种方式将url和人工确定的正文节点对应,形成大量的训练数据。 

 

基于包装器

通过为特定站点建立特定的包装器,即特定的正文节点获取模式,可以准确判断特定站点的正文节点。确定是需要手工确定站点。可以借助在”基于决策树“小节提到的训练数据获取方式来简化包装器的构建。

通俗来讲,就是为正文提取建立黑名单和白名单。

 

对当前某些插件的理解

研究了clearly的源码。源码的获取详见http://blog.csdn.net/cattail2012/article/details/8168025。 从文件js/bulk.js的4320行起,描述的是该插件如何进行网页净化的。我称之为网页净化,因为clearly做的是这样一件事情:它从body 节点开始,对文档所有节点进行遍历处理,处理依据4419行的$R.parsingOptions,对不同的节点进行不同处理,如保留该节点或者删除该节
点,对节点的属性也进行删除或者修改,通过这种方式净化了页面元素。也就是说,clearly并没有做寻找正文节点这个工作,以此推测,对于 readability或pocket等插件,它们也都没有做提取正文节点的工作。而且对于它们的需求,也没有必要进行正文节点的获取。虽然这些插件没有进行正文提取,但是对于非正文节点的删除这个思想,可以使用在正文节点提取的算法中。

 

可行性分析

理论上,基于统计信息和视觉信息可以创建出可行的正文提取方案。

 

相关文献(未读)

Machine Learning for Information Extraction in Informal Domains

http://reports-archive.adm.cs.cmu.edu/anon/1999/CMU-CS-99-104.pdf

[PDF]Fact or fiction: Content classification for digital libraries - Ercim http://www.erci 4000
m.eu/publication/ws-proceedings/DelNoe02/AidanFinn.pdf

Two Approaches to Bringing Internet Services to WAP Devices
http://www9.org/w9cdrom/228/228.html

Seeing the Whole in Parts: Text Summarization forWeb Browsing on Handheld Devices
http://ilpubs.stanford.edu:8090/511/1/2001-45.pdf
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息