您的位置：首页 > 其它

正文提取

2012-11-10 15:29 246 查看

基于统计信息

基于DOM的网页主题信息自动提取

http://www.ccf.org.cn/resources/1190201776262/2010/05/12/h049617026.pdf

总结：与主题无关的块总是含有大量的无关链接和极少非链接文字

[PDF] 使用特征文本密度的网页正文提取

http://www.cqvip.com/qk/95939x/201003/32891243.html

总结：与主题无关的块总是含有大量的“无关词“，如“版权“，”声明“，“搜索“，”首页“，”帮助“。可以计算无关词和总文本的比例。

基于标签密度的自适应正文提取方法

http://wenku.baidu.com/view/773479eb998fcc22bcd10d12.html

总结：除了通过超链接标签，还可以通过其他标签密度来确定正文。但个人认为这种方式可靠性不高。

基于视觉

http://hi.baidu.com/gghgdk/item/9d5d5e0945e3fe96a2df4308

总结：正文节点在网页的位置总是在“中间”的，以及和其中图像元素的数量也有关联。

基于决策树

基于双决策的新闻网页正文精确抽取

http://file.lw23.com/4/4f/4fa/4fa9ed31-f1fa-42c1-abea-51d9f143b4a9.pdf

总结：人类识别正文段通过两个步骤：1.大概判断正文范围。2判读该正文范围内的段落是否属于正文部分。因此，机器识别可以通过全局和局部两个方面进行决策。

想法：对于决策树(暂时不理解其工作方式，求相关书目)的训练数据，可以通过这种方式获得。制作一个浏览器插件，类似于firebug或clipper的节点选择，可以选择页面的DOM元素，通过手工选取正文节点，该插件将数据传回服务器。通过这种方式将url和人工确定的正文节点对应，形成大量的训练数据。

基于包装器

通过为特定站点建立特定的包装器，即特定的正文节点获取模式，可以准确判断特定站点的正文节点。确定是需要手工确定站点。可以借助在”基于决策树“小节提到的训练数据获取方式来简化包装器的构建。

通俗来讲，就是为正文提取建立黑名单和白名单。

对当前某些插件的理解

研究了clearly的源码。源码的获取详见http://blog.csdn.net/cattail2012/article/details/8168025。从文件js/bulk.js的4320行起，描述的是该插件如何进行网页净化的。我称之为网页净化，因为clearly做的是这样一件事情：它从body 节点开始，对文档所有节点进行遍历处理，处理依据4419行的$R.parsingOptions，对不同的节点进行不同处理，如保留该节点或者删除该节
点，对节点的属性也进行删除或者修改，通过这种方式净化了页面元素。也就是说，clearly并没有做寻找正文节点这个工作，以此推测，对于 readability或pocket等插件，它们也都没有做提取正文节点的工作。而且对于它们的需求，也没有必要进行正文节点的获取。虽然这些插件没有进行正文提取，但是对于非正文节点的删除这个思想，可以使用在正文节点提取的算法中。

可行性分析

理论上，基于统计信息和视觉信息可以创建出可行的正文提取方案。

相关文献(未读)

Machine Learning for Information Extraction in Informal Domains

http://reports-archive.adm.cs.cmu.edu/anon/1999/CMU-CS-99-104.pdf

[PDF]Fact or fiction: Content classification for digital libraries - Ercim http://www.erci 4000
m.eu/publication/ws-proceedings/DelNoe02/AidanFinn.pdf

Two Approaches to Bringing Internet Services to WAP Devices
http://www9.org/w9cdrom/228/228.html

Seeing the Whole in Parts: Text Summarization forWeb Browsing on Handheld Devices
http://ilpubs.stanford.edu:8090/511/1/2001-45.pdf

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Web 机器学习模式识别

相关文章推荐

新的分享

章节导航