网页正文抽取
2015-10-20 11:48
399 查看
转自丕子:http://www.zhizhihu.com/html/y2013/4202.html
总结我用过的网页正文抽取工具: decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b boilerpipe http://t.cn/h41EEs python-boilerpipehttp://t.cn/zYeoyPw pismo http://t.cn/zYeoyP2 Goose http://t.cn/zYeoZ8G Python Goose http://t.cn/zYeoZ8q
@丕子:有个测试链接:http://jimplush.com/blog/goose 测试了个链接,goose没提出来,cx-ectractor提出来了;不过goose的metadata以及image等不错;谁有空写个吧,两者优点结合一下。
@52nlp: 转cx-ectractor(http://t.cn/hDO2xf )的维护者 @陈鑫Shin @王利锋Fandy //@陈阿荣: cx-extractor //@马少平THU: 这个确实有难度,我们也没有什么好方法。@王利锋Fandy: 在我的硕士论文中给出了形式化数学表示,详细请见:http://t.cn/zYeAJSc,希望对大家有帮助
木子海波:自吹自擂一下。http://blog.csdn.net/marising/article/details/6101101
开源中国:可看看这个开源项目 http://t.cn/zYeL9Jn
数据挖掘研究院:h2w.iask.cn
licstar:NReadability http://t.cn/zYewPMn
我不是勒瑟:搜一下这篇论文:DOM Based Content Extraction via Text Density
@梁斌 推一下,各大公司都有做这个的,搜狗这个叫PA,page analysis,我也短期维护过,目前是某哥们再搞
最后:http://tomazkovacic.com/blog/56/list-of-resources-article-text-extraction-from-html-documents/
@KissDev
正文抽取的开源代码,基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet:http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper:http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法
总结我用过的网页正文抽取工具: decruft http://t.cn/S7bVEC python-readabilityhttp://t.cn/zYeoZ8b boilerpipe http://t.cn/h41EEs python-boilerpipehttp://t.cn/zYeoyPw pismo http://t.cn/zYeoyP2 Goose http://t.cn/zYeoZ8G Python Goose http://t.cn/zYeoZ8q
@丕子:有个测试链接:http://jimplush.com/blog/goose 测试了个链接,goose没提出来,cx-ectractor提出来了;不过goose的metadata以及image等不错;谁有空写个吧,两者优点结合一下。
@52nlp: 转cx-ectractor(http://t.cn/hDO2xf )的维护者 @陈鑫Shin @王利锋Fandy //@陈阿荣: cx-extractor //@马少平THU: 这个确实有难度,我们也没有什么好方法。@王利锋Fandy: 在我的硕士论文中给出了形式化数学表示,详细请见:http://t.cn/zYeAJSc,希望对大家有帮助
木子海波:自吹自擂一下。http://blog.csdn.net/marising/article/details/6101101
开源中国:可看看这个开源项目 http://t.cn/zYeL9Jn
数据挖掘研究院:h2w.iask.cn
licstar:NReadability http://t.cn/zYewPMn
我不是勒瑟:搜一下这篇论文:DOM Based Content Extraction via Text Density
@梁斌 推一下,各大公司都有做这个的,搜狗这个叫PA,page analysis,我也短期维护过,目前是某哥们再搞
最后:http://tomazkovacic.com/blog/56/list-of-resources-article-text-extraction-from-html-documents/
@KissDev
正文抽取的开源代码,基于文本密度的html2article: http://t.cn/8FvHNOY 基于标签比例的机器学习Dragnet:http://t.cn/RhnDNg0 专注新闻类网页提取的Newspaper:http://t.cn/RhnDNgW 集成goose等三种算法的readbilitybundle http://t.cn/RhnDNgO 我觉得最好的方法还可能是视觉系方法
相关文章推荐
- SSH+Jquery+Ajax框架整合
- Yii1.1源码解析2之根据路由查找控制器
- Linux线程同步(条件变量和信号量)
- 根据年月日,判断20XX年XX月XX日是 星期几
- js 模块化历程
- vmware vcenter appliance dhcp 改为 静态IP导致web service认证失败
- JMP、Hook
- C++Windows下如何让窗口进程只运行一个实例
- Java接口中的成员变量为什么必须是public static final?
- 传真a8的启动流程
- 三十三张赤裸裸的人性图
- Eclipse导出可运行的jar包并运行
- 一键导航
- asp服务器如何搭建
- Nexus私服启动失败
- Kaggle 机器学习竞赛冠军及优胜者的源代码汇总
- .和..在路径中的区别
- C#中返回值封装
- CCFlow新版本的自由流程、自定义流程功能说明
- Java中的static关键字解析