您的位置:首页 > 理论基础 > 计算机网络

网络爬虫速成指南(二)网页解析(基于算法)

2014-11-04 12:01 197 查看
此类算法用来抽取文章的正文。

这里介绍两种方式:
将html加载未dom树,计算文字连接比
将html作为文本,计算出行块分布

性能比较:
1000个网页:
  行块分布函数:29秒
  dom数文字连接比:66秒
分析:加载为dom树会很费时间。


                                            
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: