您的位置：首页 > 理论基础 > 计算机网络

网络爬虫速成指南（二）网页解析(基于算法)

2014-11-04 12:01 197 查看

此类算法用来抽取文章的正文。

这里介绍两种方式：
将html加载未dom树，计算文字连接比
将html作为文本，计算出行块分布

性能比较：
1000个网页：
　　行块分布函数：29秒
　　dom数文字连接比：66秒
分析：加载为dom树会很费时间。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航