您的位置:首页 > Web前端 > HTML

通过分析html格式确定网页主体内容的想法

2005-01-23 22:05 274 查看
通过分析html格式确定网页主体内容的想法
做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最简单的还有:分析一个网页中使用IFrame的个数,内外链接个数比例等都需要对Html文件格式做分析。

要想知道网页的那个部分是主要部分,应该有很多判断标准。我们先从最简单的表格说起。现在大部分的网页组成都是由表格做框架。那么通过分析html页面中的表格的占位(height,weight)大小就可以来确定表格的主次关系了。

技术上问题不大,但是对于分析sina,sohu这样的主页效果可能不好,因为里面全是表格。

所以想从分析一些新闻页开始,不知道大家有没有什么好的注意!!

这里是一个小程序可以提取页面中所有的iframe。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: