通过分析html格式确定网页主体内容的想法
2005-01-23 22:05
274 查看
通过分析html格式确定网页主体内容的想法
做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最简单的还有:分析一个网页中使用IFrame的个数,内外链接个数比例等都需要对Html文件格式做分析。
要想知道网页的那个部分是主要部分,应该有很多判断标准。我们先从最简单的表格说起。现在大部分的网页组成都是由表格做框架。那么通过分析html页面中的表格的占位(height,weight)大小就可以来确定表格的主次关系了。
技术上问题不大,但是对于分析sina,sohu这样的主页效果可能不好,因为里面全是表格。
所以想从分析一些新闻页开始,不知道大家有没有什么好的注意!!
这里是一个小程序可以提取页面中所有的iframe。
做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最简单的还有:分析一个网页中使用IFrame的个数,内外链接个数比例等都需要对Html文件格式做分析。
要想知道网页的那个部分是主要部分,应该有很多判断标准。我们先从最简单的表格说起。现在大部分的网页组成都是由表格做框架。那么通过分析html页面中的表格的占位(height,weight)大小就可以来确定表格的主次关系了。
技术上问题不大,但是对于分析sina,sohu这样的主页效果可能不好,因为里面全是表格。
所以想从分析一些新闻页开始,不知道大家有没有什么好的注意!!
这里是一个小程序可以提取页面中所有的iframe。
相关文章推荐
- Python获取网页内容、使用BeautifulSoup库分析html
- gprs连接成功以后,如何通过socket获取网页html内容(C#)
- 通过CSS让html网页中的内容不可选
- Python MOOC简单获取网页内容并以html格式保存在本地
- 基于行块分布函数的通用网页正文内容抽取(带HTML格式)
- 通过网页地址获取网站HTML内容
- HTML与CSS教学-第4章 HTML网页主体与内容标记
- 关于HTML网页源码的字符编码(charset)格式(GB2312,GBK,UTF-8,ISO8859-1等)的解释
- 使用XPath解析HTML获取网页内容
- 将RTF格式的文件转成HTML并在网页中显示的代码
- 重新想象 Windows 8.1 Store Apps (81) - 控件增强: WebView 之加载本地 html, 智能替换 html 中的 url 引用, 通过 Share Contract 分享 WebView 中的内容, 为 WebView 截图
- 获取html网页的内容
- 在ashx文件中输出html中的文本框和按钮,并且当单击按钮时,输出文本框中的文字到网页上,同时文本框中的内容保持不变。
- PHP下通过file_get_contents()方法不能正常获取远程网页内容
- 将html格式的内容转换成纯文本格式
- java读取(正则表达式分析)网页内容
- C/C++程序实现通过http代理访问网页内容
- 在oracle中通过utl_http获得指定网页内容
- [python] 常用正则表达式爬取网页信息及分析HTML标签总结
- C/C++程序实现通过http代理访问网页内容