python抓取多种类型的页面方法实例
与抓取预定义好的页面集合不同,抓取一个网站的所有内链会带来一个 挑战,即你不知道会获得什么。好在有几种基本的方法可以识别页面类型。
通过URL
一个网站中所有的博客文章可能都会包含一个 URL(例如 http://example.com/blog/title-of-post)。
通过网站中存在或者缺失的特定字段
如果一个页面包含日期,但是不包含作者名字,那你可以将其归类 为新闻稿。如果它有标题、主图片、价格,但是没有主要内容,那么它 可能是一个产品页面。
通过页面中出现的特定标签识别页面
即使不抓取某个标签内的数据,你仍然可以利用这个标签。你的爬 虫可以寻找类似于 <div id="related-products"> 这样的元素来识 别产品页面,即便是爬虫对相关产品的内容并不感兴趣。
为了跟踪多个页面类型,你需要在 Python 中有多个类型的页面对象。 这通过两种方式来实现。
如果页面都是相似的(它们基本上都是相同类型的内容),你可能需要 在现有的网页对象中加入一个 pageType 属性:
class Website: """所有文章/网页的共同基类""" def __init__(self, type, name, url, searchUrl, resultListing, resultUrl, absoluteUrl, titleTag, bodyTag): self.name = name self.url = url self.titleTag = titleTag self.bodyTag = bodyTag self.pageType = pageType
如果你在一个类 SQL 的数据库中对这些页面进行排序,这种模式类型 意味着这些页面应该被存放在同一张表中,并且加入一个额外的 pageType 列。
如果你抓取的页面或内容各不相同(它们包含不同类型的字段),就需 要为每个页面类型创建一个新的对象。当然,有些东西是所有网页共有 的――它们都有一个 URL,也可能都有一个名称或者页面标题。这种 情况非常适合用子类:
class Website: """所有文章/网页的共同基类""" def __init__(self, name, url, titleTag): self.name = name self.url = url self.titleTag = titleTag
这不是一个由你的爬虫直接使用的对象,而是将被你的页面类型引用的 对象:
class Product(Website): """产品页面要抓取的信息""" def __init__(self, name, url, titleTag, productNumber, price): Website.__init__(self, name, url, TitleTag) self.productNumberTag = productNumberTag self.priceTag = priceTag class Article(Website): """文章页面要抓取的信息""" def __init__(self, name, url, titleTag, bodyTag, dateTag): Website.__init__(self, name, url, titleTag) self.bodyTag = bodyTag self.dateTag = dateTag
这个产品页面扩展了Website基类,并且加入了仅适用于产品的productNumber和price属性,而Article类加入了body和date属性,这两个属性是不适用于产品的。
你可以用这两个类去抓取一个商店网站,该网站除了产品,可能还包含博客文章或新闻稿。
希望以上知识点能够帮助到大家,感谢大家对脚本之家的支持。
您可能感兴趣的文章:
- python3使用urllib抓取页面 修改Python2方法
- python简单抓取页面数据实例
- python抓取并保存html页面时乱码问题的解决方法
- 【Python】【Flask】Flask 后台发送html页面多种方法
- javascript 跳转页面的多种方法(实例代码)
- Python数据类型之列表和元组的方法实例详解
- Python抓取页面中超链接(URL)的三中方法比较(HTMLParser、pyquery、正则表达式) <转>
- C# 实现抓取网站页面内容的实例方法
- Python使用urllib2模块抓取HTML页面资源的实例分享
- python抓取页面内容 实例
- Python使用urllib2模块抓取HTML页面资源的实例分享
- python抓取页面数据实例
- python 7-6 如何使用描述符对实例属性做类型检查,分别实现set,方法,在set内使用isinstance做类型检查
- Python爬虫----实例: 抓取百度百科Python词条相关1000个页面数据
- C# 实现抓取网站页面内容的实例方法
- python抓取并保存html页面时乱码问题的解决方法
- 在python下file类型、open方法
- 用Python实现页面内容抓取
- Python参数类型检查的简单方法
- C++中提供了多种基本的数据类型。实际上,这些远不能满足我们的需求,如复数(第10章的例子大多是处理虚数的),再如分数。本任务将设计一个简单的分数类,完成对分数的几个运算。一则巩固基于对象编程的方法,