您的位置:首页 > 编程语言 > Python开发

Python爬虫框架Scrapy实战之抓取户外数据

2015-03-26 15:19 791 查看

一个户外论坛的特点:

列出一些活动,有翻页功能,点向一个活动显示当前活动信息,在二楼一般显示报名名单!

需要的数据:

就是活动的信息,报名的名单,价钱,主题,url

数据库:

旅游表与报名表

选择Spider:

我选择了CrawlSpider,这个特点:提供一个跟随链接的一个规则!
rules = (
Rule(LinkExtractor(allow=('forum\.php\?mod=forumdisplay\&fid=2\&page=\d+', ))),
Rule(LinkExtractor(restrict_xpaths='//tr/th[@class="common"]/a[starts-with(@href,"http")]'), callback='parse_item'),
)

提取数据的xpath:

'//div[@id="postlist"]/div[2]//div[@align="left"]/text()','//div[@id="postlist"]/div[2]//strong/text()']


实例地址:

https://github.com/heavyzero/example/tree/master/uutravel

结果:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python scrapy 框架 爬虫
相关文章推荐