您的位置:首页 > 编程语言 > Python开发

scrapy爬虫框架入门实例

2017-06-14 21:01 405 查看
原文地址:http://blog.csdn.net/zjiang1994/article/details/52779537,博主:肚子_肚子。(此文转载,已争取博主同意)

注意:经多人告知,慕课网的页面结构已经变了,所以说该案例实际上已经不能达到抓取目的。但是关于scrapy爬虫框架整体的使用方式和流程目前还是正确的,可以进行参考

以上这段博主后来加在博客前面的一段话

我的第一个实例就是根据这个博客做的,为了记录学习过程,供以后自己查阅,也方便他人,我把自己写的也贴上来。只写原博客中没有提到的(或者是由于页面结构改变而不能工作的)部分。

系统:win10 ,64位

Python版本:3.5.3 ,64位

pip版本:9.01 for python 3.5.3



首先改变的是慕课网的页面结构,改变为下图:



所以,代码中的相应部分也应该改为下面:

#先获取每个课程的div
        for box in response.xpath('//div[@class="index-card-container course-card-container container "]'):
#获取课程路径
item['url'] = 'http://www.imooc.com'+box.xpath('.//@href').extract()[0]
#获取课程标题
item['title'] = box.xpath('.//h3[@class="course-card-name"]/text()').extract()[0]
#获取图片地址
item['image_url'] = box.xpath(".//@src").extract()[1]
#获取学生人数
item['student'] = box.xpath('.//div[@class="course-card-info"]/text()').extract()[1].strip()
#获取描述
item['introduction'] = box.xpath(".//p/text()").extract()[0]


2、下载图片

在这节中,代码没有改变的地方。需要注意的是,如果没有装Pillow  ,会报错:no module named PIL.

下载相应的whl文件之后安装即可。我下载的是:Pillow-4.1.1-cp35-cp35m-win_amd64.whl。这是官网下载链接:

https://pypi.python.org/pypi/Pillow/2.2.1#downloads

至此,入门框架算完成了。

有错误或者疏忽的地方,烦请指正!
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python scrapy 爬虫 实例