使用scrapy框架爬取自己的博文(3)
2014-05-05 16:36
155 查看
既然如此,何不再抓一抓网页的文字内容呢?
谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图:
这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。
sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract()
直接在scrapy框架下运行的话一来慢,二来错了范围太大也不知道哪里的问题,用ipython的shell 命令比较直接!
scrapy shell http://www.cnblogs.com/huhuuu/p/3709336.html
然后会返回一个选择器的实例对象sel,直接对sel处理就可以了。
sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract() 的结果:
看来这个表达式起作用了
然后把它写到自己的spider中运行 ,
有个空格符‘xa0’好像编译器支持的不好,没事,忽略就好
再运行,每篇博客的内容都爬取过来了,ok,爬取网页内容的任务完成!
谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图:
这样已经比较明显了,博客的正文内容主要在div 的class = cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。
sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract()
直接在scrapy框架下运行的话一来慢,二来错了范围太大也不知道哪里的问题,用ipython的shell 命令比较直接!
scrapy shell http://www.cnblogs.com/huhuuu/p/3709336.html
然后会返回一个选择器的实例对象sel,直接对sel处理就可以了。
sel.xpath('//div[@id= "cnblogs_post_body"]/p/text()').extract() 的结果:
看来这个表达式起作用了
然后把它写到自己的spider中运行 ,
有个空格符‘xa0’好像编译器支持的不好,没事,忽略就好
for data in item['description']: strTmp ='' for i in data: if (i != u'\xa0'): #'\xa0'这个字符编译器不能识别,所以处理掉 #print i strTmp += i print strTmp
再运行,每篇博客的内容都爬取过来了,ok,爬取网页内容的任务完成!
相关文章推荐
- 使用scrapy框架爬取自己的博文
- 使用scrapy框架爬取自己的博文(2)
- Scrapy爬虫框架之使用第三方库fake_useragent实现随机请求头
- 使用Scrapy框架编写爬虫
- 零基础写python爬虫之使用Scrapy框架编写爬虫
- 零基础写python爬虫之使用Scrapy框架编写爬虫
- Silverlight企业应用框架设计【六】自定义系统菜单(使用自己的DataForm)
- 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
- 基于python的scrapy框架中使用MongoDB遇到的问题
- 使用python的scrapy框架,spider与pipelines的调用
- 框架的使用(五):scrapy
- Python 爬虫框架 Scrapy 快速使用
- 自己使用的Android框架
- 用 Composer构建自己的 PHP 框架之使用 ORM
- 使用Scrapy来爬取自己的CSDN文章 (2)
- scrapy框架的使用心得
- 讲解Python的Scrapy爬虫框架使用代理进行采集的方法
- 使用scrapy框架爬取豆瓣影评
- Android开发培训之如何使用该框架来构建自己的应用
- python爬虫scrapy框架灵巧使用