Python scrapy_splash爬取所有腾讯小说
2019-02-10 23:56
106 查看
前置条件:正确配置Splash
关于spider 下
下面代码是爬取一个主目录下的爬取小说所有免费章节的内容,如果想爬取所有的
小说,那只要修改下代码即可.
import scrapy import os from scrapy_splash import SplashRequest from tools.headers import UserAgent #!这个模块时个人包装的,如需使用,在下面改成浏览器的请求头即可 from hello.items import HelloItem from bs4 import BeautifulSoup #编码问题,欢迎提出疑问 class SearchSpider(scrapy.Spider): name = 'search' #allowed_domains = ['helllo.com'] def start_requests(self): #yield 下面网址可更改 ,在小说的主目录下 yield SplashRequest(url='http://chuangshi.qq.com/bk/qh/AGkENV1jVjYAP1RtATYBYQ-l.html',callback=self.parse, headers={'User-Agent':UserAgent.PC()}) def parse(self, response): for area in response.css('.index_area>div'): if not area.css('.topfill>h1>span'): for li_ in area.css('.list>ul>li'): item=HelloItem() item['title']=li_.css('a b::text').extract_first() item['url']=li_.css('a::attr(href)').extract_first() yield SplashRequest(url=item['url'],args={'wait':10,},callback=self.download,headers={'User-Agent':UserAgent.PC(),}) def download(self,response): doc=BeautifulSoup(response.body.decode('utf-8'),'lxml') filename=doc.title.string[:-4]+'.txt' with open(filename, 'a+', encoding='utf-8') as f: for li in doc.find(class_='bookreadercontent').find_all('p'): f.write(li.string + '\n')
- 此代码仅供学习使用
- 以上皆为个人理解,如有错误之处,欢迎留言指正
相关文章推荐
- Python的scrapy之爬取顶点小说网的所有小说
- Python爬虫框架Scrapy 学习笔记 10.1 -------【实战】 抓取天猫某网店所有宝贝详情
- python.scrapy 之crawlall命令执行所有的spiders
- 使用python爬取豆瓣读书小说标签下的所有图书
- Python爬虫框架Scrapy 学习笔记 10.3 -------【实战】 抓取天猫某网店所有宝贝详情
- 「实战演练」Python爬虫,使用2.3 Scrapy 框架爬免费小说
- 第三百五十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—chrome谷歌浏览器无界面运行、scrapy-splash、splinter
- Python爬虫从入门到放弃(十八)之 Scrapy爬取所有知乎用户信息(上)
- Scrapy框架爬取腾讯招聘所有职位
- Python爬虫实战之使用Scrapy爬起点网的完本小说
- python+scrapy+selenium爬取并下载麦子学院所有视频教程
- Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)
- Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】 抓取天猫某网店所有宝贝详情
- Python BeautifulSoup 爬取笔趣阁所有的小说
- Python使用Scrapy爬虫框架爬取天涯社区小说“大宗师”全文
- python scrapy爬取腾讯招聘网站保存为csv文件,而且设定其表头顺序(csv默认是无序的)
- Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去
- Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)
- Python3 scrapy下载网易云音乐所有(大部分)歌曲
- Python爬虫从入门到放弃(十八)之 Scrapy爬取所有知乎用户信息(上)