Python打印scrapy蜘蛛抓取树结构的方法
2015-04-08 10:14
1131 查看
通过下面这段代码可以一目了然的知道scrapy的抓取页面结构,调用也非常简单
#!/usr/bin/env python import fileinput, re from collections import defaultdict def print_urls(allurls, referer, indent=0): urls = allurls[referer] for url in urls: print ' '*indent + referer if url in allurls: print_urls(allurls, url, indent+2) def main(): log_re = re.compile(r'<GET (.*?)> \(referer: (.*?)\)') allurls = defaultdict(list) for l in fileinput.input(): m = log_re.search(l) if m: url, ref = m.groups() allurls[ref] += 详解JavaScript树结构" target=_blank> print_urls(allurls, 'None') main()[/code]希望本文所述对大家的Python程序设计有所帮助。
您可能感兴趣的文章:
- [url=https://www.geek-share.com/detail/2694922357.html]详解JavaScript树结构
相关文章推荐
- 【Python笔记】WEB抓取框架Scrapy的安装方法
- Python使用scrapy抓取网站sitemap信息的方法
- 打印python的ctype定义的结构中的数据
- python 写的两种打印全排列的方法速度对比
- 【python】【scrapy】使用方法概要(一)
- Python抓取框架:Scrapy的架构
- 两种判断(抓取)网页编码的方法【python版】
- 一个类似与PHP的var_dump函数的方法(打印一个变量的结构-包括复杂的array和object)。
- Python抓取网页&批量下载文件方法初探(正则表达式+BeautifulSoup)
- Python抓取框架:Scrapy的架构
- python 抓取网页的方法
- Python开源网络爬虫或网络蜘蛛scrapy入门遇到问题
- 我的python学习之路----Python 3 抓取网页的 N 种方法
- Python:通过执行100万次打印来比较C和python的性能,以及用C和python结合来解决性能问题的方法
- Python抓取框架:Scrapy的架构
- Python抓取框架:Scrapy的架构
- Python提取Linux内核源代码的目录结构实现方法
- python打印log调试信息的方法
- Python:通过执行100万次打印来比较C和python的性能,以及用C和python结合来解决性能问题的方法
- 【python】【scrapy】使用方法概要(二)