Scrapy抓取网页数据
2014-05-12 17:12
190 查看
工具,firefox(推荐好用)
相较于soupbeautifull,scrapy显得优雅又快速,试手如下
相较于soupbeautifull,scrapy显得优雅又快速,试手如下
from scrapy.spider import Spider from scrapy.selector import Selector from health.items import HealthItem # from health.pipelines import HealthPipeline import simplejson class DmozSpider(Spider): name = "all" allowed_domains = ["xywy.org"] start_urls = [ "http://zzk.xywy.com/", ] def parse(self, response): filename = response.url.split(".")[-2] sel = Selector(response) sites = sel.xpath('//div[@class="shentih"]') results = sites.xpath('./div/div/div/*/*/a[@class="fsize14"]') # results = sites.xpath('./div/div/div[@id="AList"]/*/*/a[@class="fsize14"]') item = HealthItem() for site in results: for title,link in zip(site.xpath('text()').extract(),site.xpath('@href').extract()): item['title'] = title.encode('utf-8') item['link'] = link.encode('utf-8') yield item
相关文章推荐
- scrapy递归抓取网页数据
- 使用HtmlAgilityPack和ScrapySharp抓取网页数据遇到的几个问题解决方法——格式编码问题
- scrapy递归抓取网页数据
- Java抓取网页数据(原网页+Javascript返回数据)
- PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
- Java抓取网页数据(原网页+Javascript返回数据)
- htmlcleaner+xpath抓取网页数据
- java网页数据抓取源代码(抓取电话和身份证信息为例)
- jsoup技术抓取网页数据大全
- Jsoup网页数据抓取案例
- 浅谈如何使用python抓取网页中的动态数据
- ASP.NET 抓取网页内容-Post 数据
- 抓取Web网页数据分析
- php curl 抓取网页响应数据
- Java HttpURLConnection 抓取网页内容 解析gzip格式输入流数据并转换为String格式字符串
- Java抓取网页数据(原网页+Javascript返回数据)
- Java抓取网页数据(原网页+Javascript返回数据)
- 网页中抓取数据
- 将textbox中的值赋给网页中的输入框 然后点击button按钮模拟点击网页中的按钮 然后抓取数据
- R语言实现简单的网页数据抓取