Python 爬虫实例(9)—— 搜索 爬取 淘宝
2018-01-18 22:22
344 查看
# coding:utf-8 import json import redis import time import requests session = requests.session() import logging.handlers import pickle import sys import re import datetime from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf8') import datetime # 生成一年的日期 def dateRange(start, end, step=1, format="%Y-%m-%d"): strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime days = (strptime(end, format) - strptime(start, format)).days return [strftime(strptime(start, format) + datetime.timedelta(i), format) for i in xrange(0, days, step)] def spider(): from selenium import webdriver import os # 引入chromedriver.exe chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe" os.environ["webdriver.chrome.driver"] = chromedriver browser = webdriver.Chrome(chromedriver) # 设置浏览器需要打开的url url = "https://www.taobao.com/" browser.get(url) time.sleep(1) browser.find_element_by_id("q").send_keys(u'python') browser.find_element_by_class_name("btn-search").click() time.sleep(5) for i in range(1,100): browser.find_element_by_xpath('//a[@trace="srp_bottom_pagedown"]').click() time.sleep(15) result = browser.page_source result_replace = str(result).replace('\n','').replace('\r','').replace('\t','').replace(' ','') result_replace = re.findall('<divclass="pic-boxJ_MouseEneterLeaveJ_PicBox">(.*?)</div><divclass="ctx-boxJ_MouseEneterLeaveJ_IconMoreNew">(.*?)</div><divclass="rowrow-4g-clearfix">(.*?)</div></div></div>',result_replace) print len(result_replace) for item in result_replace: item_imgurl = re.findall('data-src="(.*?)"alt=',item[0])[0] item_name = re.findall('alt="(.*?)"/></a></div><divclass=',item[0])[0] item_loation = re.findall('<divclass="location">(.*?)</div>',item[1])[0] company_name = re.findall('</span></span><span>(.*?)</span></a></div><divclass="location">',item[1])[0] company_price = re.findall('<divclass="priceg_priceg_price-highlight"><span>¥</span><strong>(.*?)</strong></div>',item[1])[0] purchase_num = re.findall('<divclass="deal-cnt">(.*?)人付款</div>',item[1])[0] print item_imgurl print item_name print item_loation print company_name print company_price print purchase_num print "="*30 # time.sleep(1000) # 关闭浏览器 # browser.quit() spider()
相关文章推荐
- python3下几个淘宝、天猫、京东爬虫实例。(价格、销量、评论等)
- 简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第二篇)
- python爬虫之:淘宝商品搜索爬虫(收集商品信息/下载详情图)
- python——爬虫学习——爬取淘宝搜索结果-(5)
- python爬虫从入门到放弃(九)之 实例爬取上海高级人民法院网开庭公告数据
- python3.4学习笔记(十四) 网络爬虫实例代码,抓取新浪爱彩双色球开奖数据实例
- Python爬虫基础实例教程
- Python简单爬虫实例
- Python 爬虫知识点 - 淘宝商品检索结果抓包分析
- Python爬虫实例(3)-用BeautifulSoup爬取多个可翻页网页上的多张照片
- Python爬虫抓取百度搜索图片
- Python实例:网络爬虫抓取豆瓣3万本书(2)
- python一个简单的爬虫实例
- Python 爬虫实例(15) 爬取 汽车之家(汽车授权经销商)
- Python爬虫实例一
- Python爬虫DOTA排行榜爬取实例(分享)
- python爬虫实例项目大全
- python爬虫学习-淘宝图片爬取
- Python爬虫:动态网页抓取淘宝“淘女郎”照片
- Python开发实例分享bt种子爬虫程序和种子解析