引入时间模块;爬取淘宝
2018-01-17 20:38
267 查看
# coding: utf-8 # 打开cmd命令行 输入pip install selenium 下载包 # 从selenium中引入webdriver from selenium import webdriver # 引入时间模块 import time # 1.创建浏览器对象,并打开浏览器 driver = webdriver.Firefox() # 2.在浏览器中访问网址 driver.get('http://www.baidu.com') # 当前页的网页源代码 # print driver.page_source # 根据id查找某个标签 # element = driver.find_element_by_id('kw') # # 输入搜索关键词 # element.send_keys(u'淘宝') # 通过id找到百度一下按钮 news_link = driver.find_element_by_link_text('新闻') # # 执行点击操作 news_link.click() # 程序休眠3秒 time.sleep(3) # 退出浏览器 driver.quit() # element 不加s 找到的是一个标签 # driver.find_element_by_id() # 根据id查找 # driver.find_element_by_class_name() # 根据class查找 # driver.find_element_by_css_selector() # 根据css选择器查找 # driver.find_element_by_name() # 根据name查找 # driver.find_element_by_link_text() # 根据链接文本查找 # elements 查找多个符合条件的标签,并且返回一个列表 # rs = driver.find_elements_by_class_name('mnav') # print rs
爬取淘宝
# coding: utf-8 from selenium import webdriver import time # 1.创建浏览器对象 driver = webdriver.Firefox() # 2.打开淘宝首页 driver.get('http://www.taobao.com') # 3.找到搜索输入框 search_ele = driver.find_element_by_id('q') # 4.输入搜索关键词 search_ele.send_keys(u'笔记本电脑') # 5.找到搜索按钮 search_btn = driver.find_element_by_class_name('btn-search') # 6.点击按钮 search_btn.click() # 打开文件 file_handle = open('shops.txt','w') for i in range(1, 11): print '正在爬取第%s页数据.......'%i # 让浏览器滚动,加载数据 for x in range(1,11,2): # 暂停1秒再开始滚动 time.sleep(0.5) j = x/10.0 # %f float小数类型的占位符 js = 'document.documentElement.scrollTop = document.documentElement.scrollHeight * %f'%j # 执行js代码 driver.execute_script(js) # 浏览器滚动结束之后,取出数据 # 找到所有的class名称为info-cont的标签 shops = driver.find_elements_by_class_name('info-cont') # for循环遍历列表,取出每一个商品信息 for shop in shops: # 写入数据 编码 file_handle.write(shop.text.encode('utf-8')) # 写入换行符 file_handle.write('\n\n') # 查找下一页 next_page = driver.find_element_by_link_text('下一页') next_page.click() # 关闭文件 file_handle.close()
相关文章推荐
- python引入时间模块,并输出当前时间
- 【9】了解淘宝sdk引入布局模块
- 操作系统服务:time时间模块+datetime模块
- 时间\函数\模块
- (4.3.3.1) 日志模块CommonLog引入说明
- Python时间模块 time 解读
- C++17引入的模块为什么能加快编译速度?
- Android项目类似淘宝 电商 搜索功能,监听软键盘搜索事件,延迟自动搜索,以及时间排序的搜索历史记录的实现
- python3 常用模块(时间、os路径及文件操作、字符串比较,文件内容比较等模块)
- python废话四:python的import引入模块
- python引入导入自定义模块和外部文件
- 做淘宝必做的详情页太原网络营销师讲7个模块9个知识点?
- 淘宝2013双12报名时间及报名流程
- 在页面直接引入另一张页面的模块
- 使用时间戳引入css、js文件
- uCOSII中os_tmr时间管理模块
- Python如何引入自定义模块?
- Python编程:time时间模块
- Django在admin模块中显示auto_now_add=True或auto_now=True的时间类型列
- Python时间模块