selenium 和 phantomJS或chrome浏览器抓取渲染网页
2016-07-05 12:36
381 查看
首先pip安装selenium
一、phantomjs
1、下载phantomjs压缩包,解压,把bin文件夹路径加入PATH环境变量
2、代码
二、chrome浏览器
1、必须安装chrome浏览器
2、下载chrome驱动chromedriver
3、把驱动加如PATH环境变量(注意最好修改/etc/profile配置,永久生效)
4、代码
一、phantomjs
1、下载phantomjs压缩包,解压,把bin文件夹路径加入PATH环境变量2、代码
#coding=utf-8 import requests import re from pyquery import PyQuery as pq from lxml import etree from bs4 import BeautifulSoup import sys from selenium import webdriver reload(sys) sys.setdefaultencoding("utf-8") def getHtml(url): driver = webdriver.PhantomJS(executable_path='/home/lhy/phantomjs-1.9.8-linux-x86_64/bin/phantomjs') driver.get(url) fo = open("phonesinfo2.txt", "wb") fo.write(driver.page_source) fo.close() return driver.page_source
二、chrome浏览器
1、必须安装chrome浏览器
2、下载chrome驱动chromedriver
3、把驱动加如PATH环境变量(注意最好修改/etc/profile配置,永久生效)
4、代码
#coding=utf-8 import requests import re from pyquery import PyQuery as pq from lxml import etree from bs4 import BeautifulSoup import sys from selenium import webdriver reload(sys) sys.setdefaultencoding("utf-8") def getHtml(url): driver=webdriver.Chrome(); driver.get(url) fo = open("phonesinfo2.txt", "wb") fo.write(driver.page_source) fo.close() return driver.page_source注意运行过程中会打开chrome浏览器
相关文章推荐
- javascript写99乘法表
- js报错总结
- JavaScript取得标准的系统时间
- 说说JSON和JSONP,也许你会豁然开朗
- javaScript--03 JavaScript基础
- 纯JSP实现的简单登录示例
- 使用fastjson进行json字符串和List的转换
- js浮点数运算精度问题
- Jint .net平台的javascript引擎
- js 去掉浏览器右击默认事件
- JavaScript学习总结(五)原型和原型链详解(续)
- js获取操作系统和浏览器信息
- jsp自定义标签实例
- Seajs框架中路径配置解析
- json和pickle
- javascript运算符优先级
- javascript 闭包
- Jsoup的简单使用
- jsonp 跨域调用
- JavaScript高级程序设计——第4章:变量、作用域和内存问题