Selenium 获取动态js的网页
2018-01-12 19:43
387 查看
Selenium基于webkit实现爬虫功能
http://www.cnblogs.com/luxiaojun/p/6144748.html https://www.cnblogs.com/chenqingyang/p/3772673.html
现在headless chrome替代 PhantomJS
https://zhuanlan.zhihu.com/p/27100187
获取的网页内容后,可以使用beautifulsoup来分析
https://cuiqingcai.com/1319.html
直接获取表格的文本
http://www.cnblogs.com/luxiaojun/p/6144748.html https://www.cnblogs.com/chenqingyang/p/3772673.html
现在headless chrome替代 PhantomJS
https://zhuanlan.zhihu.com/p/27100187
from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities import time import io dcap = dict(DesiredCapabilities.PHANTOMJS) #设置userAgent dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ") obj = webdriver.PhantomJS(executable_path='C:\Program Files (x86)\Microsoft Visual Studio\Shared\Python36_64\Scripts\phantomjs.exe',desired_capabilities=dcap) #加载网址 obj.get('http://chart.icaile.com/sd11x5.php')#打开网址 #time.sleep(10) pageSource = obj.page_source print(pageSource) obj.quit()
获取的网页内容后,可以使用beautifulsoup来分析
https://cuiqingcai.com/1319.html
直接获取表格的文本
from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities import time import io dcap = dict(DesiredCapabilities.PHANTOMJS) #设置userAgent #dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ") obj = webdriver.PhantomJS(executable_path='C:\Program Files (x86)\Microsoft Visual Studio\Shared\Python36_64\Scripts\phantomjs.exe',desired_capabilities=dcap) #加载网址 obj.get('http://chart.icaile.com/sd11x5.php')#打开网址 text = obj.find_element_by_id("fixedtable").text print(text) obj.quit()
import time import io import re from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS) #设置userAgent dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:25.0) Gecko/20100101 Firefox/25.0 ") obj = webdriver.PhantomJS(executable_path='C:\Program Files (x86)\Microsoft Visual Studio\Shared\Python36_64\Scripts\phantomjs.exe',desired_capabilities=dcap) #加载网址 obj.get('http://chart.icaile.com/sd11x5.php')#打开网址 text = obj.find_element_by_id("fixedtable").text #time.sleep(10) #pageSource = obj.page_source #print(pageSource) #print(text) page = obj.page_source url_context = re.findall('href=\"(.*?)\"',page,re.S) url_list = [] for url in url_context: if 'http'in url: print(url) obj.quit()
相关文章推荐
- python获取完整网页内容(即包括js动态加载的):selenium+phantomjs
- 快速获取网页的部分元素(不用selenium,用js)
- 利用js将ajax获取到的后台数据动态加载至网页中
- Python使用Selenium和PhantomJS解析动态JS的网页
- Selenium/HtmlUnit设置代理获取JS生成的网页
- Python使用Selenium和PhantomJS解析动态JS的网页
- 利用js将ajax获取到的后台数据动态加载至网页中
- selenium+phantomjs+js动态网页截图
- Python爬虫学习——使用selenium和phantomjs爬取js动态加载的网页
- 利用js将ajax获取到的后台数据动态加载至网页中的方法
- Python3.x:Selenium+PhantomJS爬取带Ajax、Js的网页及获取JS返回值
- python3 selenium 获取JS动态页面title
- python selenium 获取动态网页数据
- 第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求
- 在python使用selenium获取动态网页信息并用BeautifulSoup进行解析--动态网页爬虫
- JAVA 爬虫获取js动态生成的网页数据
- python /selenium /动态网页 /爬虫
- python3 网络爬虫(二)利用get请求获取网页的动态加载数据
- JS原生方式动态获取表单的值
- 网页JS获取当前地理位置(省市区)