您的位置：首页 > Web前端 > JavaScript

如何解析带JS动态的网页？

2016-05-23 20:46 393 查看

在写爬虫时往往会碰到一些通过js之类动态加载的网页，这时直接去读取的话，拿到的往往是不完整的源代码，需要一些方法去解决

使用一些工具模拟浏览器把js加载完后再去解析

比如

selenium

java中使用selenium有几种方法，主要分成两类：一类会启动一个浏览器，对js的支持较好；一类不用启动浏览器，使用htmlUnit，不需要加载浏览器，不过对js的支持不大好。

相对于java，在python中使用selenium稍微麻烦点，如果你想使用htmlUnit的话，你需要另外在运行一个

selenium server

，参见：

http://stackoverflow.com/questions/4618373/how-do-i-use-the-htmlunit-driver-with-selenium-from-python

如果你是在linux服务器上运行，没有GUI的话，直接使用那种开个窗口加载浏览器的方法会报以下的错误：

selenium.common.exceptions.WebDriverException: Message: The browser appears to have exited before we could connect. If you specified a log_file in the FirefoxBinary constructor, check it for details.

解决方法：

需要安装一个类似虚拟机的东西来模拟：

sudo apt-get install xvfb
sudo pip install pyvirtualdisplay

from pyvirtualdisplay import Display
from selenium import webdriver

display = Display(visible=0, size=(1024, 768))
display.start()

browser = webdriver.Firefox()
browser.get('http://www.ubuntu.com/')
print browser.page_source

browser.close()
display.stop()

具体参见：

http://stackoverflow.com/questions/26070834/how-to-fix-selenium-webdriverexception-the-browser-appears-to-have-exited-befor

2.使用谷歌开发者工具等分析目标网站的加载过程

参见：https://www.zhihu.com/question/21332889

下面我以一个例子来说明下怎么看目标网站请求的url是什么？

比如腾讯应用宝：http://sj.qq.com/myapp/category.htm?orgame=1

当我们在看腾讯应用宝的应用时，它下面有一个