【JavaWeb】动态网页抓取
2018-01-23 15:28
225 查看
Jsoup无法获取Js及Ajax执行后的网页内容,用HtmlUnit抓取动态网页:
private String getPage(String url,boolean enabledJs,boolean ignoreSSL,boolean enabledCss,boolean enabledAjax) throws IOException { WebClient webClient = new WebClient(BrowserVersion.CHROME); //创建一个webclient webClient.getOptions().setJavaScriptEnabled(enabledJs); // 启动JS webClient.getOptions().setUseInsecureSSL(ignoreSSL);//忽略ssl认证 webClient.getOptions().setCssEnabled(enabledCss);//禁用Css,可避免自动二次请求CSS进行渲染 webClient.getOptions().setThrowExceptionOnScriptError(false);//运行错误时,不抛出异常 if(enabledAjax) webClient.setAjaxController(new NicelyResynchronizingAjaxController());// 设置Ajax异步 HtmlPage page = webClient.getPage(url); webClient.waitForBackgroundJavaScript(10000); return page.asXml(); }
相关文章推荐
- java Applet(web网页动态交互性)
- Python抓取网页动态数据——selenium webdriver的使用
- javaWEB-动态网页之el表达式
- java抓取动态生成的网页--吐槽
- java抓取动态生成的网页
- Java爬虫——phantomjs抓取ajax动态加载网页
- Java爬虫——phantomjs抓取ajax动态加载网页
- java抓取动态生成的网页
- JavaWeb --Servlet编写一个动态网页
- JAVAWeb-动态网页开发
- 用Java和webmagic爬取图片并下载到本地(动态网页)
- 基于webmagic的java网页爬虫,抓取网页指定节点,然后使用dom4j分析xml数据
- java抓取动态生成的网页
- Java抓取网页动态发送到邮箱案例(springboot)
- java抓取动态生成的网页--吐槽
- Java Web实战02--Maven学习以及如何建立动态网页工程
- javaWEB-动态网页之jstl标签
- Java 抓取网页上的图片
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- Java Jsoup抓取符合指定大小的网页的图片,并保存在本地磁盘