HttpClient+jsoup实现网页数据抓取和处理
2016-06-18 10:48
573 查看
这里仅简单介绍一种我曾用到的网页数据的抓取和处理方案。
通过HttpClient可以很方便的抓取静态网页数据,过程很简单,步骤如下:
//构造client
HttpClient client = new HttpClient();
//构建GetMethod对象
GetMethod temp_get = new GetMethod(URL);
client.executeMethod(temp_get);
//获取返回的网页信息
String webResult=temp_get.getResponseBodyAsString();
抓取后的网页分析也有很多开源的工具包,这里推荐使用jsoup,因为其语法和jquery类似,有网页开发经验的人使用起来很方便
Document doc = Jsoup.parse(htmlString);
Elements dls = doc.select("#queryform .listinfo").select("dl");
Elements xhdds=dls.get(0).select("dd");//序号
Elements grbmdds=dls.get(1).select("dd");//个人编码
最后,如果我们需要获取的网页数据是通过ajax获取后生成的,那么使用HttpClient则不能解决,推荐使用HtmlUnit(http://htmlunit.sourceforge.net/),使用起来也很简单
WebClient webClient = new WebClient()
HtmlPage page = webClient.getPage("http://some_url");
final HtmlDivision div = page.getHtmlElementById("some_div_id");
通过HttpClient可以很方便的抓取静态网页数据,过程很简单,步骤如下:
//构造client
HttpClient client = new HttpClient();
//构建GetMethod对象
GetMethod temp_get = new GetMethod(URL);
client.executeMethod(temp_get);
//获取返回的网页信息
String webResult=temp_get.getResponseBodyAsString();
抓取后的网页分析也有很多开源的工具包,这里推荐使用jsoup,因为其语法和jquery类似,有网页开发经验的人使用起来很方便
Document doc = Jsoup.parse(htmlString);
Elements dls = doc.select("#queryform .listinfo").select("dl");
Elements xhdds=dls.get(0).select("dd");//序号
Elements grbmdds=dls.get(1).select("dd");//个人编码
最后,如果我们需要获取的网页数据是通过ajax获取后生成的,那么使用HttpClient则不能解决,推荐使用HtmlUnit(http://htmlunit.sourceforge.net/),使用起来也很简单
WebClient webClient = new WebClient()
HtmlPage page = webClient.getPage("http://some_url");
final HtmlDivision div = page.getHtmlElementById("some_div_id");
相关文章推荐
- W3C api 抓取
- ASP.NET MVC Web API HttpClient简介
- Android开发之利用jsoup解析HTML页面的方法
- 使用httpclient实现免费的google翻译api
- PHP封装的HttpClient类用法实例
- Android 中HttpURLConnection与HttpClient使用的简单实例
- Android使用Jsoup解析Html表格的方法
- Android通过HttpURLConnection和HttpClient接口实现网络编程
- Android中HttpURLConnection与HttpClient的使用与封装
- Jsoup解析HTML实例及文档方法详解
- Java中使用开源库JSoup解析HTML文件实例
- crawler4j抓取页面使用jsoup解析html时的解决方法
- Jsoup获取全国地区数据属性值(省市县镇村)
- Java利用HttpClient模拟POST表单操作应用及注意事项
- java使用Jsoup连接网站超时的解决方法
- Java实现爬虫给App提供数据(Jsoup 网络爬虫)
- HttpClient 在Java项目中的使用详解
- 基于Java HttpClient和Htmlparser实现网络爬虫代码
- 谈谈HttpClient使用详解
- java实现HttpClient异步请求资源的方法