HttpClient基础教程 分类: C_OHTERS 2014-05-18 23:23 2600人阅读 评论(0) 收藏
2014-05-18 23:23
543 查看
1、HttpClient相关的重要资料
官方网站:http://hc.apache.org/
API:http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.html
tutorial: http://hc.apache.org/httpcomponents-client-4.3.x/tutorial/html/index.html 【PDF版本】http://hc.apache.org/httpcomponents-client-4.3.x/tutorial/pdf/httpclient-tutorial.pdf
2、HttpClient有2个版本
org.apache.http.impl.client.HttpClients 与 org.apache.commons.httpclient.HttpClient
目前后者已被废弃,apache已不再支持。
一般而言,使用HttpClient均需导入httpclient.jar与httpclient-core.jar2个包。
3、使用HttpClient进行网络处理的基本步骤
(1)通过get的方式获取到Response对象。
[java] view
plaincopy
CloseableHttpClient httpClient = HttpClients.createDefault();
HttpGet httpGet = new HttpGet("http://www.baidu.com/");
CloseableHttpResponse response = httpClient.execute(httpGet);
注意,必需要加上http://的前缀,否则会报:Target host is null异常。
(2)获取Response对象的Entity。
[java] view
plaincopy
HttpEntity entity = response.getEntity();
注:HttpClient将Response的正文及Request的POST/PUT方法中的正文均封装成一个HttpEntity对象。可以通过entity.getContenType(),entity.getContentLength()等方法获取到正文的相关信息。但最重要的方法是通过getContent()获取到InputStream对象。
(3)通过Entity获取到InputStream对象,然后对返回内容进行处理。
[java] view
plaincopy
is = entity.getContent();
sc = new Scanner(is);
// String filename = path.substring(path.lastIndexOf('/')+1);
String filename = "2.txt";
os = new PrintWriter(filename);
while (sc.hasNext()) {
os.write(sc.nextLine());
}
使用HtppClient下载一个网页的完整代码如下:
[java] view
plaincopy
package com.ljh.test;
import java.io.IOException;
import java.io.InputStream;
import java.io.PrintWriter;
import java.io.Writer;
import java.util.Scanner;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
public class DownloadWebPage{
public static void downloadPagebyGetMethod() throws IOException {
// 1、通过HttpGet获取到response对象
CloseableHttpClient httpClient = HttpClients.createDefault();
HttpGet httpGet = new HttpGet("http://www.baidu.com/");
CloseableHttpResponse response = httpClient.execute(httpGet);
InputStream is = null;
Scanner sc = null;
Writer os = null;
if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
try {
// 2、获取response的entity。
HttpEntity entity = response.getEntity();
// 3、获取到InputStream对象,并对内容进行处理
is = entity.getContent();
sc = new Scanner(is);
// String filename = path.substring(path.lastIndexOf('/')+1);
String filename = "2.txt";
os = new PrintWriter(filename);
while (sc.hasNext()) {
os.write(sc.nextLine());
}
} catch (ClientProtocolException e) {
e.printStackTrace();
} finally {
if (sc != null) {
sc.close();
}
if (is != null) {
is.close();
}
if (os != null) {
os.close();
}
if (response != null) {
response.close();
}
}
}
}
public static void main(String[] args) {
try {
downloadPagebyGetMethod();
} catch (IOException e) {
e.printStackTrace();
}
}
}
注意:直接将HttpGet改为HttpPost,返回的结果有误,百度返回302状态,即重定向,新浪返回拒绝访问。怀疑大多网站均不允许POST方法直接访问网站。
官方网站:http://hc.apache.org/
API:http://hc.apache.org/httpcomponents-client-4.3.x/httpclient/apidocs/index.html
tutorial: http://hc.apache.org/httpcomponents-client-4.3.x/tutorial/html/index.html 【PDF版本】http://hc.apache.org/httpcomponents-client-4.3.x/tutorial/pdf/httpclient-tutorial.pdf
2、HttpClient有2个版本
org.apache.http.impl.client.HttpClients 与 org.apache.commons.httpclient.HttpClient
目前后者已被废弃,apache已不再支持。
一般而言,使用HttpClient均需导入httpclient.jar与httpclient-core.jar2个包。
3、使用HttpClient进行网络处理的基本步骤
(1)通过get的方式获取到Response对象。
[java] view
plaincopy
CloseableHttpClient httpClient = HttpClients.createDefault();
HttpGet httpGet = new HttpGet("http://www.baidu.com/");
CloseableHttpResponse response = httpClient.execute(httpGet);
注意,必需要加上http://的前缀,否则会报:Target host is null异常。
(2)获取Response对象的Entity。
[java] view
plaincopy
HttpEntity entity = response.getEntity();
注:HttpClient将Response的正文及Request的POST/PUT方法中的正文均封装成一个HttpEntity对象。可以通过entity.getContenType(),entity.getContentLength()等方法获取到正文的相关信息。但最重要的方法是通过getContent()获取到InputStream对象。
(3)通过Entity获取到InputStream对象,然后对返回内容进行处理。
[java] view
plaincopy
is = entity.getContent();
sc = new Scanner(is);
// String filename = path.substring(path.lastIndexOf('/')+1);
String filename = "2.txt";
os = new PrintWriter(filename);
while (sc.hasNext()) {
os.write(sc.nextLine());
}
使用HtppClient下载一个网页的完整代码如下:
[java] view
plaincopy
package com.ljh.test;
import java.io.IOException;
import java.io.InputStream;
import java.io.PrintWriter;
import java.io.Writer;
import java.util.Scanner;
import org.apache.http.HttpEntity;
import org.apache.http.HttpStatus;
import org.apache.http.client.ClientProtocolException;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
public class DownloadWebPage{
public static void downloadPagebyGetMethod() throws IOException {
// 1、通过HttpGet获取到response对象
CloseableHttpClient httpClient = HttpClients.createDefault();
HttpGet httpGet = new HttpGet("http://www.baidu.com/");
CloseableHttpResponse response = httpClient.execute(httpGet);
InputStream is = null;
Scanner sc = null;
Writer os = null;
if (response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
try {
// 2、获取response的entity。
HttpEntity entity = response.getEntity();
// 3、获取到InputStream对象,并对内容进行处理
is = entity.getContent();
sc = new Scanner(is);
// String filename = path.substring(path.lastIndexOf('/')+1);
String filename = "2.txt";
os = new PrintWriter(filename);
while (sc.hasNext()) {
os.write(sc.nextLine());
}
} catch (ClientProtocolException e) {
e.printStackTrace();
} finally {
if (sc != null) {
sc.close();
}
if (is != null) {
is.close();
}
if (os != null) {
os.close();
}
if (response != null) {
response.close();
}
}
}
}
public static void main(String[] args) {
try {
downloadPagebyGetMethod();
} catch (IOException e) {
e.printStackTrace();
}
}
}
注意:直接将HttpGet改为HttpPost,返回的结果有误,百度返回302状态,即重定向,新浪返回拒绝访问。怀疑大多网站均不允许POST方法直接访问网站。
相关文章推荐
- HtmlParser基础教程 分类: C_OHTERS 2014-05-22 11:33 1649人阅读 评论(1) 收藏
- Maven基础教程 分类: C_OHTERS 2015-04-10 22:53 232人阅读 评论(0) 收藏
- 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】 分类: 1_Nutch 0_jediael开发 2015-01-24 17:24 3522人阅读 评论(1) 收藏
- Mahout快速入门教程 分类: B10_计算机基础 2015-03-07 16:20 508人阅读 评论(0) 收藏
- spark1.3.1使用基础教程 分类: B8_SPARK 2015-04-28 11:10 1651人阅读 评论(0) 收藏
- 【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析 分类: H3_NUTCH 2014-06-04 20:10 1039人阅读 评论(0) 收藏
- 【Nutch基础教程之七】Nutch的2种运行模式:local及deploy 分类: H3_NUTCH 2014-12-21 09:40 1621人阅读 评论(0) 收藏
- Berkeley DB基础教程 分类: H3_NUTCH 2014-05-29 15:21 2212人阅读 评论(0) 收藏
- 【solr基础教程之二】索引 分类: H4_SOLR/LUCENCE 2014-07-18 21:06 3331人阅读 评论(0) 收藏
- Avro基础 分类: C_OHTERS 2015-02-14 19:56 310人阅读 评论(0) 收藏
- 【Nutch2.2.1基础教程之3】Nutch2.2.1配置文件 分类: H3_NUTCH 2014-08-18 16:33 1376人阅读 评论(0) 收藏
- 【solr基础教程之一】Solr相关知识点串讲 分类: H4_SOLR/LUCENCE 2014-07-15 12:58 1008人阅读 评论(0) 收藏
- 【Nutch2.2.1基础教程之6】Nutch2.2.1抓取流程 分类: H3_NUTCH 2014-08-15 21:39 2530人阅读 评论(1) 收藏
- 【Nutch2.2.1基础教程之2.1】集成Nutch/Hbase/Solr构建搜索引擎之一:安装及运行【单机环境】 分类: H3_NUTCH H4_SOLR/LUCENCE 2014-07-06 14:46 3543人阅读 评论(2) 收藏
- 【solr基础教程之九】客户端 分类: H4_SOLR/LUCENCE 2014-07-30 15:28 904人阅读 评论(0) 收藏
- 【Nutch2.2.1基础教程之2.2】集成Nutch/Hbase/Solr构建搜索引擎之二:内容分析 分类: H3_NUTCH H4_SOLR/LUCENCE 2014-07-13 14:18 3093人阅读 评论(0) 收藏
- 【Nutch2.2.1基础教程之1】nutch相关异常 分类: H3_NUTCH 2014-08-08 21:46 1549人阅读 评论(2) 收藏
- 标准输出stdout、标准错误stderr 分类: python python基础学习 2013-06-17 18:08 308人阅读 评论(0) 收藏
- sort(key= )排序 分类: python基础学习 2013-07-02 16:50 232人阅读 评论(0) 收藏
- bisect模块 分类: python基础学习 python 2013-06-28 17:58 288人阅读 评论(0) 收藏