httpClient抓取网页并存储mht格式的文件
2011-08-19 11:11
363 查看
求高手援助
我已经通过httpClient抓取百度网页的html标签,现在将存储为mht格式 按以下方法 。存储htm格式文件没问题,但是存储mht就不行,该如何解决
江湖救急啊。
//构造HttpClient的实例
HttpClient client = new HttpClient();
// 创建GET方法的实例
GetMethod getMethod = new GetMethod(" http://www.baidu.com ");
// 使用系统提供 的默认的恢复策略
getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,new DefaultHttpMethodRetryHandler());
try {
// 执行getMethod
int statusCode = client.executeMethod(getMethod);
if (statusCode != HttpStatus.SC_OK) {
System.err.println( " Method failed: "
+ getMethod.getStatusLine());
}
// 读取内容
byte [] responseBody = getMethod.getResponseBody();
// 处理内容 打印html标签
//System.out.println( new String(responseBody));
//将页面信息输出htm文件
// FileOutputStream fos=new FileOutputStream("c:/Users/wenjiao/Desktop/1.htm");
// fos.write(responseBody);
// fos.flush();
我已经通过httpClient抓取百度网页的html标签,现在将存储为mht格式 按以下方法 。存储htm格式文件没问题,但是存储mht就不行,该如何解决
江湖救急啊。
//构造HttpClient的实例
HttpClient client = new HttpClient();
// 创建GET方法的实例
GetMethod getMethod = new GetMethod(" http://www.baidu.com ");
// 使用系统提供 的默认的恢复策略
getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,new DefaultHttpMethodRetryHandler());
try {
// 执行getMethod
int statusCode = client.executeMethod(getMethod);
if (statusCode != HttpStatus.SC_OK) {
System.err.println( " Method failed: "
+ getMethod.getStatusLine());
}
// 读取内容
byte [] responseBody = getMethod.getResponseBody();
// 处理内容 打印html标签
//System.out.println( new String(responseBody));
//将页面信息输出htm文件
// FileOutputStream fos=new FileOutputStream("c:/Users/wenjiao/Desktop/1.htm");
// fos.write(responseBody);
// fos.flush();
相关文章推荐
- HttpClient抓取网页文件方法
- 网页抓取方式(一)--HttpClient
- HttpClient+Jericho HTML Parser 实现网页的抓取
- 下载网页后保存为mht格式的文件
- JSP学习笔记(七十五):使用HttpClient远程抓取网页内容
- HttpClient 抓取网页
- HttpClient(二)-- 模拟浏览器抓取网页
- HttpClient抓取网页内容简单介绍
- httpclient抓取https网页数据
- 【网络编程】httpClient抓取网页--Windows
- 【网络爬虫】HttpClient抓取+解析+存储数据
- HttpClient抓取网页
- 利用httpclient抓取网页内容
- 利用cpdetector获取文件编码格式,同时得到网页内容。增加http/https通用方式
- 【网络编程】httpClient抓取网页--linux C/C++
- httpclient (httppost)上传文件 指定格式(text/plain)
- Java HttpURLConnection 抓取网页内容 解析gzip格式输入流数据并转换为String格式字符串
- java httpclient 抓取网页 POST GET
- HttpClient抓取网页