java 爬取网页页面内容
2017-04-07 13:03
134 查看
根据 请求URL 指定要爬取的页面
再通过相应请求为200(请求相应成功)进行下一步操作
通过IO操作将页面输出
上源码:
package com.fussent.test;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPathSource {
public static void main(String args[]){
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
String line;
try{
//生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn
url=new URL("http://www.sina.com.cn");
//打开URL
urlConnection = (HttpURLConnection)url.openConnection();
//获取服务器响应代码
responsecode=urlConnection.getResponseCode();
if(responsecode==200){
//得到输入流,即获得了网页的内容
reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"utf-8"));
while((line=reader.readLine())!=null){
System.out.println(line);
}
}
else{
System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);
}
}
catch(Exception e){
System.out.println("获取不到网页的源码,出现异常:"+e);
}
}
}
再通过相应请求为200(请求相应成功)进行下一步操作
通过IO操作将页面输出
上源码:
package com.fussent.test;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPathSource {
public static void main(String args[]){
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
String line;
try{
//生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn
url=new URL("http://www.sina.com.cn");
//打开URL
urlConnection = (HttpURLConnection)url.openConnection();
//获取服务器响应代码
responsecode=urlConnection.getResponseCode();
if(responsecode==200){
//得到输入流,即获得了网页的内容
reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"utf-8"));
while((line=reader.readLine())!=null){
System.out.println(line);
}
}
else{
System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);
}
}
catch(Exception e){
System.out.println("获取不到网页的源码,出现异常:"+e);
}
}
}
相关文章推荐
- java下载html页面---把网页内容保存成本地html
- java下载html页面---把网页内容保存成本地html
- 如何用java实现在网页中保存html编辑器 编辑好的 html 文件?!(如blog里发文章的时候把要发表的内容以html文件的形式保存到服务器上?)
- 使用网页代码“截取”功能,打印页面某段定义区域内容
- JAVA中获取远程页面内容 和 xmlhttp远程处理
- java调用jruby获取网页内容(JDK1.5)
- 浅析JAVA实现网页取内容
- 通过java.net.URL类抓取某个网页的内容 选择自 cqq 的 Blog
- Java读取网页内容并生成静态页面的简单实现
- java 抓取 https 网页内容
- java下载网页并读取内容
- 【JAVA】 抓取网页内容
- 在网页里使页面的内容可以编辑,更新
- java读取文件,写文件,读取网页内容
- 使用网页代码“截取”功能,打印页面某段定义区域内容
- java 获取网页内容
- Java基础:利用HttpClient获取网页内容
- JAVA 抓取网页内容
- 写个java类,可以直接得到网页内容中的html源码
- Java基础:利用HttpClient获取网页内容