java爬取网络文件源码实现
2018-02-24 14:32
357 查看
由于之前项目要求是做一个网络爬虫,爬取的文件经过logstash监控再写入文档管理系统,现在附加两个可爬取网络文件的java代码
第一种:
if(content.isEmpty() && !content.contains("http")) {
return;
}
URL httpurl = new URL(content);
int inx = content.lastIndexOf(".");
String fileName = title;
if(inx > 0) {
fileName = fileName+content.substring(inx, content.length());
}else {
fileName = fileName+".html";
}
System.out.println(fileName);
File f = new File("d:/" + fileName);
FileUtils.copyURLToFile(httpurl, f);
第二种:
URL url = new URL(fileLink);
HttpURLConnection conn = (HttpURLConnection) url.openConnection();
//设置超时间为3秒
conn.setConnectTimeout(3*1000);
//防止屏蔽程序抓取而返回403错误
conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//得到输入流
InputStream inputStream = conn.getInputStream();
//获取自己数组
byte[] getData = readInputStream(inputStream);
//文件保存位置
File file = new File("d:/" + fileName);
FileOutputStream fos = new FileOut
8b0c
putStream(file);
fos.write(getData);
if(fos != null) {
fos.close();
}
if(inputStream != null) {
inputStream.close();
}
public static byte[] readInputStream(InputStream inputStream) throws IOException{
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while((len = inputStream.read(buffer)) != -1) {
bos.write(buffer,0,len);
}
bos.close();
return bos.toByteArray();
}
第一种:
if(content.isEmpty() && !content.contains("http")) {
return;
}
URL httpurl = new URL(content);
int inx = content.lastIndexOf(".");
String fileName = title;
if(inx > 0) {
fileName = fileName+content.substring(inx, content.length());
}else {
fileName = fileName+".html";
}
System.out.println(fileName);
File f = new File("d:/" + fileName);
FileUtils.copyURLToFile(httpurl, f);
第二种:
URL url = new URL(fileLink);
HttpURLConnection conn = (HttpURLConnection) url.openConnection();
//设置超时间为3秒
conn.setConnectTimeout(3*1000);
//防止屏蔽程序抓取而返回403错误
conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//得到输入流
InputStream inputStream = conn.getInputStream();
//获取自己数组
byte[] getData = readInputStream(inputStream);
//文件保存位置
File file = new File("d:/" + fileName);
FileOutputStream fos = new FileOut
8b0c
putStream(file);
fos.write(getData);
if(fos != null) {
fos.close();
}
if(inputStream != null) {
inputStream.close();
}
public static byte[] readInputStream(InputStream inputStream) throws IOException{
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while((len = inputStream.read(buffer)) != -1) {
bos.write(buffer,0,len);
}
bos.close();
return bos.toByteArray();
}
相关文章推荐
- Java实现文件解压缩源码
- 用java实现基于http协议的网络文件下载
- 用Java Serialization实现任意文件网络传输
- 网络爬虫源码分析(java实现)
- 【Java】上传文件进度条的实现方法(附demo源码下载)
- 识别常见编码格式文件并转换成UTF-8编码 的java实现 源码
- java网络编程六:DatagramSocket类简单实现文件下载
- java网络编程:DatagramSocket类简单实现文件下载
- Java实现基于http协议的网络文件下载
- Java上传文件进度条的实现方法(附demo源码下载)
- 弹性光网络实验二、碎片感知的RSA算法解析与Java源码实现
- 通过jcifs实现java访问网络共享文件
- java网络socket编程(四)之Socket扩展1--实现单文件服务器
- Java实现网络文件下载的简单示例
- java实现文件上传,文件下载功能 源码
- Java 小程序 实现网络下载图片到制定文件夹,压缩和删除文件
- JAVA实现TCP网络文件复制
- JAVA源码中线性表,栈和队列的实现及其对应的源码文件
- java网络编程六:DatagramSocket类简单实现文件下载
- Java实现的网络文件传送