您的位置:首页 > 运维架构 > 网站架构

用Java代码一键下载图片网站的全部图片

2017-02-09 21:24 501 查看
在eclipse中构建 Maven project



点击后直接在跳出的新窗口中安确定



再选中项目,选中pom.xml     在工作框下边也选中pom.xml



进入https://mvnrepository.com/     搜索jsoup,下载架包



复制文本:

<dependency>

    <groupId>org.jsoup</groupId>

    <artifactId>jsoup</artifactId>

    <version>1.10.2</version>

</dependency>



复制到刚刚新建项目里pom.xml页面(新写一个 <dependencies>标签,建文本放在 <dependencies>标签里)



然后就是新建包和class,将class代码书写如下:

package com.mashensoft.jsoup;

import java.io.FileOutputStream;

import java.io.IOException;

import java.io.InputStream;

import java.io.OutputStream;

import java.net.MalformedURLException;

import java.net.URL;

import java.util.ArrayList;

import java.util.List;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

public class GetPicDemo {

/**
* 到nipic网站下载图片
* 示例图片:图片的地址为:myUrl;图片的名字为:fileName; myUrl、fileName——都是参数;

*/
public static void picDownload(String myUrl, String fileName) {
try {
URL url = new URL(myUrl);
InputStream is = url.openConnection().getInputStream();
byte myArray[] = new byte[1024 * 100];
int len = 0;
OutputStream os = new FileOutputStream(fileName);
while ((len = is.read(myArray)) != -1) {
os.write(myArray, 0, len);
}
os.flush();
os.close();
is.close();
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

/**
* 功能:根据传入的url地址,建url地址中的尾部一部分,获取用来当文件的名称

* @param url
* @return
*/
public static String downloadPic(String url) {

int beginIndex = url.lastIndexOf("/");     //找到url地址中最后一个斜杠的位置
int endIndex=url.indexOf(".");             //找到url地址中第一个小数点的位置
String fileName = url.substring(beginIndex+1, endIndex);    //取两个位
af8a
置之间的字符串作为文件名字
fileName+=".jpg";

return fileName;
}

/**
* 在一个图片网页上获取图片地址 "http://www.nipic.com/show/16519633.html"
*/
public static String getDonwloadPicUrlFromOnePage(String url) {
String downloadPicUrl = "";
try {
Document doc = Jsoup.connect(url).get();    //连接并获得url地址里内容(网页原代码)
if (doc != null && !Jsoup.connect(url).get().html().contains("唔,未找到任何页面!!!")) {
Element element = doc.getElementById("J_worksImg");             //获得带有“J_worksImg(根据自己想要的目标文件,找到不重复某一独特的值,属性,标签,字符端)”的元素
if (element != null && !element.attr("src").equals("")) {
downloadPicUrl = element.attr("src");      //将已经得到的元素里的带有“src”标签属性的,src的实际内容赋值给downloadPicUrl
}
}
} catch (IOException e) {
e.printStackTrace();
}
return downloadPicUrl;

}

/**
* 获取分页里的所有的子页面地址
*/
public static List getSonOfSisterPage(String soUrl) {
List<String> fourth = new ArrayList();
try {
Document doc = Jsoup.connect(soUrl).get();
Elements elements = doc.getElementsByClass("block works-detail hover-none");//获得带有“block works-detail hover-none(根据自己想要的目标文件,而特意找到的一个不重复某一独特的值,属性,标签或者字符端)”的元素
System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
// System.out.println(element.attr("href"));
fourth.add(element.attr("href"));
}
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return fourth;
}

/**
* 获取分页的地址

* @param sUrl
*/
public static List getSisterPage(String sUrl) {
List<String> threeurl = new ArrayList();
try {
Document doc = Jsoup.connect(sUrl).get();
Elements elements = doc.getElementsByClass("seo-page-num");
// System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++) {
Element element = elements.get(i);
System.out.println(element.attr("href"));
threeurl.add(element.attr("href"));
}

} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return threeurl;
}

public static void main(String[] args) {
List<String> sall = getSisterPage("http://www.nipic.com/topic/show_27036_1.html?ll");//获取分所有分页面的url地址,传给sall
long begintime=System.currentTimeMillis(); //获取当前程序开始的时间
for (int i = 0; i < sall.size(); i++) {
List<String> soall = getSonOfSisterPage(sall.get(i));   
for (int soi = 0; soi < soall.size(); soi++) {
String url = soall.get(soi);  
System.out.println("\n页面-------->" + url);  //用于监视Console工作记录中, 是否有个别获取不到的url
System.out.println(getDonwloadPicUrlFromOnePage(url));
String downloadUrl = getDonwloadPicUrlFromOnePage(url);//将获得的分页面的url地址传给getDonwloadPicUrlFromOnePage();
String downloadFileName = downloadPic(url);//获取当前程序结束的时间
picDownload(downloadUrl, downloadFileName);//显示程序运行的时间

}
}
long lasttime=System.currentTimeMillis();
System.out.println(lasttime-begintime);
}

}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: