java网页文档保存成TXT
2017-11-27 15:29
239 查看
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.junit.Test; import java.io.BufferedWriter; import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; import java.io.UnsupportedEncodingException; public class ExampleUnitTest { @Test public void addition_isCorrect() throws Exception { test(); } private void test() { final String url = "http://www.23us.cc/html/142/142351/7225315.html"; parse(url); } private void parse(String serverString) { //可以使用Jsoup自带的网络请求方式: Document document = null; try { document = Jsoup.connect(serverString).timeout(10000).get(); // String string = document.toString(); // System.out.println("document:"+string); } catch (IOException e) { e.printStackTrace(); } // 解析xml // document = (Document) Jsoup.parse(serverString); Elements h1 = document.select("h1");//得到table标签中的内容 for (Element item : h1) { String name = item.text(); method(name); System.out.println(name); } Elements div = document.select("div");//得到table标签中的内容 for (Element item : div) { // System.out.println("--------------------------"); // System.out.println(item); String name = item.attr("id"); if (name.equals("content")) { // System.out.println(item.text()); String[] line = item.text().split(" "); int n = line.length; for (int i = 0; i < n; i++) { method(line[i]); } } } Elements div1 = document.select("div");//得到table标签中的内容 for (Element item : div) { String name = item.attr("class"); if (name.equals("link xb")) { Elements a = item.select("a"); for (Element item1 : a) { String name1 = item1.text(); if (name1.equals("下一章")) { String href = item1.attr("href"); System.out.println(href); parse("http://www.23us.cc/html/142/142351/"+href); } } } } } public void method(String msg) { File f = new File("G:\\txt\\1.txt"); FileOutputStream writerStream = null; try { writerStream = new FileOutputStream(f, true); BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(writerStream, "UTF-8")); writer.write(msg + "\r\n"); writer.close(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (UnsupportedEncodingException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } }
相关文章推荐
- java 实现将一个string保存到txt文档中
- java将一个string保存到txt文档中
- java获取网页内容保存到文件
- 一个简单java爬虫爬取网页中邮箱并保存
- 自己动手写CSDN博客提取器源码分析之一:处理网页保存为txt文件
- 网页保存利器——easyWebSave介绍 象IE收藏夹那样管理你从Web保存的文档(2)
- PHP 网页保存为Word文档
- 记录系统错误日志,并保存成文本文档(.txt)
- lotus中后台java代理对表单文档的保存
- 如何获取网页验证码图片并保存到本地(Java实现) [问题点数:40分,结帖人lanxuezaipiao]
- java读入txt并保存到数组中。
- 【matlab】在程序运行结果中保存数据到txt文档
- java解析xml文档并保存到数据库
- java对txt文件和word文档的读写
- 判别TXT文档的编码方式 Java
- java小知识-将System.out.println到控制台的内容打印并保存在新的文件中(例如txt文件从)
- Java 产生0-10000的随机数 并写入TXT文档中
- 一个简单java爬虫爬取网页中邮箱并保存
- 用java将网页保存为mht格式
- java读取txt文档