JAVA爬虫网站内容保存指定文件
2020-02-06 07:10
459 查看
摘要:
该内容为Java学习爬虫网站内容demo文件,将指定的内容抓取保存到指定的文件内。
package reptileproject.reptileproject; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStreamWriter; import java.io.PrintWriter; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class CrawlerBase { /** * jsoup方式 获取虎扑新闻列表页 * @param url 虎扑新闻列表页url */ public void jsoupList(String url){ // 创建获取指定的标签集合 Elements elements = null; // 创建文件流 PrintWriter printWriter = null; try { // 获取URL的HTML内容 Document document = Jsoup.connect(url).get(); // 根据class标签获取html内容 Elements div = document.getElementsByClass("fixed_content"); // 获取指定的标签内容 elements = div.select("ul > li > div.list_con > div.title > h2 > a"); // 创建文件并获取文件流 printWriter = new PrintWriter(new OutputStreamWriter(new FileOutputStream("D:\\爬虫文件.csv"), "utf-8")); // 文件添加bom格式 printWriter.write(new String(new byte[]{(byte) 0xEF, (byte) 0xBB, (byte) 0xBF})); } catch (IOException e) { e.printStackTrace(); } // 遍历内容 for (Element element:elements){ // 获取详情页链接 String d_url = element.attr("href"); // 获取标题 String title = element.ownText(); System.out.println("详情页链接:"+d_url+" ,详情页标题:"+title); // 详情链接写入文件内容 printWriter.println(d_url); // 标题写入文件内容 printWriter.println(title); } // 显示关闭数据流,避免数据丢失 printWriter.close(); } }
注释详细,更好的让读者理解代码。
- 点赞
- 收藏
- 分享
- 文章举报
相关文章推荐
- JAVA爬虫网站内容保存指定文件
- java爬虫实战(1):抓取信息门户网站中的图片及其他文件并保存至本地
- 在java工程所有的.java中找到内容包含指定字符串的.java文件
- 用java 获取指定url 网站内容
- python java 查询指定文件路径下包含某些内容的文件,并输出文件路径
- java修改指定文件内容swing界面(郭盖)
- java实现读取指定文件内容
- [转]java按指定编码写入和读取文件内容的类
- java网络爬虫爬取指定网站图片
- java读写文件-经过多方搜索整合成我需要的功能(读写指定文件夹下面的多个指定名称的txt中的内容全部写入到一个指定的txt中)
- Java 二进制格式文件转换为doc文件并保存在指定路径下
- java按指定编码写入和读取文件内容的类
- java按指定编码写入和读取文件内容的类
- java按指定编码写入和读取文件内容的类
- java 解压Kmz文件selectNodes获取指定标签内容
- 用流形式读取Excel文件内容显示至Table中并保存到指定文件目录
- JAVA使用爬虫抓取网站网页内容
- 把内容写入指定目录指定文件的java文件工具类,支持日期格式目录名的生成
- 开源重磅,java内容管理系统CMS,点击即可编辑,保存,轻松构建自己的网站
- 递归算法-统计指定目录下java文件内容的行数