您的位置：首页 > 编程语言 > Java开发

JAVA开源爬虫，WebCollector,使用方便，有接口。

2015-10-17 13:40 316 查看

假设你想下载整个网站内容爬行动物，我不希望配置heritrix复杂的爬行动物，要选择WebCollector。项目github一个不断更新。

github源地址：https://github.com/CrawlScript/WebCollector

github下载地址：http://crawlscript.github.io/WebCollector/

执行方式：

1.解压从http://crawlscript.github.io/WebCollector/ 页面下载的压缩包。

2.解压后找到webcollector-版本-bin.zip,解压。

3.假设是windows，双击里面的start.bat，假设是linux，用命令行进入目录，运行sh start.sh

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

百度云推送java端报错parameter msg must be Json-Array-String解决方法
JDK和Cglib实现动态代理实例及优缺点分析
JDK和Cglib实现动态代理实例及优缺点分析
JDK和Cglib实现动态代理实例及优缺点分析
java date String 类型相互转换
java中&和&&的区别
ubuntu15.04环境下编译jdk8源码
JAVA字段的初始化规律
SpringMvc 返回数据为json
ubuntu15.04 搭建eclipse环境
今天瞅瞅Java中的常见异常
Java反射获取泛型类型
关于SimpleDateFormat的使用方法
Spring3中用注解直接注入properties中的值
springMVC3学习(一)--框架搭建
java对byte,short,char,int,long运算时自动类型转化情况说明
java 连接 zookeeper
Java中构造函数与初始化块的执行顺序
spring如何解析通配符路径
java系统学习（十五） --------xml基础

新的分享

【Java面试】请简单说一下你对受检异常和非受检异常的理解
如何快速提高英飞凌单片机编译器 TASKING TriCore Eclipse IDE 编译速度
王者并发课-星耀1：群雄逐鹿-从鹿死谁手深入理解Java内存模型
【Java面试】Mybatis中#{}和${}的区别是什么？
【Java面试】请说一下ReentrantLock的实现原理？
Java 基础常见知识点&面试题总结(上)，2022 最新版！| JavaGuide
SpringCloud 声明式服务调用：Feign
自定义一个简单的SpringBoot-Starter
看Spring源码不得不会的@Enable模块驱动实现原理讲解
为什么Java有了synchronized之后还造了Lock锁这个轮子？
Spring Authorization Server 0.3.0 发布，官方文档正式上线
Java使用线程池和缓存提高接口QPS

章节导航