Seimi基础系列1-SeimiCrawler打包部署工具使用
2016-06-27 00:00
633 查看
简介
在开发调试情况下,可以直接采用main函数来启动SeimiCrawler,但是为了便于工程化部署与分发,SeimiCrawler提供了专门的打包插件maven-seimicrawler-plugin用来对SeimiCrawler工程进行打包,打好的包可以直接在服务器上部署运行了。如何做
首先需要在pom文件中添加添加plugin<plugin> <groupId>cn.wanghaomiao</groupId> <artifactId>maven-seimicrawler-plugin</artifactId> <version>1.1.0</version> <executions> <execution> <phase>package</phase> <goals> <goal>build</goal> </goals> </execution> </executions> <!--<configuration>--> <!-- 默认target目录 --> <!--<outputDirectory>/some/path</outputDirectory>--> <!--</configuration>--> </plugin>
接下来,在需要打包的时候,执行
mvn clean package即可,打好包目录结构如下:
. ├── bin #下文将有具体启动参数说明介绍 │ ├── run.bat #windows下启动脚本 │ └── run.sh #Linux下启动脚本 └── seimi ├── classes #Crawler工程业务类及相关配置文件目录 └── lib #工程依赖包目录
启动脚本使用
以shell脚本为例:./bin/run.sh basic
加载所有扫描到的爬虫规则类,并触发名为
basic的爬虫规则开始抓取。
./bin/run.sh 8000 basic
加载所有扫描到的爬虫规则类,并触发名为
basic的爬虫规则开始抓取,同时在
8000端口启动一个http服务接受通过制定http接口(参考SeimiCrawler文档)添加抓取请求,查询抓取状态等。
./bin/run.sh
加载所有扫描到的爬虫规则类,并全都都处于监听任务状态。就是
startAllWorkers()。
./bin/run.sh 8000
加载所有扫描到的爬虫规则类,并全都都处于监听任务状态。就是
startAllWorkers()。于此同时在
8000端口启动一个http服务接受通过制定http接口(参考SeimiCrawler文档)添加抓取请求,查询抓取状态等。
体验包下载
SeimiCrawler-demo-1.0.zip相关文章推荐
- SSM框架 SSM项目源码 SSM源码 下载 java框架整合Springmvc+mybatis+s
- SeimiCrawler+SeimiAgent完美解决动态页面渲染Ajax抓取问题
- Java爬虫框架:SeimiCrawler——结构化解析与数据存储
- Ubuntu14.0 64bit 下Scrapy爬虫框架的搭建
- 从互联网上爬邮箱
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
- JAVA爬虫Nutch、WebCollector的正则约束
- JAVA爬虫WebCollector教程列表
- 将WebCollector导入MAVEN项目
- WebCollector下载整站页面(JAVA网络爬虫)
- WebCollector 2.x入门教程——基本概念
- WebCollector自定义http请求
- WebCollector爬取CSDN博客
- 使用Spring JDBC持久化WebCollector爬取的数据
- WebCollector分布式爬取
- Lazy爬虫配置教程
- WebCollector爬取JS加载的数据
- WebCollector教程——爬取新浪微博
- 用Java抓取知乎日报信息
- WEBCOLLECTION爬图片