webmagic是个神奇的爬虫(一)--如何创建webmagic项目
2017-03-11 09:05
183 查看
本人从事爬虫工作整一年,在对爬虫一无所知的情况下接触到了webmagic,之后通过不断的学习和实践,发现了它的灵活和强大,渐渐地爱上了它,因此把心得整理出来,梳理自己思路也希望和众多爬虫爱好者一同交流成长。
废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建:
maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可参考:http://blog.csdn.net/myarrow/article/details/50824793。
在maven工程创建完之后,就需要在pom.xml文件中加上webmagic相关的配置:
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.6.1</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<version>0.6.1</version>
<artifactId>webmagic-extension</artifactId>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>0.6.1</version>
</dependency>
*注意所有的<dependency>标签都是包含在<dependencies>的大标签中。
webmagic-core是整个webmagic的核心依赖,extension包含了一些webmagic扩展出来的比较实用的功能。
附传送门:https://my.oschina.net/flashsword/blog/180623
这里有对webmagic框架组成比较全面的讲解。
0.6.1是截至2017-3-11日webmagic最新的版本,本人之前用的0.5.3的版本也有好长一段时间,几个版本之间功能稍有差异,具体用哪个版本看个人喜好吧。
至此,一个最基础的webmagic项目就创建好了,之后就可以开始愉快的爬虫之旅~
另附webmaic使用文档
最后附上webmagic总体架构图镇楼:
文章链接内容感谢:
http://baike.baidu.com/link?url=0_rPnwU3s0lGCqO8yFd2zsB6eRlQ_aiPe3rbvZrgZ_UuJI28h68K1AibpgINtRTjyJcFh6VBmAyRBeijG8RroK
http://blog.csdn.net/myarrow/article/details/50824793
https://my.oschina.net/flashsword/blog/180623
http://webmagic.io/docs/zh/ http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html
废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建:
maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可参考:http://blog.csdn.net/myarrow/article/details/50824793。
在maven工程创建完之后,就需要在pom.xml文件中加上webmagic相关的配置:
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.6.1</version>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<version>0.6.1</version>
<artifactId>webmagic-extension</artifactId>
</dependency>
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>0.6.1</version>
</dependency>
*注意所有的<dependency>标签都是包含在<dependencies>的大标签中。
webmagic-core是整个webmagic的核心依赖,extension包含了一些webmagic扩展出来的比较实用的功能。
附传送门:https://my.oschina.net/flashsword/blog/180623
这里有对webmagic框架组成比较全面的讲解。
0.6.1是截至2017-3-11日webmagic最新的版本,本人之前用的0.5.3的版本也有好长一段时间,几个版本之间功能稍有差异,具体用哪个版本看个人喜好吧。
至此,一个最基础的webmagic项目就创建好了,之后就可以开始愉快的爬虫之旅~
另附webmaic使用文档
最后附上webmagic总体架构图镇楼:
文章链接内容感谢:
http://baike.baidu.com/link?url=0_rPnwU3s0lGCqO8yFd2zsB6eRlQ_aiPe3rbvZrgZ_UuJI28h68K1AibpgINtRTjyJcFh6VBmAyRBeijG8RroK
http://blog.csdn.net/myarrow/article/details/50824793
https://my.oschina.net/flashsword/blog/180623
http://webmagic.io/docs/zh/ http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html
相关文章推荐
- 如何使用IntelliJ IDEA 创建基于Maven构建的Web项目的过程
- 如何用Maven创建web项目(具体步骤)
- 关于如何使用eclipse创建web项目——整个流程的概述
- 如何用Maven创建web项目(具体步骤)
- 如何在IDEA中创建web项目并且部署到Tomcat中
- 【团队-java-maven】在java项目中部署maven(2)关于java web的普通maven项目如何创建
- 如何在eclipse jee中创建Maven project并且转换为Dynamic web项目
- 如何用Maven创建web项目(具体步骤)
- IntelliJ IDEA如何创建maven的web项目
- eclipse中创建web项目如何连接mysql数据库
- Spring mvc创建的web项目,如何获知其web的项目名称,访问具体的链接地址?
- 【转载】如何用IntelliJ IDEA 14 创建Web项目
- 如何用Maven创建web项目(具体步骤)
- Eclipse如何创建dynamic web project项目
- 如何用Maven创建web项目(具体步骤)
- 如何创建一个Maven Web项目
- 如何用Maven构建一个project(二)—创建Web项目
- flex可以通过中间件tomcat发布成web项目,应该如何创建项目?
- 嵌入在Web项目中的Applet如何共享浏览器请求创建的Session
- 如何用Maven创建web项目的具体步骤