您的位置:首页 > 理论基础 > 计算机网络

webmagic是个神奇的爬虫(一)--如何创建webmagic项目

2017-03-11 09:05 183 查看
本人从事爬虫工作整一年,在对爬虫一无所知的情况下接触到了webmagic,之后通过不断的学习和实践,发现了它的灵活和强大,渐渐地爱上了它,因此把心得整理出来,梳理自己思路也希望和众多爬虫爱好者一同交流成长。

废话不多说,现在开始webmagic第一讲,基于maven的webmagic工程创建:

maven是一个项目管理工具, 解放了程序开发者不断导入依赖文件的工作,创建maven项目具体操作可参考:http://blog.csdn.net/myarrow/article/details/50824793

在maven工程创建完之后,就需要在pom.xml文件中加上webmagic相关的配置:

<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.6.1</version>
</dependency>

<dependency>
<groupId>us.codecraft</groupId>
<version>0.6.1</version>
<artifactId>webmagic-extension</artifactId>
</dependency>

<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-selenium</artifactId>
<version>0.6.1</version>
</dependency>

*注意所有的<dependency>标签都是包含在<dependencies>的大标签中。

webmagic-core是整个webmagic的核心依赖,extension包含了一些webmagic扩展出来的比较实用的功能。

附传送门:https://my.oschina.net/flashsword/blog/180623

这里有对webmagic框架组成比较全面的讲解。

0.6.1是截至2017-3-11日webmagic最新的版本,本人之前用的0.5.3的版本也有好长一段时间,几个版本之间功能稍有差异,具体用哪个版本看个人喜好吧。

至此,一个最基础的webmagic项目就创建好了,之后就可以开始愉快的爬虫之旅~

另附webmaic使用文档

最后附上webmagic总体架构图镇楼:



文章链接内容感谢:
http://baike.baidu.com/link?url=0_rPnwU3s0lGCqO8yFd2zsB6eRlQ_aiPe3rbvZrgZ_UuJI28h68K1AibpgINtRTjyJcFh6VBmAyRBeijG8RroK
http://blog.csdn.net/myarrow/article/details/50824793

https://my.oschina.net/flashsword/blog/180623
http://webmagic.io/docs/zh/ http://webmagic.io/docs/zh/posts/ch1-overview/architecture.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  java 网络爬虫 webmagic