您的位置:首页 > 运维架构 > 网站架构

[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

2016-05-13 06:58 776 查看

一 ,为什么要造轮子

有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求,大多是JAVA,PYTHON甚至于还有NODEJS,C++,再或者在开源中国查询C#的爬虫,仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说,单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,另根据我多年的开发经验大多爬虫性能瓶颈在并发下载(网速)、IP池,因此我认为用C#写一个爬虫框架绝对是可行的,那么为什么我大.NET没有一个强大的爬虫框架呢?说真的我不知道,可能爬虫框架核心上比较简单而没有被大牛看上,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布,我觉得是时候开发一个跨平台,跨语言的爬虫框架了。我不喜欢复杂的东西,总是觉得复杂的东西容易出问题,可能跟我个人能力有限,驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic,但是肯定有我自己的理解和改进在内的。此文是系列介绍第一篇,后面陆续会介绍详细用法及程序改动另:个人代码水平有限,如果写得不好请大家指正海涵

二 ,框架设计

其实爬虫的设计我觉得还是挺成熟的,大部分都会拿出下图来说事,由于我是参考的webmagic,所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)Scheduler:负责URL的调度,可以实现如Queue, PriorityScheduler, RedisScheduler(可用于分布式)等等Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等PageProcesser: 负责HTML解析及新的符合规则的URL解析,从上图可以看到传入Processer的是Page对象,里面包含了下载好的完整HTML或者JSON数据Pipeline: 负责数据的存储, 可以实现如MySql, MySqlFile,MSSQL,MongoDb等等

三 ,与别的爬虫的差异

使用JSON定义爬虫,所以可以最终实现跨语言(不同语言只要写一个JSON转换的provider就好)由于使用JSON做解析,所以可以实现类中属性是别的类的情况(仅限MongoDB, 关系型数据库不好存这种数据)\自动建表有.NET CORE版本,因此可以跨平台(已经在LINUX下运行大量任务了)有感于IP代理的不稳定性,因此代理模块没有细致测试使用,而是实现了另一种换IP手段(ADSL拨号)加入基本的数据验证模块

四 ,最基本使用方法

最基本的使用方法是不需要引用Extension, 引用Common, Core, JLog就好,然后需要你自己实现IPipeline和Processer 

五 ,高级使用方法

定义一个实体类,并在类上加合适的Attribute以便知道你要如何解析数据定义一个SpiderContextBuilder类,在里面配置爬虫名字,线程数,Scheduler,downloader等等在main中实类化你的爬虫类,调用run方法
 

五 ,代码地址

https://github.com/zlzforever/DotnetSpider 望各位大佬加星:) 

六 ,有想参与的或疑问的请加群

希望有更多的人参与进来把这个爬虫做大做强477731655原文地址:http://www.cnblogs.com/modestmt/p/5480773.html.NET社区新闻,深度好文,微信中搜索dotNET跨平台或扫描二维码关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: