[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计
2016-05-11 17:32
721 查看
一 ,为什么要造轮子
有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求,大多是JAVA,PYTHON甚至于还有NODEJS,C++,再或者在开源中国查询C#的爬虫,仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说,单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,另根据我多年的开发经验大多爬虫性能瓶颈在并发下载(网速)、IP池,因此我认为用C#写一个爬虫框架绝对是可行的,那么为什么我大.NET没有一个强大的爬虫框架呢?说真的我不知道,可能爬虫框架核心上比较简单而没有被大牛看上,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布,我觉得是时候开发一个跨平台,跨语言的爬虫框架了。我不喜欢复杂的东西,总是觉得复杂的东西容易出问题,可能跟我个人能力有限,驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic,但是肯定有我自己的理解和改进在内的。此文是系列介绍第一篇,后面陆续会介绍详细用法及程序改动另:个人代码水平有限,如果写得不好请大家指正海涵
二 ,框架设计
其实爬虫的设计我觉得还是挺成熟的,大部分都会拿出下图来说事,由于我是参考的webmagic,所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)Scheduler:负责URL的调度,可以实现如Queue, PriorityScheduler, RedisScheduler(可用于分布式)等等
Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
PageProcesser: 负责HTML解析及新的符合规则的URL解析,从上图可以看到传入Processer的是Page对象,里面包含了下载好的完整HTML或者JSON数据
Pipeline: 负责数据的存储, 可以实现如MySql, MySqlFile,MSSQL,MongoDb等等
三 ,与别的爬虫的差异
使用JSON定义爬虫,所以可以最终实现跨语言(不同语言只要写一个JSON转换的provider就好)由于使用JSON做解析,所以可以实现类中属性是别的类的情况(仅限MongoDB, 关系型数据库不好存这种数据)\
自动建表
有.NET CORE版本,因此可以跨平台(已经在LINUX下运行大量任务了)
有感于IP代理的不稳定性,因此代理模块没有细致测试使用,而是实现了另一种换IP手段(ADSL拨号)
加入基本的数据验证模块
四 ,最基本使用方法
最基本的使用方法是不需要引用Extension, 引用Common, Core, JLog就好,然后需要你自己实现IPipeline和Processerpublic static void Main() {
ServiceProvider.Add<ILogService>(new ConsoleLog());
ServiceProvider.Add<ILogService>(new FileLog());
ServiceProvider.Add<IMonitorService>(new ConsoleMonitor());
//ServiceProvider.Add<IMonitorService>(new HttpMonitor(ConfigurationManager.Get("statusHost")));
HttpClientDownloader downloader = new HttpClientDownloader(); Core.Spider spider = Core.Spider.Create(new MyPageProcessor(), new QueueDuplicateRemovedScheduler()).AddPipeline(new MyPipeline()).SetThreadNum(1); var site = new Site() { EncodingName = "UTF-8" }; for (int i = 1; i < 5; ++i) { site.AddStartUrl("http://www.youku.com/v_olist/c_97_g__a__sg__mt__lg__q__s_1_r_0_u_0_pt_0_av_0_ag_0_sg__pr__h__d_1_p_1.html"); } spider.Site = site; spider.Start(); } private class MyPipeline : IPipeline { public void Process(ResultItems resultItems, ISpider spider) { foreach (YoukuVideo entry in resultItems.Results["VideoResult"]) { Console.WriteLine($"{entry.Name}:{entry.Click}"); } //May be you want to save to database // } public void Dispose() { } } private class MyPageProcessor : IPageProcessor { public void Process(Page page) { var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-col3']")).Nodes(); List<YoukuVideo> results = new List<YoukuVideo>(); foreach (var videoElement in totalVideoElements) { var video = new YoukuVideo(); video.Name = videoElement.Select(Selectors.XPath("/div[4]/div[1]/a")).GetValue(); video.Click = int.Parse(videoElement.Select(Selectors.Css("p-num")).GetValue().ToString()); results.Add(video); } page.AddResultItem("VideoResult", results); } public Site Site => new Site { SleepTime = 0 }; } public class YoukuVideo { public string Name { get; set; } public string Click { get; set; } }
五 ,进阶使用方法
定义一个实体类,并在类上加合适的Attribute以便知道你要如何解析数据定义一个SpiderContextBuilder类,在里面配置爬虫名字,线程数,Scheduler,downloader等等
在main中实类化你的爬虫类,调用run方法
public class JdSkuSpider : ISpiderContext { public SpiderContextBuilder GetBuilder() { SpiderContext context = new SpiderContext { SpiderName = "JD SKU " + DateTimeUtils.MONDAY_RUN_ID, CachedSize = 1, ThreadNum = 8, Site = new Site { }, Scheduler = new QueueScheduler() { }, StartUrls=new Dictionary<string, Dictionary<string, object>> { { "http://list.jd.com/list.html?cat=9987,653,655&page=1&go=0&JL=6_0_0&ms=5", new Dictionary<string, object> { { "name","手机" }, { "cat3","9987" } } }, }, Pipeline = new MysqlPipeline() { ConnectString = "[your mysql connect string]" }, Downloader = new HttpDownloader() }; return new SpiderContextBuilder(context, typeof(Product)); } [Schema("jd", "sku_v2", Suffix = TableSuffix.Monday)] [TargetUrl(new[] { @"page=[0-9]+" }, "//*[@id=\"J_bottomPage\"]")] [TypeExtractBy(Expression = "//div[contains(@class,'j-sku-item')]", Multi = true)] [Indexes(Primary = "sku")] public class Product : ISpiderEntity { [StoredAs("category", DataType.String, 20)] [PropertyExtractBy(Expression = "name", Type = ExtractType.Enviroment)] public string CategoryName { get; set; } [StoredAs("cat3", DataType.String, 20)] [PropertyExtractBy(Expression = "cat3", Type = ExtractType.Enviroment)] public int CategoryId { get; set; } [StoredAs("url", DataType.Text)] [PropertyExtractBy(Expression = "./div[1]/a/@href")] public string Url { get; set; } [StoredAs("sku", DataType.String, 25)] [PropertyExtractBy(Expression = "./@data-sku")] public string Sku { get; set; } [StoredAs("commentscount", DataType.String, 20)] [PropertyExtractBy(Expression = "./div[@class='p-commit']/strong/a")] public long CommentsCount { get; set; } [StoredAs("shopname", DataType.String, 100)] [PropertyExtractBy(Expression = "./div[@class='p-shop hide']/span[1]/a[1]")] public string ShopName { get; set; } [StoredAs("name", DataType.String, 50)] [PropertyExtractBy(Expression = "./div[@class='p-name']/a/em")] public string Name { get; set; } [StoredAs("shopid", DataType.String, 25)] public string ShopId { get; set; } [StoredAs("venderid", DataType.String, 25)] [PropertyExtractBy(Expression = "./@venderid")] public string VenderId { get; set; } [StoredAs("jdzy_shop_id", DataType.String, 25)] [PropertyExtractBy(Expression = "./@jdzy_shop_id")] public string JdzyShopId { get; set; } [StoredAs("cdate", DataType.Time)] [PropertyExtractBy(Expression = "now", Type = ExtractType.Enviroment)] public DateTime CDate { get; set; } } }
public static void Main() { ServiceProvider.Add<ILogService>(new ConsoleLog()); ServiceProvider.Add<ILogService>(new FileLog()); ServiceProvider.Add<IMonitorService>(new ConsoleMonitor()); //ServiceProvider.Add<IMonitorService>(new HttpMonitor(ConfigurationManager.Get("statusHost")));
JdSkuSpider spiderBuilder = new JdSkuSpider(); var context = spiderBuilder.GetBuilder().Context; ContextSpider spider = new ContextSpider(context); spider.Run();
}
五 ,代码地址
https://github.com/zlzforever/DotnetSpider 望各位大佬加星:)六 ,有想参与的或疑问的请加群
希望有更多的人参与进来把这个爬虫做大做强477731655
相关文章推荐
- 在首席架构师手里,应用架构如此设计
- 网站迁移的方法
- 理解RESTful架构
- 这些操作让网站更加安全
- 整理几个自学网站给你!让你也成为一专多能无缺陷的斜杠青年!
- ceph存储 Ceph架构剖析
- 搭建个人博客网站
- 屏蔽优酷、土豆等视频网站15秒广告的最全最简单方法
- 每秒处理10万订单乐视集团支付架构
- 从六大方面防护你的网站安全
- PHP网站开发之:数据库PDO
- nodejs 访问网站并操作xpath
- Lambda架构与推荐在电商网站实践
- 小米网技术架构变迁实践
- 浅谈千万级的PV/IP规模高性能高并发网站架构
- keepalived-lvs-nat-主备模型实现高可用负载均衡
- 译见|深度剖析「微服务架构」的九大特征
- 从Google与eBay的系统架构学到的经验
- 大型网站架构不得不考虑的10个问题
- 支付宝钱包架构