您的位置：首页 > 运维架构 > 网站架构

[开源 .NET 跨平台数据采集爬虫框架: DotnetSpider] [一] 初衷与架构设计

2016-05-11 17:32 721 查看

一，为什么要造轮子

有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求，大多是JAVA，PYTHON甚至于还有NODEJS，C++，再或者在开源中国查询C#的爬虫，仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说，单纯性能上.NET对比JAVA，PYTHON并没有处于弱势，另根据我多年的开发经验大多爬虫性能瓶颈在并发下载（网速）、IP池，因此我认为用C#写一个爬虫框架绝对是可行的，那么为什么我大.NET没有一个强大的爬虫框架呢？说真的我不知道，可能爬虫框架核心上比较简单而没有被大牛看上，也可能.NET的开发人员没有别的语言的开发人员勤奋，或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布，我觉得是时候开发一个跨平台，跨语言的爬虫框架了。我不喜欢复杂的东西，总是觉得复杂的东西容易出问题，可能跟我个人能力有限，驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic，但是肯定有我自己的理解和改进在内的。此文是系列介绍第一篇，后面陆续会介绍详细用法及程序改动

另：个人代码水平有限，如果写得不好请大家指正海涵

二，框架设计

其实爬虫的设计我觉得还是挺成熟的，大部分都会拿出下图来说事，由于我是参考的webmagic，所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)

Scheduler：负责URL的调度，可以实现如Queue, PriorityScheduler, RedisScheduler(可用于分布式)等等

Downloader: 负责下载HTML，可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader，本地文件Downloader等等

PageProcesser: 负责HTML解析及新的符合规则的URL解析，从上图可以看到传入Processer的是Page对象，里面包含了下载好的完整HTML或者JSON数据

Pipeline: 负责数据的存储, 可以实现如MySql, MySqlFile，MSSQL，MongoDb等等

三，与别的爬虫的差异

使用JSON定义爬虫，所以可以最终实现跨语言（不同语言只要写一个JSON转换的provider就好）

由于使用JSON做解析，所以可以实现类中属性是别的类的情况（仅限MongoDB, 关系型数据库不好存这种数据）\

自动建表

有.NET CORE版本，因此可以跨平台（已经在LINUX下运行大量任务了）

有感于IP代理的不稳定性，因此代理模块没有细致测试使用，而是实现了另一种换IP手段（ADSL拨号）

加入基本的数据验证模块

四，最基本使用方法

最基本的使用方法是不需要引用Extension, 引用Common, Core, JLog就好，然后需要你自己实现IPipeline和Processer

public static void Main()
{

　　　　　　ServiceProvider.Add<ILogService>(new ConsoleLog());
　　　　　　ServiceProvider.Add<ILogService>(new FileLog());
　　　　　　ServiceProvider.Add<IMonitorService>(new ConsoleMonitor());
　　　　　　//ServiceProvider.Add<IMonitorService>(new HttpMonitor(ConfigurationManager.Get("statusHost")));

HttpClientDownloader downloader = new HttpClientDownloader();

Core.Spider spider = Core.Spider.Create(new MyPageProcessor(), new QueueDuplicateRemovedScheduler()).AddPipeline(new MyPipeline()).SetThreadNum(1);
var site = new Site() { EncodingName = "UTF-8" };
for (int i = 1; i < 5; ++i)
{
site.AddStartUrl("http://www.youku.com/v_olist/c_97_g__a__sg__mt__lg__q__s_1_r_0_u_0_pt_0_av_0_ag_0_sg__pr__h__d_1_p_1.html");
}
spider.Site = site;
spider.Start();
}

private class MyPipeline : IPipeline
{
public void Process(ResultItems resultItems, ISpider spider)
{
foreach (YoukuVideo entry in resultItems.Results["VideoResult"])
{
Console.WriteLine($"{entry.Name}:{entry.Click}");
}

//May be you want to save to database
//
}

public void Dispose()
{
}
}

private class MyPageProcessor : IPageProcessor
{
public void Process(Page page)
{
var totalVideoElements = page.Selectable.SelectList(Selectors.XPath("//div[@class='yk-col3']")).Nodes();
List<YoukuVideo> results = new List<YoukuVideo>();
foreach (var videoElement in totalVideoElements)
{
var video = new YoukuVideo();
video.Name = videoElement.Select(Selectors.XPath("/div[4]/div[1]/a")).GetValue();
video.Click = int.Parse(videoElement.Select(Selectors.Css("p-num")).GetValue().ToString());
results.Add(video);
}
page.AddResultItem("VideoResult", results);
}

public Site Site => new Site { SleepTime = 0 };
}

public class YoukuVideo
{
public string Name { get; set; }
public string Click { get; set; }
}

五，进阶使用方法

定义一个实体类，并在类上加合适的Attribute以便知道你要如何解析数据

定义一个SpiderContextBuilder类，在里面配置爬虫名字，线程数，Scheduler,downloader等等

在main中实类化你的爬虫类，调用run方法

public class JdSkuSpider : ISpiderContext
{
public SpiderContextBuilder GetBuilder()
{
SpiderContext context = new SpiderContext
{
SpiderName = "JD SKU " + DateTimeUtils.MONDAY_RUN_ID,
CachedSize = 1,
ThreadNum = 8,
Site = new Site
{
},
Scheduler = new QueueScheduler()
{
},
StartUrls=new Dictionary<string, Dictionary<string, object>> {
{ "http://list.jd.com/list.html?cat=9987,653,655&page=1&go=0&JL=6_0_0&ms=5", new Dictionary<string, object> { { "name","手机" }, { "cat3","9987" } } },
},
Pipeline = new MysqlPipeline()
{
ConnectString = "[your mysql connect string]"
},
Downloader = new HttpDownloader()
};
return new SpiderContextBuilder(context, typeof(Product));
}

[Schema("jd", "sku_v2", Suffix = TableSuffix.Monday)]
[TargetUrl(new[] { @"page=[0-9]+" }, "//*[@id=\"J_bottomPage\"]")]
[TypeExtractBy(Expression = "//div[contains(@class,'j-sku-item')]", Multi = true)]
[Indexes(Primary = "sku")]
public class Product : ISpiderEntity
{
[StoredAs("category", DataType.String, 20)]
[PropertyExtractBy(Expression = "name", Type = ExtractType.Enviroment)]
public string CategoryName { get; set; }

[StoredAs("cat3", DataType.String, 20)]
[PropertyExtractBy(Expression = "cat3", Type = ExtractType.Enviroment)]
public int CategoryId { get; set; }

[StoredAs("url", DataType.Text)]
[PropertyExtractBy(Expression = "./div[1]/a/@href")]
public string Url { get; set; }

[StoredAs("sku", DataType.String, 25)]
[PropertyExtractBy(Expression = "./@data-sku")]
public string Sku { get; set; }

[StoredAs("commentscount", DataType.String, 20)]
[PropertyExtractBy(Expression = "./div[@class='p-commit']/strong/a")]
public long CommentsCount { get; set; }

[StoredAs("shopname", DataType.String, 100)]
[PropertyExtractBy(Expression = "./div[@class='p-shop hide']/span[1]/a[1]")]
public string ShopName { get; set; }

[StoredAs("name", DataType.String, 50)]
[PropertyExtractBy(Expression = "./div[@class='p-name']/a/em")]
public string Name { get; set; }

[StoredAs("shopid", DataType.String, 25)]
public string ShopId { get; set; }

[StoredAs("venderid", DataType.String, 25)]
[PropertyExtractBy(Expression = "./@venderid")]
public string VenderId { get; set; }

[StoredAs("jdzy_shop_id", DataType.String, 25)]
[PropertyExtractBy(Expression = "./@jdzy_shop_id")]
public string JdzyShopId { get; set; }

[StoredAs("cdate", DataType.Time)]
[PropertyExtractBy(Expression = "now", Type = ExtractType.Enviroment)]
public DateTime CDate { get; set; }
}
}

public static void Main()
{
　　　　　　ServiceProvider.Add<ILogService>(new ConsoleLog());
　　　　　　ServiceProvider.Add<ILogService>(new FileLog());
　　　　　　ServiceProvider.Add<IMonitorService>(new ConsoleMonitor());
　　　　　　//ServiceProvider.Add<IMonitorService>(new HttpMonitor(ConfigurationManager.Get("statusHost")));

　　　　　　JdSkuSpider spiderBuilder = new JdSkuSpider();
　　　　　　var context = spiderBuilder.GetBuilder().Context;
　　　　　　ContextSpider spider = new ContextSpider(context);
　　　　　　spider.Run();

五，代码地址

https://github.com/zlzforever/DotnetSpider 望各位大佬加星:)

六，有想参与的或疑问的请加群

希望有更多的人参与进来把这个爬虫做大做强

477731655

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

[开源 .NET 跨平台 数据采集 爬虫框架: DotnetSpider] [一] 初衷与架构设计

一 ，为什么要造轮子

二 ，框架设计

三 ，与别的爬虫的差异

四 ，最基本使用方法

五 ，进阶使用方法

五 ，代码地址

六 ，有想参与的或疑问的请加群