您的位置:首页 > 编程语言

示例 - 17行代码实现一个简单高效的多线程蜘蛛程序

2014-03-03 12:51 961 查看
多线程蜘蛛程序是一个很有用的组件, 我在自己开发的Spider Studio中也提供了一个. 在设计上我尽量遵循使用简单的原则, 大量使用dynamic对象的特性, 使得代码非常精简灵活, 通过17行就能实现一个功能比较齐全的蜘蛛程序. 现在和大家分享一下:

public void Run()
{
dynamic link = new ExpandoObject();
link.Url = "http://news.163.com";
Spider.AddLink(link);
Spider.Downloaded += new DownloadedEventHandler((object sender, DownloadedEventArgs e) => {
Logger.Log(e.Page.Link.Url);
foreach(var l in e.Page.SubLinks)
{
if(l.Depth <= 2) Spider.AddLink(l); //只采集Depth在2以内的网页
}
});
Spider.ErrorOccurred += new ErrorOccurredEventHandler((object sender, ErrorOccurredEventArgs e) => { Logger.Log(e.Error.Message); });
Spider.Start(10); //启动10个线程运行
Spider.Wait(); //等待所有线程完成
Spider.Stop();
}


Spider会用到如下几个对象, 大部分是dynamic的 (这里用JSON来示例):

Link - { Url:"string", Title:"string", Depth:1 }

DownloadedEventArgs - { Page: { Link: { Url:"string", Title:"string", Depth:1 }, Html: "string", SubLinks: [{ Url:"string", Title:"string", Depth:1 }]} }

ErrorOccurredEventArgs - { Error: ExceptionType }

简单来说, 就是:

Link有三个属性: Url (字符串), Title (字符串) 和Depth (整形);

DownloadedEventArgs有一个属性: Page, Page又有三个属性: Page.Link (Link类型), Html (字符串) 和 SubLinks (Link数组);

ErrorOccurredEventArgs有一个属性: Error (Exception类型)

运行情况:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐