示例 - 17行代码实现一个简单高效的多线程蜘蛛程序
2014-03-03 12:51
961 查看
多线程蜘蛛程序是一个很有用的组件, 我在自己开发的Spider Studio中也提供了一个. 在设计上我尽量遵循使用简单的原则, 大量使用dynamic对象的特性, 使得代码非常精简灵活, 通过17行就能实现一个功能比较齐全的蜘蛛程序. 现在和大家分享一下:
Spider会用到如下几个对象, 大部分是dynamic的 (这里用JSON来示例):
Link - { Url:"string", Title:"string", Depth:1 }
DownloadedEventArgs - { Page: { Link: { Url:"string", Title:"string", Depth:1 }, Html: "string", SubLinks: [{ Url:"string", Title:"string", Depth:1 }]} }
ErrorOccurredEventArgs - { Error: ExceptionType }
简单来说, 就是:
Link有三个属性: Url (字符串), Title (字符串) 和Depth (整形);
DownloadedEventArgs有一个属性: Page, Page又有三个属性: Page.Link (Link类型), Html (字符串) 和 SubLinks (Link数组);
ErrorOccurredEventArgs有一个属性: Error (Exception类型)
运行情况:
public void Run() { dynamic link = new ExpandoObject(); link.Url = "http://news.163.com"; Spider.AddLink(link); Spider.Downloaded += new DownloadedEventHandler((object sender, DownloadedEventArgs e) => { Logger.Log(e.Page.Link.Url); foreach(var l in e.Page.SubLinks) { if(l.Depth <= 2) Spider.AddLink(l); //只采集Depth在2以内的网页 } }); Spider.ErrorOccurred += new ErrorOccurredEventHandler((object sender, ErrorOccurredEventArgs e) => { Logger.Log(e.Error.Message); }); Spider.Start(10); //启动10个线程运行 Spider.Wait(); //等待所有线程完成 Spider.Stop(); }
Spider会用到如下几个对象, 大部分是dynamic的 (这里用JSON来示例):
Link - { Url:"string", Title:"string", Depth:1 }
DownloadedEventArgs - { Page: { Link: { Url:"string", Title:"string", Depth:1 }, Html: "string", SubLinks: [{ Url:"string", Title:"string", Depth:1 }]} }
ErrorOccurredEventArgs - { Error: ExceptionType }
简单来说, 就是:
Link有三个属性: Url (字符串), Title (字符串) 和Depth (整形);
DownloadedEventArgs有一个属性: Page, Page又有三个属性: Page.Link (Link类型), Html (字符串) 和 SubLinks (Link数组);
ErrorOccurredEventArgs有一个属性: Error (Exception类型)
运行情况:
相关文章推荐
- C#一个简单的定时小程序实现代码
- AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- 一个简单的时间片轮转多道程序内核代码 的实现
- 一个简单的时间片轮转多道程序内核代码 的实现
- [微信小程序]实现一个自定义遮罩层组件(完整示例代码附效果图)
- AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- 一个简单的AJAX实现,基于C#的ASP.Net,包括服务器端的程序代码
- AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- 一个简单的AJAX实现,基于C#的ASP.Net,包括服务器端的程序代码
- [导入]AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- java实现一个简单的网络爬虫代码示例
- 一个简单的循环多道程序内核代码 实现
- 初识委托和线程并实现一个简单摇奖程序
- AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- python实现一个简单的并查集的示例代码
- [导入]AjaxPanel自定义控件实现页面无刷新数据交互(做了个示例程序, 效果确实比较Cool, 用法非常简单! )(示例代码下载)
- 用vue的双向绑定简单实现一个todo-list的示例代码