C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(2)
2013-06-27 10:16
211 查看
在上一篇中,我们提到了管道这个概念(pipeline),其实所有的管道都实现了同一接口叫
所有爬到的网址都将被 构造 Crawler 时通过构造函数注入的管道 处理。
一般来说第一个处理的管道是 HtmlDocumentProcessor,它负责解析网页。那么其实现接口的具体函数就很值得一看。
在函数的开始处NCrawler使用了AOP技术做了一次参数的非空检查,使用的AOP框架是轻量级的,叫 AspectF。
紧接着函数进行了一系列操作,把HTML的文本,包括 title , meta 提取出来,找出其中 links ,然后开启循环针对里面每个 link 整形重新添加到 爬虫的 等待爬行的URL的序列,代码如下:
public interface IPipelineStep { void Process(Crawler crawler, PropertyBag propertyBag); }
所有爬到的网址都将被 构造 Crawler 时通过构造函数注入的管道 处理。
一般来说第一个处理的管道是 HtmlDocumentProcessor,它负责解析网页。那么其实现接口的具体函数就很值得一看。
在函数的开始处NCrawler使用了AOP技术做了一次参数的非空检查,使用的AOP框架是轻量级的,叫 AspectF。
AspectF.Define. NotNull(crawler, "crawler"). NotNull(propertyBag, "propertyBag");
紧接着函数进行了一系列操作,把HTML的文本,包括 title , meta 提取出来,找出其中 links ,然后开启循环针对里面每个 link 整形重新添加到 爬虫的 等待爬行的URL的序列,代码如下:
foreach (string link in links.Links.Union(links.References)) { if (link.IsNullOrEmpty()) { continue; } string decodedLink = ExtendedHtmlUtility.HtmlEntityDecode(link); string normalizedLink = NormalizeLink(baseUrl, decodedLink); if (normalizedLink.IsNullOrEmpty()) { continue; } crawler.AddStep(new Uri(normalizedLink), propertyBag.Step.Depth + 1, propertyBag.Step, new Dictionary<string, object> { {Resources.PropertyBagKeyOriginalUrl, link}, {Resources.PropertyBagKeyOriginalReferrerUrl, propertyBag.ResponseUri} }); }
相关文章推荐
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(2)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(5)(selenium登场)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(5)(selenium登场)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(1)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(1)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(4)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(4)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(3)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(3)
- 开源you-get项目爬虫,以及基于python+selenium的自动测试利器
- 基于python的知乎开源爬虫 zhihu_oauth使用介绍
- 如何在iOS中使用ZXing库(ZXing是一个开源的条码生成和扫描库,开源协议为Apache2.0。它持众多条码格式和语言,比如Java、 C++、 C#、 Objective-C以及Act )
- python-网络爬虫初学一:获取网页源码以及发送POST和GET请求
- python2-爬虫-系统环境变量读写-Handler和opener以及开放代理和私密代理的使用
- python爬虫初级--获取指定页面上的菜单名称以及链接,然后导出
- 爬虫学习3.2 HTTP请求的python实现--urllib2/urllib实现
- Python爬虫之requests+正则表达式抓取猫眼电影top100以及瓜子二手网二手车信息(四)
- ViewModel中C# Property自动添加OnPropertyChanged处理的小工具, 以及相应Python知识点
- python3.2 多线程小爬虫一只
- 目前网络上开源的网络爬虫以及一些简介和比较