发布基于C#的网络爬虫程序 *版本1.0.1*
2010-04-29 17:32
537 查看
版本1.0.1主要改进有:
1.爬取文件用SQLite存储以改善性能 (常用操作系统不善于处理大量小文件)。
2.制作MSI安装文件。
这是一款用 C# 编写的网络爬虫, 发布在:http://nwebcrawler.codeplex.com/。
主要特性有:
可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。
状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。
有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。
健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
参见下面的截图:
1.爬取文件用SQLite存储以改善性能 (常用操作系统不善于处理大量小文件)。
2.制作MSI安装文件。
这是一款用 C# 编写的网络爬虫, 发布在:http://nwebcrawler.codeplex.com/。
主要特性有:
可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。
状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。
有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。
健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。
较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。
参见下面的截图:
相关文章推荐
- 发布一款基于C#的网络爬虫程序
- 发布一款基于C#的网络爬虫程序
- 发布一款基于C#的网络爬虫程序
- 发布基于C#的机器视觉库 *版本1.0.1*
- 网络爬虫程序 *版本1.0.1* 修正几个问题
- 【转】SharpPcap(winpcap基于c#封装的库)网络嗅探程序核心
- 简易网络爬虫程序的开发(4)(c#版)
- 【转】SHarpPcap(winpcap基于c#封转的库)网络嗅探程序核心
- 【开源下载】基于TCP网络通信的自动升级程序c#源码
- C#网络编程(一)------最简单的基于cs的sokect通讯程序
- 简易网络爬虫程序的开发(3)(c#版)
- 基于网络爬虫的全国气温排行程序/c++
- [开源]基于C#的腾讯微博SDK V0.1版本发布
- 简易网络爬虫程序的开发(6)(c#版)
- 用C#实现一个基于http的文件发布程序
- 基于vs2005以上版本Qt程序发布的注意事项
- 基于vs2005以上版本Qt程序发布的注意事项(讲了manifest的问题)
- 神经网络与深度学习 使用Python实现基于梯度下降算法的神经网络和自制仿MNIST数据集的手写数字分类可视化程序 web版本
- 简易网络爬虫程序的开发(5)(c#版)
- 基于Python的urllib2模块的多线程网络爬虫程序