爬虫初学
2020-04-02 08:03
295 查看
这几天学了下爬虫,也稍微的会了点,做了个爬小说的,这里放个简单的爬取
string html = string.Empty; try { System.Net.ServicePointManager.DefaultConnectionLimit = 50; HttpWebRequest request = HttpWebRequest.Create(url) as HttpWebRequest; request.Timeout = 30 * 1000;//等待时间 request.UserAgent = "";//这里填浏览器的就行了 request.ContentType= "text/html;charset=gbk";//转码方式 request.Method = "GET"; Encoding encoding = Encoding.Default; using (HttpWebResponse r = request.GetResponse() as HttpWebResponse) { if (r.StatusCode!=HttpStatusCode.OK) { html = "失败"; } else { try { StreamReader sr = new StreamReader(r.GetResponseStream(), encoding); html = sr.ReadToEnd(); sr.Close(); } catch (Exception ex) { html = ex.Message; } } } } catch (Exception ex) { html = ex.Message; } return html;
然后就获得了爬取的数据,数据在html中,然后就要处理这个字符串,用正则表达式处理即可
然后发现多线程爬数据时.偶尔报连接中断,查了很多地方没查到原因,然后发现用这段代码就可以了,估计是多线程的线程太多了.超过了允许请求的上限了
System.Net.ServicePointManager.DefaultConnectionLimit = 50;
- 点赞
- 收藏
- 分享
- 文章举报
相关文章推荐
- 初学python爬虫,记录一下学习过程,requests库模拟登录02,使用 for循环处理cookies
- 初学python爬虫,记录一下学习过程,requests库模拟登录01
- 第一次初学爬虫编写的最简单的爬出百度贴吧的图片
- Python-爬虫初学
- 【初学】java爬虫并抓取图片保存
- Python爬虫初学(3)登陆武汉理工大学教务处
- 初学Python爬虫:爬取B站前x个视频年份、投币数与播放量
- python爬虫初学(一)——基本代码和常见问题
- 初学python爬虫,记录一下学习过程,requests库处理不信任证书问题
- 初学python爬虫
- 初学Python爬虫:爬取B站某个详情页的所有标题
- 初学爬虫小结
- 初学python爬虫,记录一下学习过程,requests xpath os 提取MM图片并保存本地 03
- 初学python爬虫,记录一下学习过程,requests xpath 提取图片并保存02
- 初学python爬虫,记录一下学习过程,requests库获取网页代码
- python爬虫初学(3)
- 初学Python----urllib2模块与正则表达式组合而成的小爬虫
- 初学python,爬虫开刀
- python爬虫初学
- 初学python爬虫,记录一下学习过程,requests xpath提取图片地址并保存图片