Node.js制作图片下载爬虫的一般步骤
2017-11-20 08:24
459 查看
图片下载爬虫分两部分:爬页面和下载图片。
爬页面时先看网址是https还是http的,然后选择不同的内置对象;其次看编码,如果是charset=gb2312的网页就需要iconv帮忙转码,好在大部分都是utf8了这步可以省却,之后输出页面代码看看,不乱码就可以进行分析了;有时候网页使用gzip编码压缩了(网页头字段Content-Encoding是gzip),这时必须用zlib解码再读取;接下来用cheerio分析页面,用的是和jQuery相似的语法,分析出图片地址和下一页地址就完成任务了。
爬图片相对简单一些,首先还是要网址是https还是http的,然后选择不同的内置对象;先试着下载一次,正常就OK了,如果下载下来的图片只有1K那么说明网站用了反爬虫手段,一般在header里加上Referer就好了,Referer地址就是网站的host地址。
好了,目前基本上就是这些,以后有必要再补充。
2017年11月20日08:24:17
爬页面时先看网址是https还是http的,然后选择不同的内置对象;其次看编码,如果是charset=gb2312的网页就需要iconv帮忙转码,好在大部分都是utf8了这步可以省却,之后输出页面代码看看,不乱码就可以进行分析了;有时候网页使用gzip编码压缩了(网页头字段Content-Encoding是gzip),这时必须用zlib解码再读取;接下来用cheerio分析页面,用的是和jQuery相似的语法,分析出图片地址和下一页地址就完成任务了。
爬图片相对简单一些,首先还是要网址是https还是http的,然后选择不同的内置对象;先试着下载一次,正常就OK了,如果下载下来的图片只有1K那么说明网站用了反爬虫手段,一般在header里加上Referer就好了,Referer地址就是网站的host地址。
好了,目前基本上就是这些,以后有必要再补充。
2017年11月20日08:24:17
相关文章推荐
- Node.js mimimn图片批量下载爬虫 1.00
- Node.js 4493图片批量下载爬虫1.00
- Node.js nvshens图片批量下载爬虫1.01
- Node.js meitulu图片批量下载爬虫1.03版
- node.js爬虫之下载图片,批量下载图片,控制下载图片并行上限
- Node.js monly图片批量下载爬虫1.00
- Node.js abaike图片批量下载Node.js爬虫1.01版
- Node.js meitulu图片批量下载爬虫 1.05版(Final最终版)
- Node.js aitaotu图片批量下载Node.js爬虫1.00版
- Node.js meitulu图片批量下载爬虫1.02版
- Node.js mzitu图片批量下载爬虫1.00
- Node.js umei图片批量下载Node.js爬虫1.00
- Node.js meitulu图片批量下载爬虫1.051
- Node.js meitulu图片批量下载爬虫1.06版
- Node.js nvshens图片批量下载爬虫 1.00
- Node.js 2017.11.5-2017.11.16期间制作的图片爬虫总结
- Node.js abaike图片批量下载Node.js爬虫1.00版
- Node.js mm131图片批量下载爬虫1.01 增加断点续传功能
- Node.js meitulu图片批量下载爬虫1.01版
- Node.js abaike图片批量下载爬虫1.02