关于一个抓取网站图片脚本的解析
2015-02-12 12:44
197 查看
//获取图片URL并保存到faceks.txt curl "http://www.somewebsite.com/sitemap.xml" |grep -o "http://.*post/.\{14\}" |xargs curl -m 60 --retry 20 |grep "bigimgsrc" |grep -o "http://imglf.*.jpg" > somewebsite.txt //批量下载文件,不重复下载已有并且较新的文件 wget -i somewebsite.txt -P faceks -t 10 -T 30 -N
其中grep -o代表的是精确匹配后面的正则表达。
xargs是将前面解析得到的结果进行批量执行。
curl -m 代表的是处理的最大时长。
grep是抓取符合正则的一行数据。
然后将抓到的所有图片链接写入somewebsite.txt。
wget -i是指从文件中按行读取url连接。
-N 代表的是只下载比本地新的文件。
-T 代表超时等待时间
-t 代表重试次数
相关文章推荐
- 抓取一个网站特定的全部图片(JAVA)
- 为什么大网站把脚本、样式、图片等资源放在一个独立域名下?
- 资源:一个 SilverLight Sample 的网站,关于图片特效的
- 一个scrapy抓取网站独立脚本
- python学习 二 04 爬一个图片网站-解析文件,获得所有图片链接
- PHP抓取网站图片脚本
- 一个不错的图片素材网站
- 一个从别的网站抓取信息的例子(域名查询)
- 关于“网站重构”概念解析
- 关于“网站重构”概念解析
- 纯脚本, 给你的网站添加一个轻量级中文分词系统
- 收藏:关于.Net的一个很不错的网站
- 一个关于嵌入式的网站,收获不小
- 一个关于数据连接语法的网站http://www.connectionstrings.com/
- WindowsXP中一个关于图片缩略图的Bug?
- 一个download某些网站的所有某类歌曲的脚本;
- 一个从别的网站抓取信息的例子(域名查询)
- 关于Lisp的一个网站
- 关于在网站中图片入库和管理!
- UGallery是Dreamweaver的一个图片网站创建插件