您的位置:首页 > 运维架构 > 网站架构

关于一个抓取网站图片脚本的解析

2015-02-12 12:44 197 查看
//获取图片URL并保存到faceks.txt
curl "http://www.somewebsite.com/sitemap.xml" |grep -o "http://.*post/.\{14\}" |xargs curl -m 60 --retry 20 |grep "bigimgsrc" |grep -o "http://imglf.*.jpg" > somewebsite.txt

//批量下载文件,不重复下载已有并且较新的文件
wget -i somewebsite.txt -P faceks -t 10 -T 30 -N


其中grep -o代表的是精确匹配后面的正则表达。

xargs是将前面解析得到的结果进行批量执行。

curl -m 代表的是处理的最大时长。

grep是抓取符合正则的一行数据。

然后将抓到的所有图片链接写入somewebsite.txt。

wget -i是指从文件中按行读取url连接。

-N 代表的是只下载比本地新的文件。

-T 代表超时等待时间

-t 代表重试次数
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  wget