您的位置:首页 > 编程语言 > PHP开发

PHP脚本下载知乎日报文章

2016-12-30 16:26 204 查看
这是一个知乎日报文章汇总的网站:https://zhhrb.sinaapp.com/

因为最近要用大量的知乎日报做数据库,所以写了个脚本自动下载指定日期范围的文章,省事省时间。

原理就不多说了,挺简单的代码。

<?php
set_time_limit(0);  //设置页面等待时间,默认是30s,时间一到就会报错,所以这里设置成无限长时间
$reg='/https:\/\/daily.zhihu.com\/story\/\d{7}/'; //用正则匹配到网址
$count = 0;
$urlList = [];          //网址列表
for($i=0;$i<28;$i++)
{
$str="";
if($i<10)
$i="0".$i;
$str = file_get_contents("https://zhhrb.sinaapp.com/index.php?date=" . "201612" . $i);//date后面跟日期
preg_match_all($reg, $str, $arr);  //匹配
$arr = array_unique($arr[0]);      //去除重复元素
foreach ($arr as $key => $val)     //遍历数组,获取网址
$urlList[] = $val;
}
foreach ($urlList as $key => $val)
{
$html = file_get_contents($val);  //下载html源码
file_put_contents("C:\\Users\\ACME\\Desktop\\web\\".$count.".html",$html); //存放到指定的路径下
$count++;
}
echo "共下载了".$count."个文章";
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: