【PHP 使用 CURL 同步抓取多個網頁…
2013-06-25 11:17
471 查看
转自 同上
【PHP 使用 CURL 同步抓取多個網頁】
来源:http://plog.longwin.com.tw/programming/2009/10/07/php-multi-thread-curl-2009
一般 CURL 抓網頁的方法, 是一頁一頁抓, 假設要抓 4頁, 所費時間各別是 5,10,7,5 秒, 那全部總合所花的時間就是 5
+ 10 + 7 + 5 = 27 秒.
若能同時間去抓取多個網頁, 所花費的時間 5,10,7,5 秒, 全部總合所花的時間是 10 秒.(花費最多時間的秒數)
於 JavaScript 可使用 AJAX 的 async(YAHOO.util.Connect.asyncRequest)
來達成, 於 PHP 可以用 CURL 來達成此 Multi-Threading 的效果.
官方文件: PHP: curl_multi_init
程式(async.php)
<?php
function async_get_url($url_array, $wait_usec = 0)
{
if
(!is_array($url_array))
return false;
$wait_usec = intval($wait_usec);
$data =
array();
$handle =
array();
$running =
0;
$mh =
curl_multi_init(); // multi curl handler
$i =
0;
foreach($url_array as $url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // return don't
print
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE
5.01; Windows NT 5.0)');
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect
curl_setopt($ch, CURLOPT_MAXREDIRS, 7);
curl_multi_add_handle($mh, $ch); // 把 curl resource 放進 multi curl
handler 裡
$handle[$i++] = $ch;
}
do {
curl_multi_exec($mh, $running);
if ($wait_usec > 0)
usleep($wait_usec); // 250000 = 0.25 sec
} while
($running > 0);
foreach($handle as $i => $ch) {
$content = curl_multi_getcontent($ch);
$data[$i] = (curl_errno($ch) == 0) ? $content : false;
}
foreach($handle as $ch) {
curl_multi_remove_handle($mh, $ch);
}
curl_multi_close($mh);
return
$data;
}
?>
使用
<?php
$urls = array('http://example1.com', 'http://example2.com');
print_r(async_get_url($urls)); // [0] => example1,
[1] => example2
?>
測試
sleep.php # 看時間延長取得的效果
<?php
sleep(intval($_GET['time']));
echo intval($_GET['time']);
?>
<?php
$url_array = array(
'http://example.com/sleep.php?time=5',
'http://example.com/sleep.php?time=10',
'http://example.com/sleep.php?time=7',
'http://example.com/sleep.php?time=5',
);
print_r(async_get_url($url_array));
// 總花費時間會是 10 秒, 並印出 [0] => 5, [1] =>
10, [2] => 7, [3] => 5
【PHP 使用 CURL 同步抓取多個網頁】
来源:http://plog.longwin.com.tw/programming/2009/10/07/php-multi-thread-curl-2009
一般 CURL 抓網頁的方法, 是一頁一頁抓, 假設要抓 4頁, 所費時間各別是 5,10,7,5 秒, 那全部總合所花的時間就是 5
+ 10 + 7 + 5 = 27 秒.
若能同時間去抓取多個網頁, 所花費的時間 5,10,7,5 秒, 全部總合所花的時間是 10 秒.(花費最多時間的秒數)
於 JavaScript 可使用 AJAX 的 async(YAHOO.util.Connect.asyncRequest)
來達成, 於 PHP 可以用 CURL 來達成此 Multi-Threading 的效果.
官方文件: PHP: curl_multi_init
程式(async.php)
<?php
function async_get_url($url_array, $wait_usec = 0)
{
if
(!is_array($url_array))
return false;
$wait_usec = intval($wait_usec);
$data =
array();
$handle =
array();
$running =
0;
$mh =
curl_multi_init(); // multi curl handler
$i =
0;
foreach($url_array as $url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // return don't
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE
5.01; Windows NT 5.0)');
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect
curl_setopt($ch, CURLOPT_MAXREDIRS, 7);
curl_multi_add_handle($mh, $ch); // 把 curl resource 放進 multi curl
handler 裡
$handle[$i++] = $ch;
}
do {
curl_multi_exec($mh, $running);
if ($wait_usec > 0)
usleep($wait_usec); // 250000 = 0.25 sec
} while
($running > 0);
foreach($handle as $i => $ch) {
$content = curl_multi_getcontent($ch);
$data[$i] = (curl_errno($ch) == 0) ? $content : false;
}
foreach($handle as $ch) {
curl_multi_remove_handle($mh, $ch);
}
curl_multi_close($mh);
return
$data;
}
?>
使用
<?php
$urls = array('http://example1.com', 'http://example2.com');
print_r(async_get_url($urls)); // [0] => example1,
[1] => example2
?>
測試
sleep.php # 看時間延長取得的效果
<?php
sleep(intval($_GET['time']));
echo intval($_GET['time']);
?>
<?php
$url_array = array(
'http://example.com/sleep.php?time=5',
'http://example.com/sleep.php?time=10',
'http://example.com/sleep.php?time=7',
'http://example.com/sleep.php?time=5',
);
print_r(async_get_url($url_array));
// 總花費時間會是 10 秒, 並印出 [0] => 5, [1] =>
10, [2] => 7, [3] => 5
相关文章推荐
- 使用HTML5抓取&nbsp;Audio&nbsp;&amp;&nbsp;Video
- PHP使用 Sphinx 索引内…
- 在使用MyEclipse&nbsp;6中不能使用&nbsp;alt&nbsp;…
-  ; 都表示空格,但是使用有区别
- 解决php session验证码不同步问题
- 如何使用 Pie controls功能
- PHP Cookie与Session的使用与区别
- PHP使用Curl实现模拟登录及抓取数据功能示例
- WebService SOAP WSDL UDDI 使用php的curl、PHP5的SoapClient实现同步
- MongoDB定义&安装&使用&php扩展
- 把&nbsp;映射到xml中本来就该使用&#160来代替
- php&nbsp;模仿蜘蛛抓取内容并分析
- 如何使用 Pie controls功能
- 如何使用 Pie controls功能
- 使用&nbsp;jQuery&nbsp;简化&nbsp;Ajax&nbsp;开发
- PHP使用cURL抓取数据
- php使用curl抓取qq空间的访客信息示例_php技巧
- ZK 使用 ZK JspTags Q&A
- 如何使用 Pie controls功能
- php巧妙使用&符