php 采集新闻网站示例
2016-01-11 10:03
555 查看
function site() {
ini_set('memory_limit', '512M');
ini_set('max_execution_time', 360);
// phpinfo();
$connect = mysql_connect('localhost', 'root', '123456') or die('Not connected : ' . mysql_error());
// make foo the current db
mysql_select_db('crawl', $connect) or die('Can\'t use foo : ' . mysql_error());
$site_url = 'http://itjuzi.com/investfirm';
for($i = 313; $i>0; $i--) {
if($i%10==0){
sleep(5);
}
echo 'page = ' . $i . '<br/>';
$data = file_get_contents($site_url . '?page=' . $i);
preg_match_all('/(detail-info\"\>[(\s\S)]*<li>)(.*)(<\/li>[(\s\S)]*<\/ul>)/Uis', $data, $matches, PREG_PATTERN_ORDER);
if(!isset($matches[0]) || !$matches[0]) {
echo 'current page. ' . $page . ' , finished';
exit();
}
foreach($matches[0] as $key => $val) {
$val = str_replace('detail-info">', '', $val);
$val = str_replace('</ul>', '', $val);
preg_match_all('/<li>(.*)<\/li>/iUs', $val, $_matches, PREG_PATTERN_ORDER);
$arr = array();
foreach($_matches[1] as $items) {
$field = preg_replace('/名称: |网址: |阶段: |领域: |介绍: /', '', strip_tags($items));
array_push($arr, $field);
}
$mdata = array(
'name' => $arr[0],
'site' => $arr[1],
'stage' => $arr[2],
'scopes' => $arr[3],
'description' => $arr[4]
);
$_mdata = array_keys($mdata
4000
);
$sql = 'insert into `crawl` (`' . implode('`,`', $_mdata) . '`) VALUES (\'' . implode('\',\'', $mdata) . '\')';
mysql_query('set names utf8');
$result = mysql_query($sql);
echo $sql;
echo '<br/>';
}
var_dump($result);
//echo $sql;
}
exit();
//dump($data);
}
ini_set('memory_limit', '512M');
ini_set('max_execution_time', 360);
// phpinfo();
$connect = mysql_connect('localhost', 'root', '123456') or die('Not connected : ' . mysql_error());
// make foo the current db
mysql_select_db('crawl', $connect) or die('Can\'t use foo : ' . mysql_error());
$site_url = 'http://itjuzi.com/investfirm';
for($i = 313; $i>0; $i--) {
if($i%10==0){
sleep(5);
}
echo 'page = ' . $i . '<br/>';
$data = file_get_contents($site_url . '?page=' . $i);
preg_match_all('/(detail-info\"\>[(\s\S)]*<li>)(.*)(<\/li>[(\s\S)]*<\/ul>)/Uis', $data, $matches, PREG_PATTERN_ORDER);
if(!isset($matches[0]) || !$matches[0]) {
echo 'current page. ' . $page . ' , finished';
exit();
}
foreach($matches[0] as $key => $val) {
$val = str_replace('detail-info">', '', $val);
$val = str_replace('</ul>', '', $val);
preg_match_all('/<li>(.*)<\/li>/iUs', $val, $_matches, PREG_PATTERN_ORDER);
$arr = array();
foreach($_matches[1] as $items) {
$field = preg_replace('/名称: |网址: |阶段: |领域: |介绍: /', '', strip_tags($items));
array_push($arr, $field);
}
$mdata = array(
'name' => $arr[0],
'site' => $arr[1],
'stage' => $arr[2],
'scopes' => $arr[3],
'description' => $arr[4]
);
$_mdata = array_keys($mdata
4000
);
$sql = 'insert into `crawl` (`' . implode('`,`', $_mdata) . '`) VALUES (\'' . implode('\',\'', $mdata) . '\')';
mysql_query('set names utf8');
$result = mysql_query($sql);
echo $sql;
echo '<br/>';
}
var_dump($result);
//echo $sql;
}
exit();
//dump($data);
}
相关文章推荐
- 一个关于if else容易迷惑的问题
- PHP5.2.*防止Hash冲突拒绝服务攻击的Patch
- 深入理解PHP之匿名函数
- JSP/PHP基于Ajax的分页功能实现
- 关于PHP通过PDO用中文条件查询MySQL的问题。
- 什么是设计模式
- PHP数据库长连接mysql_pconnect的细节
- Php Installing An Expansion
- PHP+Apache在Windows 9x下的安装和配置
- IIS 6 的 PHP 最佳配置方法
- 安装Apache和PHP的一些补充
- Linux Apache+MySQL+PHP
- 建立Apache+PHP+MySQL数据库驱动的动态网站
- PHP 5.3.0 安装分析心得
- apache 环境下 php 的配置注意事项
- ASP.NET、ASP、PHP、JSP之间有什么区别?
- PHP VBS JS 函数 对照表
- C语言实现的统计php代码行数功能源码(支持文件夹、多目录)
- php xml 入门学习资料