QueryList一个基于phpQuery的无比强大的采集工具
2014-05-13 13:28
375 查看
QueryList是一个基于phpQuery的通用列表采集类,是一个简单、 灵活、强大的采集工具,采集任何复杂的页面 基本上就一句话就能搞定了。
上面的代码实现的功能是采集百度搜索结果页面的所有搜索结果的标题,然后分别以数组和JSON格式输出。
QueryList
QueryList($page,$regArr,$regRange='',$getHtmlWay="curl",$output_encoding=false)
一共有五个参数,后面三个参数是可选的
$page 要抓取的网页URL地址(默认支持https);或者是html源代码
$regArr 【选择器数组】说明:格式array("名称"=>array("选择器","类型"),.......),【类型】说明:值 "text" ,"html" ,"属性"
$regRange 【块选择器】:指 先按照规则 选出 几个大块 ,然后再分别再在块里面 进行相关的选择
$getHtmlWay 【源码获取方式】指是通过curl抓取源码,还是通过file_get_contents抓取源码,当$page参数为URL时此参数才有效
$output_encoding【输出编码格式】指要以什么编码输出(UTF-8,GB2312,.....),防止出现乱码,如果设置为 假值 则不改变原字符串编码
QueryList
得到多维数组格式的采集结果
jsonArr
QueryList
重新设置选择器
void setQuery($regArr,$regRange='')
一共两个参数,第二个参数是可选的,参数意义同构造函数。
得到JSON格式的采集结果
string getJSON()
无参,返回JSON字符串。
QueryList
phpQuery项目主页:https://code.google.com/p/phpquery/
thinkphp版本:V3.1.2
QueryList版本:V1.6
后台地址: /admin
后台账号密码: guest guest
这个demo站实现的功能相当于一个轻量级的微博站,内容全自动采集更新,可以自定义时间间隔采集任意站点的信息,自动更新到这个站点来,只需要在后台规则库简单的添加一条规则就可以实现全自动采集了,大家可以自行进入后台进行尝试,体验QueryList的魅力!
QueryList 使用
//实例化一个采集对象 $hj = new QueryList('http://www.baidu.com/s?wd=jaekj',array('title'=>array('h3','text'))); //输出结果:二维关联数组 print_r($hj->jsonArr); //输出结果:JSON数据 echo $hj->getJSON();
上面的代码实现的功能是采集百度搜索结果页面的所有搜索结果的标题,然后分别以数组和JSON格式输出。
QueryList
构造函数原型:
QueryList($page,$regArr,$regRange='',$getHtmlWay="curl",$output_encoding=false)一共有五个参数,后面三个参数是可选的
$page 要抓取的网页URL地址(默认支持https);或者是html源代码
$regArr 【选择器数组】说明:格式array("名称"=>array("选择器","类型"),.......),【类型】说明:值 "text" ,"html" ,"属性"
$regRange 【块选择器】:指 先按照规则 选出 几个大块 ,然后再分别再在块里面 进行相关的选择
$getHtmlWay 【源码获取方式】指是通过curl抓取源码,还是通过file_get_contents抓取源码,当$page参数为URL时此参数才有效
$output_encoding【输出编码格式】指要以什么编码输出(UTF-8,GB2312,.....),防止出现乱码,如果设置为 假值 则不改变原字符串编码
QueryList
属性
得到多维数组格式的采集结果jsonArr
QueryList
方法
重新设置选择器void setQuery($regArr,$regRange='')
一共两个参数,第二个参数是可选的,参数意义同构造函数。
得到JSON格式的采集结果
string getJSON()
无参,返回JSON字符串。
QueryList
依赖库
phpQuery
phpQuery项目主页:https://code.google.com/p/phpquery/
其它说明
QueryList 内置的只是简单的源码抓取方法,遇到更复杂的抓取情况,如:需要登陆 身份验证 时,请配合其它的PHP的HTTP类来使用,通过将辅助的HTTP类抓取到的网页源码传给QueryList即可。DEMO站
微动态:http://querylist.jaekj.com/thinkphp版本:V3.1.2
QueryList版本:V1.6
后台地址: /admin
后台账号密码: guest guest
这个demo站实现的功能相当于一个轻量级的微博站,内容全自动采集更新,可以自定义时间间隔采集任意站点的信息,自动更新到这个站点来,只需要在后台规则库简单的添加一条规则就可以实现全自动采集了,大家可以自行进入后台进行尝试,体验QueryList的魅力!
相关文章推荐
- QueryList是一套简洁、优雅的PHP采集工具(爬虫),基于phpQuery。
- QueryList.class.php很方便的一个采集数据工具。
- 一个基于phpQuery的php通用采集类分享
- QueryList 4.0 简洁、优雅、可扩展的PHP采集工具(爬虫)
- 无比强大的php采集类库
- 简单、 灵活、强大的PHP采集工具,让采集更简单一点。
- 分享一个强大的采集类,还可以模拟php多进程
- 交流一下大家都用什么代码管理工具?每人写一个过程,10万个人就有10万个功能,无比强大****
- 一个PHP高性能、多并发、restful的工具库(基于multi_curl)
- 一个基于phpQuery的php通用采集类分享
- 自己写的一个php基于phpQuery的通用采集类
- 工作记录:html网页采集利器:simple_html_dom,phpQuery
- [乐意黎]phpQuery采集微信公众号文章乱码
- php一个简单的测试工具simpletest
- 一个强大的LogParser的UI工具--日志分析工具
- 一个基于php,js的文件在线管理软件
- 推荐给大家一个php代码格式化在线工具
- 基于mina实现一个简单数据采集中间件的多客户端在线测试程序
- 一个强大的LogParser的UI工具--logparserlizard简介
- 一个强大的LogParser的UI工具--logparserlizard简介