您的位置:首页 > 编程语言 > PHP开发

snoopy(强大的PHP采集类) 实例应用

2010-12-09 16:40 465 查看
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。

下载地址:http://sourceforge.net/project/showfiles.php?group_id=2091

Snoopy的一些特点:

1抓取网页的内容fetch
2抓取网页的文本内容(去除HTML标签)fetchtext
3抓取网页的链接,表单fetchlinksfetchform
4支持代理主机
5支持基本的用户名/密码验证
6支持设置user_agent,referer(来路),cookies和headercontent(头文件)
7支持浏览器重定向,并能控制重定向深度
8能把网页中的链接扩展成高质量的url(默认)
9提交数据并且获取返回值
10支持跟踪HTML框架
11支持重定向的时候传递cookies
要求php4以上就可以了由于本身是php一个类无需扩支持服务器不支持curl时候的最好选择,

类方法:

fetch($URI)
———–

这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在$this->results中。
如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入$this->results。

fetchtext($URI)
—————

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。

fetchform($URI)
—————

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。

fetchlinks($URI)
—————-

本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

submit($URI,$formvars)
———————-

本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。

submittext($URI,$formvars)
————————–

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。

submitlinks($URI)
—————-

本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。

类属性:(缺省值在括号里)

$host连接的主机
$port连接的端口
$proxy_host使用的代理主机,如果有的话
$proxy_port使用的代理主机端口,如果有的话
$agent用户代理伪装(Snoopyv0.1)
$referer来路信息,如果有的话
$cookiescookies,如果有的话
$rawheaders其他的头信息,如果有的话
$maxredirs最大重定向次数,0=不允许(5)
$offsiteokwhetherornottoallowredirectsoff-site.(true)
$expandlinks是否将链接都补全为完整地址(true)
$user认证用户名,如果有的话
$pass认证用户名,如果有的话
$accepthttp接受类型(image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
$error哪里报错,如果有的话
$response_code从服务器返回的响应代码
$headers从服务器返回的头信息
$maxlength最长返回数据长度
$read_timeout读取操作超时(requiresPHP4Beta4+)
设置为0为没有超时
$timed_out如果一次读取操作超时了,本属性返回true(requiresPHP4Beta4+)
$maxframes允许追踪的框架最大数量
$status抓取的http的状态
$temp_dir网页服务器能够写入的临时文件目录(/tmp)
$curl_pathcURLbinary的目录,如果没有cURLbinary就设置为false

以下是demo

01
include
"Snoopy.class.php"
;
02
$snoopy
=
new
Snoopy;
03
04
$snoopy
->proxy_host=
"http://www.4wei.cn"
;
05
$snoopy
->proxy_port=
"80"
;
06
07
$snoopy
->agent=
"(compatible;MSIE4.01;MSN2.5;AOL4.0;Windows98)"
;
08
$snoopy
->referer=
"http://www.4wei.cn"
;
09
10
$snoopy
->cookies[
"SessionID"
]=238472834723489l;
11
$snoopy
->cookies[
"favoriteColor"
]=
"RED"
;
12
13
$snoopy
->rawheaders[
"Pragma"
]=
"no-cache"
;
14
15
$snoopy
->maxredirs=2;
16
$snoopy
->offsiteok=false;
17
$snoopy
->expandlinks=false;
18
19
$snoopy
->user=
"joe"
;
20
$snoopy
->pass=
"bloe"
;
21
22
if
(
$snoopy
->fetchtext(
"http://www.4wei.cn"
))
23
{
24
echo
"<PRE>"
.htmlspecialchars(
$snoopy
->results).
"</PRE>\n"
;
25
}
26
else
27
echo
"errorfetchingdocument:"
.
$snoopy
->error.
"\n"
;
以下是一些代码片段:
1获取指定url内容

01
<?
02
$url
=
"http://www.4wei.cn"
;
03
include
(
"snoopy.php"
);
04
$snoopy
=
new
Snoopy;
05
$snoopy
->fetch(
$url
);
//获取所有内容
06
echo
$snoopy
->results;
//显示结果
07
//可选以下
08
$snoopy
->fetchtext
//获取文本内容(去掉html代码)
09
$snoopy
->fetchlinks
//获取链接
10
$snoopy
->fetchform
//获取表单
11
?>
2表单提交

01
<?php
02
$formvars
[
"username"
]=
"admin"
;
03
$formvars
[
"pwd"
]=
"admin"
;
04
$action
=
"http://www.4wei.cn"
;//</a>表单提交地址
05
$snoopy
->submit(
$action
,
$formvars
);
//$formvars为提交的数组
06
echo
$snoopy
->results;
//获取表单提交后的返回的结果
07
//可选以下
08
$snoopy
->submittext;
//提交后只返回去除html的文本
09
$snoopy
->submitlinks;
//提交后只返回链接
10
?>
既然已经提交的表单那就可以做很多事情接下来我们来伪装ip,伪装浏览器

3伪装

01
<?php
02
$formvars
[
"username"
]=
"admin"
;
03
$formvars
[
"pwd"
]=
"admin"
;
04
$action
=
"http://www.4wei.cn"
;
05
include
"snoopy.php"
;
06
$snoopy
=
new
Snoopy;
07
$snoopy
->cookies[
"PHPSESSID"
]=
'fc106b1918bd522cc863f36890e6fff7'
;
//伪装sessionid
08
$snoopy
->agent=
"(compatible;MSIE4.01;MSN2.5;AOL4.0;Windows98)"
;
//伪装浏览器
09
$snoopy
->referer=http:
//www.4wei.cn;//伪装来源页地址http_referer
10
$snoopy
->rawheaders[
"Pragma"
]=
"no-cache"
;
//cache的http头信息
11
$snoopy
->rawheaders[
"X_FORWARDED_FOR"
]=
"127.0.0.101"
;
//伪装ip
12
$snoopy
->submit(
$action
,
$formvars
);
13
echo
$snoopy
->results;
14
?>
原来我们可以伪装session伪装浏览器,伪装ip,haha可以做很多事情了。
例如带验证码,验证ip投票,可以不停的投。
ps:这里伪装ip,其实是伪装http头,所以一般的通过REMOTE_ADDR获取的ip是伪装不了,
反而那些通过http头来获取ip的(可以防止代理的那种)就可以自己来制造ip。
关于如何验证码,简单说下:
首先用普通的浏览器,查看页面,找到验证码所对应的sessionid,
同时记下sessionid和验证码值,
接下来就用snoopy去伪造。
原理:由于是同一个sessionid所以取得的验证码和第一次输入的是一样的。

4有时我们可能需要伪造更多的东西,snoopy完全为我们想到了

01
<?php
02
$snoopy
->proxy_host=
"http://www.4wei.cn"
;
03
$snoopy
->proxy_port=
"8080"
;
//使用代理
04
$snoopy
->maxredirs=2;
//重定向次数
05
$snoopy
->expandlinks=true;
//是否补全链接在采集的时候经常用到
06
//例如链接为/images/taoav.gif可改为它的全链接<ahref="http://www.4wei.cn/images/taoav.gif">http://www.4wei.cn/images/taoav.gif</a>
07
$snoopy
->maxframes=5
//允许的最大框架数
08
//注意抓取框架的时候$snoopy->results返回的是一个数组
09
$snoopy
->error
//返回报错信息
10
?>
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: