snoopy(强大的PHP采集类) 实例应用
2010-12-09 16:40
465 查看
Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单。
下载地址:http://sourceforge.net/project/showfiles.php?group_id=2091
Snoopy的一些特点:
1抓取网页的内容fetch
2抓取网页的文本内容(去除HTML标签)fetchtext
3抓取网页的链接,表单fetchlinksfetchform
4支持代理主机
5支持基本的用户名/密码验证
6支持设置user_agent,referer(来路),cookies和headercontent(头文件)
7支持浏览器重定向,并能控制重定向深度
8能把网页中的链接扩展成高质量的url(默认)
9提交数据并且获取返回值
10支持跟踪HTML框架
11支持重定向的时候传递cookies
要求php4以上就可以了由于本身是php一个类无需扩支持服务器不支持curl时候的最好选择,
类方法:
fetch($URI)
———–
这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在$this->results中。
如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入$this->results。
fetchtext($URI)
—————
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。
fetchform($URI)
—————
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。
fetchlinks($URI)
—————-
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
submit($URI,$formvars)
———————-
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。
submittext($URI,$formvars)
————————–
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。
submitlinks($URI)
—————-
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
类属性:(缺省值在括号里)
$host连接的主机
$port连接的端口
$proxy_host使用的代理主机,如果有的话
$proxy_port使用的代理主机端口,如果有的话
$agent用户代理伪装(Snoopyv0.1)
$referer来路信息,如果有的话
$cookiescookies,如果有的话
$rawheaders其他的头信息,如果有的话
$maxredirs最大重定向次数,0=不允许(5)
$offsiteokwhetherornottoallowredirectsoff-site.(true)
$expandlinks是否将链接都补全为完整地址(true)
$user认证用户名,如果有的话
$pass认证用户名,如果有的话
$accepthttp接受类型(image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
$error哪里报错,如果有的话
$response_code从服务器返回的响应代码
$headers从服务器返回的头信息
$maxlength最长返回数据长度
$read_timeout读取操作超时(requiresPHP4Beta4+)
设置为0为没有超时
$timed_out如果一次读取操作超时了,本属性返回true(requiresPHP4Beta4+)
$maxframes允许追踪的框架最大数量
$status抓取的http的状态
$temp_dir网页服务器能够写入的临时文件目录(/tmp)
$curl_pathcURLbinary的目录,如果没有cURLbinary就设置为false
以下是demo
以下是一些代码片段:
1获取指定url内容
2表单提交
既然已经提交的表单那就可以做很多事情接下来我们来伪装ip,伪装浏览器
3伪装
原来我们可以伪装session伪装浏览器,伪装ip,haha可以做很多事情了。
例如带验证码,验证ip投票,可以不停的投。
ps:这里伪装ip,其实是伪装http头,所以一般的通过REMOTE_ADDR获取的ip是伪装不了,
反而那些通过http头来获取ip的(可以防止代理的那种)就可以自己来制造ip。
关于如何验证码,简单说下:
首先用普通的浏览器,查看页面,找到验证码所对应的sessionid,
同时记下sessionid和验证码值,
接下来就用snoopy去伪造。
原理:由于是同一个sessionid所以取得的验证码和第一次输入的是一样的。
4有时我们可能需要伪造更多的东西,snoopy完全为我们想到了
下载地址:
Snoopy的一些特点:
1抓取网页的内容fetch
2抓取网页的文本内容(去除HTML标签)fetchtext
3抓取网页的链接,表单fetchlinksfetchform
4支持代理主机
5支持基本的用户名/密码验证
6支持设置user_agent,referer(来路),cookies和headercontent(头文件)
7支持浏览器重定向,并能控制重定向深度
8能把网页中的链接扩展成高质量的url(默认)
9提交数据并且获取返回值
10支持跟踪HTML框架
11支持重定向的时候传递cookies
要求php4以上就可以了由于本身是php一个类无需扩支持服务器不支持curl时候的最好选择,
类方法:
fetch($URI)
———–
这是为了抓取网页的内容而使用的方法。
$URI参数是被抓取网页的URL地址。
抓取的结果被存储在$this->results中。
如果你正在抓取的是一个框架,Snoopy将会将每个框架追踪后存入数组中,然后存入$this->results。
fetchtext($URI)
—————
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中的文字内容。
fetchform($URI)
—————
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中表单内容(form)。
fetchlinks($URI)
—————-
本方法类似于fetch(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
submit($URI,$formvars)
———————-
本方法向$URL指定的链接地址发送确认表单。$formvars是一个存储表单参数的数组。
submittext($URI,$formvars)
————————–
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回登陆后网页中的文字内容。
submitlinks($URI)
—————-
本方法类似于submit(),唯一不同的就是本方法会去除HTML标签和其他的无关数据,只返回网页中链接(link)。
默认情况下,相对链接将自动补全,转换成完整的URL。
类属性:(缺省值在括号里)
$host连接的主机
$port连接的端口
$proxy_host使用的代理主机,如果有的话
$proxy_port使用的代理主机端口,如果有的话
$agent用户代理伪装(Snoopyv0.1)
$referer来路信息,如果有的话
$cookiescookies,如果有的话
$rawheaders其他的头信息,如果有的话
$maxredirs最大重定向次数,0=不允许(5)
$offsiteokwhetherornottoallowredirectsoff-site.(true)
$expandlinks是否将链接都补全为完整地址(true)
$user认证用户名,如果有的话
$pass认证用户名,如果有的话
$accepthttp接受类型(image/gif,image/x-xbitmap,image/jpeg,image/pjpeg,*/*)
$error哪里报错,如果有的话
$response_code从服务器返回的响应代码
$headers从服务器返回的头信息
$maxlength最长返回数据长度
$read_timeout读取操作超时(requiresPHP4Beta4+)
设置为0为没有超时
$timed_out如果一次读取操作超时了,本属性返回true(requiresPHP4Beta4+)
$maxframes允许追踪的框架最大数量
$status抓取的http的状态
$temp_dir网页服务器能够写入的临时文件目录(/tmp)
$curl_pathcURLbinary的目录,如果没有cURLbinary就设置为false
以下是demo
01 | include "Snoopy.class.php" ; |
02 | $snoopy = new Snoopy; |
03 |
04 | $snoopy ->proxy_host= "http://www.4wei.cn" ; |
05 | $snoopy ->proxy_port= "80" ; |
06 |
07 | $snoopy ->agent= "(compatible;MSIE4.01;MSN2.5;AOL4.0;Windows98)" ; |
08 | $snoopy ->referer= "http://www.4wei.cn" ; |
09 |
10 | $snoopy ->cookies[ "SessionID" ]=238472834723489l; |
11 | $snoopy ->cookies[ "favoriteColor" ]= "RED" ; |
12 |
13 | $snoopy ->rawheaders[ "Pragma" ]= "no-cache" ; |
14 |
15 | $snoopy ->maxredirs=2; |
16 | $snoopy ->offsiteok=false; |
17 | $snoopy ->expandlinks=false; |
18 |
19 | $snoopy ->user= "joe" ; |
20 | $snoopy ->pass= "bloe" ; |
21 |
22 | if ( $snoopy ->fetchtext( "http://www.4wei.cn" )) |
23 | { |
24 | echo "<PRE>" .htmlspecialchars( $snoopy ->results). "</PRE>\n" ; |
25 | } |
26 | else |
27 | echo "errorfetchingdocument:" . $snoopy ->error. "\n" ; |
1获取指定url内容
01 | <? |
02 | $url = "http://www.4wei.cn" ; |
03 | include ( "snoopy.php" ); |
04 | $snoopy = new Snoopy; |
05 | $snoopy ->fetch( $url ); //获取所有内容 |
06 | echo $snoopy ->results; //显示结果 |
07 | //可选以下 |
08 | $snoopy ->fetchtext //获取文本内容(去掉html代码) |
09 | $snoopy ->fetchlinks //获取链接 |
10 | $snoopy ->fetchform //获取表单 |
11 | ?> |
01 | <?php |
02 | $formvars [ "username" ]= "admin" ; |
03 | $formvars [ "pwd" ]= "admin" ; |
04 | $action = "http://www.4wei.cn" ;//</a>表单提交地址 |
05 | $snoopy ->submit( $action , $formvars ); //$formvars为提交的数组 |
06 | echo $snoopy ->results; //获取表单提交后的返回的结果 |
07 | //可选以下 |
08 | $snoopy ->submittext; //提交后只返回去除html的文本 |
09 | $snoopy ->submitlinks; //提交后只返回链接 |
10 | ?> |
3伪装
01 | <?php |
02 | $formvars [ "username" ]= "admin" ; |
03 | $formvars [ "pwd" ]= "admin" ; |
04 | $action = "http://www.4wei.cn" ; |
05 | include "snoopy.php" ; |
06 | $snoopy = new Snoopy; |
07 | $snoopy ->cookies[ "PHPSESSID" ]= 'fc106b1918bd522cc863f36890e6fff7' ; //伪装sessionid |
08 | $snoopy ->agent= "(compatible;MSIE4.01;MSN2.5;AOL4.0;Windows98)" ; //伪装浏览器 |
09 | $snoopy ->referer=http: //www.4wei.cn;//伪装来源页地址http_referer |
10 | $snoopy ->rawheaders[ "Pragma" ]= "no-cache" ; //cache的http头信息 |
11 | $snoopy ->rawheaders[ "X_FORWARDED_FOR" ]= "127.0.0.101" ; //伪装ip |
12 | $snoopy ->submit( $action , $formvars ); |
13 | echo $snoopy ->results; |
14 | ?> |
例如带验证码,验证ip投票,可以不停的投。
ps:这里伪装ip,其实是伪装http头,所以一般的通过REMOTE_ADDR获取的ip是伪装不了,
反而那些通过http头来获取ip的(可以防止代理的那种)就可以自己来制造ip。
关于如何验证码,简单说下:
首先用普通的浏览器,查看页面,找到验证码所对应的sessionid,
同时记下sessionid和验证码值,
接下来就用snoopy去伪造。
原理:由于是同一个sessionid所以取得的验证码和第一次输入的是一样的。
4有时我们可能需要伪造更多的东西,snoopy完全为我们想到了
01 | <?php |
02 | $snoopy ->proxy_host= "http://www.4wei.cn" ; |
03 | $snoopy ->proxy_port= "8080" ; //使用代理 |
04 | $snoopy ->maxredirs=2; //重定向次数 |
05 | $snoopy ->expandlinks=true; //是否补全链接在采集的时候经常用到 |
06 | //例如链接为/images/taoav.gif可改为它的全链接<ahref="http://www.4wei.cn/images/taoav.gif">http://www.4wei.cn/images/taoav.gif</a> |
07 | $snoopy ->maxframes=5 //允许的最大框架数 |
08 | //注意抓取框架的时候$snoopy->results返回的是一个数组 |
09 | $snoopy ->error //返回报错信息 |
10 | ?> |
相关文章推荐
- snoopy(强大的PHP采集类) 实例应用
- snoopy(强大的PHP采集类) 实例应用
- PHP采集类Snoopy抓取图片实例
- snoopy(强大的PHP采集类) 详细介绍
- PHP采集类Snoopy抓取图片实例
- snoopy 强大的PHP采集类使用实例代码
- snoopy 强大的PHP采集类使用实例代码
- snoopy(强大的PHP采集类) 详细介绍
- snoopy(强大的PHP采集类) 详细介绍
- snoopy(强大的PHP采集类) 详细介绍
- snoopy 强大的PHP采集类使用实例代码
- 50多个强大的jQuery插件应用实例
- PHP文件读取功能的应用实例
- php cookie应用实例--登录验证
- php与mysql应用实例:留言本
- PHP抓取采集类snoopy介绍
- PHP中CURL的几个经典应用实例
- PHP采集类snoopy详细介绍(snoopy使用教程)
- PHP中实现汉字转区位码应用源码实例解析
- PHP与MongoDB简介|安全|M+PHP应用实例详解