解决php无法通过file_get_contents或curl采集页面内容
2016-12-05 23:01
756 查看
在php中经常用到的采集函数就是file_get_contents和curl函数。php在用file_get_contents函数采集网站时会返回false,但是在浏览
器里打开连接地址就可以看到网页内容。
这是因为服务器上做了设置,通过php $_SERVER["HTTP_USER_AGENT"]获取 User_agent判断是否为正常的浏览器请求 ,因为默认php的
file_get_contents函数是不发送User_agent的。
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器
及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER
["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。
解决这个问题有2种方法
1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;
2、通过php的ini_set()方法设置用户代理。
实例如下
ini_set(‘user_agent’,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)’);
echo file_get_contents(‘你想要采集的页面url’);
通过上面2种方法就可以让$_SERVER["HTTP_USER_AGENT"]的值不为空,就可以顺利的采集到你想要的内容。
注意:在设置user_agent的时候,最好使用浏览器的版本或者蜘蛛,像我上面设置的是火狐的,这样被采集的服务器就会正常的通过认
证。因为服务器不会屏蔽蜘蛛或者浏览器的版本的,这个问题你应该清楚吧,哈哈。如果他要是把这个也屏蔽了的话,那就是不让蜘蛛
抓取页面,也无法识别用户使用的浏览器里。
器里打开连接地址就可以看到网页内容。
这是因为服务器上做了设置,通过php $_SERVER["HTTP_USER_AGENT"]获取 User_agent判断是否为正常的浏览器请求 ,因为默认php的
file_get_contents函数是不发送User_agent的。
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器
及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
我通过测试,在要抓取的页面输出变量$_SERVER["HTTP_USER_AGENT"]为空。这样在被抓取的服务器通过php来获取$_SERVER
["HTTP_USER_AGENT"]的值,如果为空的话,就跳转到404错误页面,这样就无法抓取到页面信息。
解决这个问题有2种方法
1、设置php.ini配置文件,找到user_agent这个开启,把前面的分号去掉;
2、通过php的ini_set()方法设置用户代理。
实例如下
ini_set(‘user_agent’,'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; SV1; .NET CLR 1.1.4322)’);
echo file_get_contents(‘你想要采集的页面url’);
通过上面2种方法就可以让$_SERVER["HTTP_USER_AGENT"]的值不为空,就可以顺利的采集到你想要的内容。
注意:在设置user_agent的时候,最好使用浏览器的版本或者蜘蛛,像我上面设置的是火狐的,这样被采集的服务器就会正常的通过认
证。因为服务器不会屏蔽蜘蛛或者浏览器的版本的,这个问题你应该清楚吧,哈哈。如果他要是把这个也屏蔽了的话,那就是不让蜘蛛
抓取页面,也无法识别用户使用的浏览器里。
相关文章推荐
- 解决PHP无法通过file_get_contents或curl采集页面内容
- 解决php无法通过file_get_contents或curl采集页面内容
- PHP下通过file_get_contents\curl的方法实现获取远程网页内容(别忘了还有PhpRPC)
- file_get_contents无法请求https连接的解决方法 php开启curl
- file_get_contents采集获取不到内容时用curl解决
- PHP无法使用file_get_contents或者curl_init()函数解决办法
- php 调试微信接口时curl无返回值,file_get_contents有返回值的解决方法
- windows nginx使用file_get_contents、fopen、curl访问php文件造成阻塞的解决办法
- PHP使用file_put_contents写入文件file_get_contents采集内容
- PHP下通过file_get_contents()方法不能正常获取远程网页内容
- php 两种方法获取url内容 file_get_contents和curl
- PHP使用file_get_contents或curl请求https的域名内容为空或Http 505错误的问题排查方法
- file_get_contents无法请求https连接的解决方法
- 解析PHP中的file_get_contents获取远程页面乱码的问题
- 通过Curl、socket、file_get_contents三种方法使用POST提交数据
- php fopen,file_get_contents,curl的区别
- php下curl与file_get_contents性能对比
- file_get_contents获取不到网页内容的解决方法
- file_get_contents获取不到网页内容的解决方法
- PHP中curl_init和file_get_contents配合使用