搜索引擎爬虫蜘蛛的User-Agent
2011-12-28 11:20
429 查看
搜索引擎爬虫蜘蛛的User-Agent收集
百度爬虫* Baiduspider+(+http://www.baidu.com/search/spider.htm”)
google爬虫
* Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
* Googlebot/2.1 (+http://www.googlebot.com/bot.html)
* Googlebot/2.1 (+http://www.google.com/bot.html)
雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
*Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
*Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
新浪爱问爬虫
*iaskspider/2.0(+http://iask.com/help/help_index.html”)
*Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫
*Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
*Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
网易爬虫
*Mozilla/5.0 (compatible; YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)
MSN爬虫
*msnbot/1.0 (+http://search.msn.com/msnbot.htm)
===================================================================================
1、常规爬虫信息,需要放开让他们获取网页信息
Googlebot,Baiduspider,Yahoo,bingbot,Sosospider,YandexBot,msnbot,NaverBot
相关文章推荐
- 搜索引擎爬虫蜘蛛的User-Agent收集
- 搜索引擎爬虫蜘蛛的User-Agent收集
- 搜索引擎爬虫蜘蛛的User-Agent收集
- 第三百四十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过downloadmiddleware中间件全局随机更换user-agent浏览器用户代理
- PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT
- PHP屏蔽蜘蛛访问代码及常用搜索引擎的HTTP_USER_AGENT
- 爬虫-利用urllib爬去网页增加user_agent和proxy(Python)
- 准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求
- robot.txt 搜索引擎 蜘蛛爬虫 搜索规则
- 网络爬虫八-处理user-agent
- Nginx屏蔽个别User-Agent蜘蛛访问网站的方法
- Scrapy爬虫系列笔记之九:反爬虫之Useragent设置以及开源项目的结合_by_书訢
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- 爬虫知识5:常见反爬虫机制——User-Agent和代理IP设置
- 搜索引擎爬虫蜘蛛的UserAgent收集
- 搜索引擎user-agent
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫
- py3 爬虫设置user-agent
- Apache2.4使用require指令进行访问控制--允许或限制IP访问/通过User-Agent禁止不友好网络爬虫 从Apache2.2升级到Apache2.4后,发现原来用来限制部分I
- Apache2.4使用require指令进行访问控制–允许或限制IP访问/通过User-Agent禁止不友好网络爬虫