抓取网页碰到500错误时:User Agent
2013-12-18 09:54
127 查看
当你写蜘蛛程序的时候,会发现很多网页会碰到500错误,这个问题我初次碰到,把我好折磨,好不容易解决了,原来如此简单。
当使用
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
url.openStream() 时候发现报403访问拒绝错误,是由于谷歌对java 程序进行限制,缺少Agent。
解决办法:
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
URLConnection con = url.openConnection();
con.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
InputStream in = con.getInputStream();
当使用
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
url.openStream() 时候发现报403访问拒绝错误,是由于谷歌对java 程序进行限制,缺少Agent。
解决办法:
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
URLConnection con = url.openConnection();
con.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
InputStream in = con.getInputStream();
private static Document getURLContent() throws MalformedURLException, IOException, UnsupportedEncodingException { Document doc = Jsoup.connect("http://www.tudou.com/programs/view/pVploWOtCQM/") .data("query", "Java") .userAgent("Mozilla") .cookie("auth", "token") .timeout(3000) .post(); return doc; } 在写爬虫的时候经常会遇到有些页面下载下来会有问题,如果你把请求模拟成和浏览器一样,肯定是可以把页面正确获取的,但是其中往往很多参数都没有什么用,真正影响的就几个关键参数。这里特别把自己的经验做一下总结。 重点需要关注的参数有: 1. url: 这主要就是URL编码会导致问题,在URL中包含中文的时候可能会出现 2. user-agent: 大网站通常会对不同的浏览器做优化,所以会有区别 3. cookie: 有些网站会用到cookie信息,比如有些网站会把session信息记录在cookie中 4. refer: 有些网站为了防止跨站攻击,会对refer的页面进行检查 5. accept-charset和accept-encoding: 个别网站会对接收的编码会有特殊处理 6. sessionID: 这个有时会设在参数中,有些网站会用到这个值,当然还有其他参数可能会有用到。 上面都是经验之谈,希望能对大家有所帮助。
原文地址:http://www.zhizhihu.com/html/y2011/3058.html
相关文章推荐
- python使用自定义user-agent抓取网页的方法
- 教你用User Agent Switcher火狐插件在电脑上浏览手机版网页
- php的扩展curl抓取网页时发生500错误
- Scrapy在采集网页时使用随机user-agent
- 电脑端浏览器 以手机 mobile 形式 加载网页 可以安装插件 User Agent Switcher
- python 抓取request信息,各种cookie,user-agent类的信息,只调试到http可以抓取,https貌似不行。
- scrapy在采集网页时使用随机user-agent的方法
- scrapy在爬取网页时使用随机user-agent方法
- 获取网页内容---"User-Agent"
- 爬虫-利用urllib爬去网页增加user_agent和proxy(Python)
- 网页爬虫常用user-agent数组(适合各种语言使用)
- User-Agent html(将数据以网页形式展示) 文件夹 join() 打包
- 使用navigator.userAgent.toLowerCase()判断浏览器的类型
- Python之抓取动态网页
- [Python]网络爬虫(一):抓取网页的含义和URL基本构成
- Apache 禁止指定user_agent(防止爬虫扒取)
- c#多线程抓取网页内容
- js前端抓取网页图标
- 如何抓取网页数据、分析并且去除Html标签C#(转载)
- 一、使用 BeautifulSoup抓取网页信息信息