教育网中Nutch如何抓取国外网站
2009-10-20 11:32
190 查看
对于大多数教育网中的用户,都是不可以直接上国外网站的(主要由于学校封锁),一定要上的话也只能通过代理。今天我需要抓取一些国外的网站,但发现全部都抓取不成功。经过检查发现需要设置代理,具体设置方法如下:
在/conf/nutch-site.xml中添加如下内容:
<property>
<name>http.proxy.host</name>
<value>***.***.***.***</value>
<description>The proxy hostname. If empty, no proxy is used.</description>
</property>
<property>
<name>http.proxy.port</name>
<value>8080</value>
<description>The proxy port.</description>
</property>
<property>
<name>http.proxy.username</name>
<value></value>
<description>Username for proxy. This will be used by
'protocol-httpclient', if the proxy server requests basic, digest
and/or NTLM authentication. To use this, 'protocol-httpclient' must
be present in the value of 'plugin.includes' property.
NOTE: For NTLM authentication, do not prefix the username with the
domain, i.e. 'susam' is correct whereas 'DOMAIN/susam' is incorrect.
</description>
</property>
在/conf/nutch-site.xml中添加如下内容:
<property>
<name>http.proxy.host</name>
<value>***.***.***.***</value>
<description>The proxy hostname. If empty, no proxy is used.</description>
</property>
<property>
<name>http.proxy.port</name>
<value>8080</value>
<description>The proxy port.</description>
</property>
<property>
<name>http.proxy.username</name>
<value></value>
<description>Username for proxy. This will be used by
'protocol-httpclient', if the proxy server requests basic, digest
and/or NTLM authentication. To use this, 'protocol-httpclient' must
be present in the value of 'plugin.includes' property.
NOTE: For NTLM authentication, do not prefix the username with the
domain, i.e. 'susam' is correct whereas 'DOMAIN/susam' is incorrect.
</description>
</property>
相关文章推荐
- 如何用Python去实现抓取静态网页+抓取动态网页+模拟登陆网站
- 天下数据支招如何安全迁移网站到国外服务器
- Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
- 如何禁止搜索引擎爬虫(Spider)抓取网站页面
- Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
- 如何选择免费网站监测工具?国外mon.itor.us还是国内监控宝!
- 如何用Python,C#等语言去实现抓取静态网页+抓取动态网页+模拟登陆网站
- nutch2.1抓取中文网站
- [经验小谈] 如何在国内上国外网站?
- 国外遥感影像如何下载之利用USGS网站影像下载无需JAVA
- 关于windows下Nutch 2.2+MySQL实现网站内容的抓取的搭建步骤
- Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
- 如何让你的网站符合搜索抓取习惯
- 如何在网站集成Payssion的国外支付方式?
- 解析百度蜘蛛如何抓取网站和提高抓取频率
- 网站优化中如何提高搜索引擎的抓取频次
- 如何实现抓取网站访客手机号的功能