爬虫-爬取代理ip网页里的ip
2017-05-31 09:18
239 查看
思想:先打开url,获取其html然后下载出网页中符合正则表达式的ip
import urllib.request import re def open_url(url): req=urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36') page=urllib.request.urlopen(req) html=page.read().decode('utf-8') return html def get_ip(html): p=r'(?:(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])\.){3}(?:[0,1]?\d?\d|2[0-4]\d|25[0-5])' #p=r'<img class="BDE_Image" pic_type="0" width="500" height="375" src="[^"]+\.jpg"' iplist=re.findall(p,html) for each in iplist: print(each) if __name__=='__main__': url="http://www.proxy360.cn/default.aspx" html=open_url(url) get_ip(html)
相关文章推荐
- python3实现网络爬虫(7)-- 使用ip代理抓取网页
- Python实现爬虫设置代理IP和伪装成浏览器的方法分享
- 【Python3.6爬虫学习记录】(十一)使用代理IP及用多线程测试IP可用性--刷访问量
- C#多线程爬虫抓取免费代理IP
- 小项目-数据爬取篇:scrapy框架,手机网页,工作信息存入MongoDB,代理ip中间件
- Python:爬虫使用代理防封IP:HTTP Error 403: Forbidden
- scrapy爬虫代理——利用crawlera神器,无需再寻找代理IP
- 关于爬虫IP代理以及日常维护
- 爬虫-ip代理
- 爬虫实战----从免费IP代理网站获取连接率较好的可用IP
- Scrapy爬虫:代理IP配置
- python爬虫的代理IP设置
- 爬虫代理ip设置
- Java爬虫爬取代理ip
- Python3 爬虫使用User Agent和代理IP隐藏身份
- Jsoup使用代理ip爬虫
- python3使用代理ip伪装爬虫访问网站
- Python开发中爬虫使用代理proxy抓取网页的方法示例
- 网络爬虫爬取全国省市区(动态ip代理的获取,实现对ip限制的突破)
- Python 爬虫IP代理