Python爬虫获取代理ip及端口
2018-03-06 15:43
706 查看
''' 爬取代理ip 可以作为模块使用,在使用代理ip的时候直接调用该模块即可。 ''' import re import urllib.request def ExtractIP(url='http://www.xicidaili.com/'): headers = {'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:58.0) Gecko/20100101 Firefox/58.0'} # urllib.request.Request()用于向服务端发送请求,就如 http 协议客户端向服务端发送请求 POST # 添加了一个头部,伪装成浏览器,此时的url并不是一个裸露的url,而是具有header头部的url req = urllib.request.Request(url=url, headers=headers) response = urllib.request.urlopen(req) html = response.read().decode('utf-8') # print(html) #构造正则表达式 p = re.compile(r'<td>((([01]\d{0,2}|2[0-4]\d|25[0-5])\.){3}([01]\d{0,2}|2[0-4]\d|25[0-5]))</td>') res = p.finditer(html) #字典存储所有的ip及端口号 ip_port = dict() for each_http in res: # print(each_http.group(1)) location = each_http.end() a = html.find('<td>', location) + 4 b = html.find('</td>', location) port_num = html[a:b] # print(port_num) ''' 端口号范围:0-65535 ''' if int(port_num) >=0 and int(port_num) <= 65535: ip_port[each_http.group(1)] = port_num return ip_port if __name__ == '__main__': ''' 代理ip的URL百度获取即可 ''' url = 'http://www.xicidaili.com/' result = ExtractIP(url) print(result) print(len(result))
相关文章推荐
- 使用python为爬虫获取免费代理ip
- python获取ip代理列表爬虫
- Python2.*爬虫获取免费有效IP代理
- python 爬虫 批量获取代理ip的实例代码
- python 爬虫 批量获取代理ip
- python编写的自动获取代理IP列表的爬虫-chinaboywg-ChinaUnix博客
- python 爬虫获取代理Ip
- 利用python爬虫批量获取代理IP并验证可用性
- Python爬虫实战——代理IP全部抓取
- Python爬虫设置代理IP爬取知乎图片
- 分享一个获取代理ip的python函数
- python3爬虫之IP代理
- 爬虫实战----从免费IP代理网站获取连接率较好的可用IP
- python3爬虫伪装代理IP
- python爬虫爬取goubanjia的代理ip
- python3实现网络爬虫(7)-- 使用ip代理抓取网页
- 分享一个获取代理ip的python函数
- 网络爬虫爬取全国省市区(动态ip代理的获取,实现对ip限制的突破)
- 网络爬虫爬取全国省市区(动态ip代理的获取,实现对ip限制的突破)
- 【Python3.6爬虫学习记录】(十一)使用代理IP及用多线程测试IP可用性--刷访问量