Python基础学习——正则表达式与第一个爬虫(requests)
2018-01-13 17:30
881 查看
以上是关于正则表达式的一些用法
关于第一个简单爬虫,利用requests库来实现
关于requests的安装:
安装很简单,我是win系统,就在这里下载了安装包(网页中download
the zipball处链接),然后
$ python setup.py install就装好了。
当然,有
easy_install或
pip的朋友可以直接使用:
easy_install requests或者
pip install requests来安装。
至于linux用户,这个页面还有其他安装方法。
测试:在IDLE中输入
import requests,如果没提示错误,那说明已经安装成功了!
import re import urllib.request import requests # urllib.urlopen()方法用于打开一个URL地址。 req = urllib.request.urlopen('https://www.imooc.com/') #read()方法用于读取URL上的数据 buf = req.read().decode() #decode bytes->str,encode str->bytes #re.findall() 方法读取buf中包含(正则表达式)的数据,并形成一个list listurl = re.findall(r'src=\"(.*?\.jpg)',buf) i=0 for url in listurl: f = open(str(i)+'.jpg','wb') url = 'http:' + url #获取文本 data = requests.get(url).text #下载图片等二进制文件 data = requests.get(url).content f.write(data) f.close() i+=1
相关文章推荐
- Python爬虫包 BeautifulSoup 学习(九) 正则表达式与Lambda表达式
- Python爬虫学习纪要(三):正则表达式
- python爬虫学习(1)--关于正则表达式输入和提取中文
- [Python] 网络爬虫和正则表达式学习总结
- 第01阶段-基础入门-02-Python 爬虫基础-21节=====12.认识正则表达式
- 正则表达式基础——以Python爬虫为实例
- python爬虫学习---正则表达式的使用
- python基础学习笔记(三) 文件、time和正则表达式
- python 3.x 爬虫基础---正则表达式
- python爬虫由浅入深8---正则表达式及Re库的基础与使用
- Python学习笔记(八)爬虫基础(正则和编解码)
- Python学习笔记 第二部分 - 正则表达式 与 爬虫小实例(抓取豆瓣电影中评分大于等于8分的影片)
- Python爬虫——4.6使用requests和正则表达式、随机代理爬取淘宝网商品信息
- (转)Python爬虫学习笔记(2):Python正则表达式指南
- python3爬虫之入门基础和正则表达式
- Python基础教程 正则表达式 学习笔记
- Python 爬虫学习笔记之正则表达式
- 在学习python网络爬虫时用到的正则表达式
- [置顶] Python爬虫学习(四)正则表达式
- python爬虫之正则表达式基础