您的位置:首页 > 编程语言 > Python开发

Python基础学习——正则表达式与第一个爬虫(requests)

2018-01-13 17:30 881 查看


以上是关于正则表达式的一些用法

关于第一个简单爬虫,利用requests库来实现

关于requests的安装:

安装很简单,我是win系统,就在这里下载了安装包(网页中download
the zipball处链接),然后
$ python
setup.py install
就装好了。
当然,有
easy_install
pip
的朋友可以直接使用:
easy_install
requests
或者
pip
install requests
来安装。
至于linux用户,这个页面还有其他安装方法。
测试:在IDLE中输入
import
requests
,如果没提示错误,那说明已经安装成功了!

import re
import urllib.request
import requests
# urllib.urlopen()方法用于打开一个URL地址。
req = urllib.request.urlopen('https://www.imooc.com/')
#read()方法用于读取URL上的数据
buf = req.read().decode()
#decode bytes->str,encode str->bytes
#re.findall() 方法读取buf中包含(正则表达式)的数据,并形成一个list
listurl = re.findall(r'src=\"(.*?\.jpg)',buf)
i=0
for  url in listurl:
f = open(str(i)+'.jpg','wb')
url = 'http:' + url
#获取文本
data = requests.get(url).text
#下载图片等二进制文件
data = requests.get(url).content
f.write(data)
f.close()
i+=1
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: