Python初学者好玩案例(一):最短的抓取网页图片代码,只有10行
2018-01-09 15:52
621 查看
这几天闲来无事,又研究了一下Python的基础内容,首先研究的是如何抓取网页数据。
发现大神们通常在初级教程里就要写很多代码,真让我们这些初学者无所适从。
加上Python的各种版本不同,也会让初学者头脑,在此提醒初学者,看资料一定要注意软件版本号。
还是按照我的原则,凡事要把复杂的说简单,再由简入繁的学习,才是比较科学的方法。
先上代码,再进行分析,以下程序在Python3.6中调试通过。
看吧,我没骗大家,真的只有10行(不包括空行)。
运行完,在项目的目录里,就多出了图片。
接下来再解释一下:
import urllib.request
import re
首先,导入urllib.request库和re库,如果看到资料上有urllib2库,请无视这种资料,因为已经过时了,在Python3以后的版本中,urllib2库被合并到了urllib中,所以urllib整个模块包括urllib.request, urllib.parse, urllib.error,下面在引用的时候,也可写成urllib.request如何如何。
在接下来的代码中,有四个自定义的变量名称,分别是link、html_doc、jpg_list、n,你喜欢叫什么名字都行,就是别搞混了。
link = urllib.request.urlopen("http://dzh.mop.com/")
link变量等于请求打开http://dzh.mop.com/网址。
html_doc = link.read().decode("utf8")
html_doc 等于link里的内容,并指定为utf8编码的文档(utf8是一种可变长度字符编码,可以在一个网页上显示多种语言)。
jpg_list = re.findall('http.+?.jpg', html_doc)
得到一个jpg_list列表,内容是用re.findall命令查找html_doc里所有符合开头和结尾是'http.+?.jpg'的字段,就是网址了。
这个里涉及一个术语叫“正则表达式”,需要另外学习一下,它能从字符串中获取我们想要的指定部分,其实类似DOS系统的“通配符”。
接下来,要统计一下符合我们需要的网址有多少个,用len(jpg_list)就可以得到,但是list是从0开始的,所以要加上1。
用urllib.request.urlretrieve下载jpg_list中的图片,并用数字转字符的n加'.jpg'来命名。
下一句print是废话,是怕在下载的过程中我们太寂寞。
n = n + 1就是第一张下载完了,再去下载第二张,直到len(jpg_list) 统计的个数的图片都下载完。
n = 1
while n < len(jpg_list) + 1:
urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')
print("获取第" + str(n) + "张图片,网址是" + jpg_list[n - 1])
n = n + 1
当然,这段代码还解决不了比如下载图片太多,主机会断开连接等问题。
但是初学者先从基本的学习,再慢慢扩展,这个是学习的必经之路。
当然,为了追求行数少,这段代码只用7行加2个变量就能搞定,不过初学者更容易看晕:
import urllib.request
import re
jpg_list = re.findall('http.+?.jpg', urllib.request.urlopen("http://dzh.mop.com/").read().decode("utf8"))
n = 1
while n < len(jpg_list) + 1:
urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')
n = n + 1
发现大神们通常在初级教程里就要写很多代码,真让我们这些初学者无所适从。
加上Python的各种版本不同,也会让初学者头脑,在此提醒初学者,看资料一定要注意软件版本号。
还是按照我的原则,凡事要把复杂的说简单,再由简入繁的学习,才是比较科学的方法。
先上代码,再进行分析,以下程序在Python3.6中调试通过。
import urllib.request import re link = urllib.request.urlopen("http://dzh.mop.com/") html_doc = link.read().decode("utf8") jpg_list = re.findall('http.+?.jpg', html_doc) n = 1 while n < len(jpg_list) + 1: urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg') print("获取第" + str(n) + "张图片,网址是" + jpg_list[n - 1]) n = n + 1
看吧,我没骗大家,真的只有10行(不包括空行)。
运行完,在项目的目录里,就多出了图片。
接下来再解释一下:
import urllib.request
import re
首先,导入urllib.request库和re库,如果看到资料上有urllib2库,请无视这种资料,因为已经过时了,在Python3以后的版本中,urllib2库被合并到了urllib中,所以urllib整个模块包括urllib.request, urllib.parse, urllib.error,下面在引用的时候,也可写成urllib.request如何如何。
在接下来的代码中,有四个自定义的变量名称,分别是link、html_doc、jpg_list、n,你喜欢叫什么名字都行,就是别搞混了。
link = urllib.request.urlopen("http://dzh.mop.com/")
link变量等于请求打开http://dzh.mop.com/网址。
html_doc = link.read().decode("utf8")
html_doc 等于link里的内容,并指定为utf8编码的文档(utf8是一种可变长度字符编码,可以在一个网页上显示多种语言)。
jpg_list = re.findall('http.+?.jpg', html_doc)
得到一个jpg_list列表,内容是用re.findall命令查找html_doc里所有符合开头和结尾是'http.+?.jpg'的字段,就是网址了。
这个里涉及一个术语叫“正则表达式”,需要另外学习一下,它能从字符串中获取我们想要的指定部分,其实类似DOS系统的“通配符”。
接下来,要统计一下符合我们需要的网址有多少个,用len(jpg_list)就可以得到,但是list是从0开始的,所以要加上1。
用urllib.request.urlretrieve下载jpg_list中的图片,并用数字转字符的n加'.jpg'来命名。
下一句print是废话,是怕在下载的过程中我们太寂寞。
n = n + 1就是第一张下载完了,再去下载第二张,直到len(jpg_list) 统计的个数的图片都下载完。
n = 1
while n < len(jpg_list) + 1:
urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')
print("获取第" + str(n) + "张图片,网址是" + jpg_list[n - 1])
n = n + 1
当然,这段代码还解决不了比如下载图片太多,主机会断开连接等问题。
但是初学者先从基本的学习,再慢慢扩展,这个是学习的必经之路。
当然,为了追求行数少,这段代码只用7行加2个变量就能搞定,不过初学者更容易看晕:
import urllib.request
import re
jpg_list = re.findall('http.+?.jpg', urllib.request.urlopen("http://dzh.mop.com/").read().decode("utf8"))
n = 1
while n < len(jpg_list) + 1:
urllib.request.urlretrieve(jpg_list[n - 1], str(n) + '.jpg')
n = n + 1
相关文章推荐
- Python实现简单网页图片抓取完整代码实例
- Python 遍历网页代码抓取文字和图片
- Python之多线程爬虫抓取网页图片的示例代码
- Python初学者好玩案例(二):听两个聊天机器人互相聊天(15行代码)
- python抓取网页图片
- python3抓取异步百度瀑布流动态图片(二)get、json下载代码讲解
- Python抓取网页内容应用代码分析
- Python 实现网络爬虫 抓取静态网页【代码】
- Python中运用正则表达式抓取网页图片
- python用10行代码实现对黄色图片的检测功能
- python抓取网页中的图片示例
- Python3简单爬虫抓取网页图片
- python抓取网页的代码
- python抓取网页中图片并保存到本地
- python抓取网页图片示例(python爬虫)
- Python之BeautifulSoup学习之一 粗略抓取网页图片连接地址
- python爬虫之抓取网页中的图片到本地
- Python抓取图片小代码
- python抓取网页中的图片示例
- Python urllib、urllib2、httplib抓取网页代码实例