您的位置：首页 > 理论基础 > 计算机网络

Python爬虫 - Beautiful Soup4（二）-网络文件爬取

2017-11-25 15:26 295 查看

from urllib import request

from bs4 imp
4000
ort BeautifulSoup

url = 'http://python.org/'

# 下载网页

print ("连接网络")

html = request.urlopen(url)

print ("开始下载网页")

content = html.read()

content = content.decode('utf-8')

print ("下载网页完成")

html.close()

# 使用BeautifulSoup匹配图片

html_soup = BeautifulSoup(content,'lxml')

# 相较通过正则表达式去匹配,BeautifulSoup提供了一个更简单灵活的方式

all_img_links = html_soup.findAll('img')

print (all_img_links)

# 接下来就是老生常谈的下载图片

img_counter = 1

for img_link in all_img_links:

img_name = '%s.jpg' % img_counter

# 下载到本地默认下载在文件相对路径

request.urlretrieve(url+img_link['src'], img_name)

img_counter += 1

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航