您的位置:首页 > 理论基础 > 计算机网络

Python爬虫 - Beautiful Soup4(二)-网络文件爬取

2017-11-25 15:26 295 查看
from urllib import request

from bs4 imp
4000
ort BeautifulSoup

url = 'http://python.org/'

# 下载网页

print ("连接网络")

html = request.urlopen(url)

print ("开始下载网页")

content = html.read()

content = content.decode('utf-8')

print ("下载网页完成")

html.close()

# 使用BeautifulSoup匹配图片

html_soup = BeautifulSoup(content,'lxml')

# 相较通过正则表达式去匹配,BeautifulSoup提供了一个更简单灵活的方式

all_img_links = html_soup.findAll('img')

print (all_img_links)

# 接下来就是老生常谈的下载图片

img_counter = 1

for img_link in all_img_links:

   img_name = '%s.jpg' % img_counter

   # 下载到本地 默认下载在文件相对路径

   request.urlretrieve(url+img_link['src'], img_name)

   img_counter += 1
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: