Python之BeautifulSoup学习之三 读取本地html文件,并将其中图片保存下来
2016-09-28 13:46
871 查看
Windows/python 2.7.11
读取本地html文件,利用BeautifulSoup库解析出其中img图片的连接地址
再用urllib.urlretrieve()存到本地。
===============================以下为代码部分==================================
#coding=utf-8
import urllib
from bs4 import BeautifulSoup
import os
def getImg(url, localpath):
htmlfile = open(url, 'r') #以只读的方式打开本地html文件
htmlpage = htmlfile.read()
#print htmlpage
soup = BeautifulSoup(htmlpage, "html.parser") #实例化一个BeautifulSoup对象
print soup.title.string #打印该html的标题
filepath = os.path.join(localpath, soup.title.string) #连接目录与文件名或目录(目录,文件夹名或目录),此处以html标题命名文件夹名字
if os.path.exists(filepath) == False: #判断,若该文件路径不存在,则创建该目录(mkdirs创建多级目录,midir创建单级目录)
os.makedirs(filepath)
cctag = soup.find_all('img', attrs={'class':'BDE_Image'}) #查找所有标签值为img,属性class为BDE_Image的数据,返回一个集合list
for i in cctag:
print i.attrs['src']
urllib.urlretrieve(i.attrs['src'], os.path.join(filepath, '%s'%i.attrs['src'].split('/')[-1])) #保存下载每一组数据属性为src的内容(网页地址)到本地,名字为原图片名称:http://imgsrc.baidu.com/forum/w%3D580/sign=5b3aec8704f3d7ca0cf63f7ec21ebe3c/ad13728b4710b9120be45d47cbfdfc0392452260.jpg
htmlfile.close()
return None
url = r'F:\Python\123.html'
localPath = r'F:\Python'
getImg(url, localPath)
<
4000
p>========================================end================================
读取本地html文件,利用BeautifulSoup库解析出其中img图片的连接地址
再用urllib.urlretrieve()存到本地。
===============================以下为代码部分==================================
#coding=utf-8
import urllib
from bs4 import BeautifulSoup
import os
def getImg(url, localpath):
htmlfile = open(url, 'r') #以只读的方式打开本地html文件
htmlpage = htmlfile.read()
#print htmlpage
soup = BeautifulSoup(htmlpage, "html.parser") #实例化一个BeautifulSoup对象
print soup.title.string #打印该html的标题
filepath = os.path.join(localpath, soup.title.string) #连接目录与文件名或目录(目录,文件夹名或目录),此处以html标题命名文件夹名字
if os.path.exists(filepath) == False: #判断,若该文件路径不存在,则创建该目录(mkdirs创建多级目录,midir创建单级目录)
os.makedirs(filepath)
cctag = soup.find_all('img', attrs={'class':'BDE_Image'}) #查找所有标签值为img,属性class为BDE_Image的数据,返回一个集合list
for i in cctag:
print i.attrs['src']
urllib.urlretrieve(i.attrs['src'], os.path.join(filepath, '%s'%i.attrs['src'].split('/')[-1])) #保存下载每一组数据属性为src的内容(网页地址)到本地,名字为原图片名称:http://imgsrc.baidu.com/forum/w%3D580/sign=5b3aec8704f3d7ca0cf63f7ec21ebe3c/ad13728b4710b9120be45d47cbfdfc0392452260.jpg
htmlfile.close()
return None
url = r'F:\Python\123.html'
localPath = r'F:\Python'
getImg(url, localPath)
<
4000
p>========================================end================================
相关文章推荐
- Python配合BeautifulSoup读取网络图片并保存在本地
- Python学习笔记之爬取网页保存到本地文件
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用bs4,beautifulsoup模块
- Pythone OpenCV学习笔记之:视频文件读取与保存
- c#学习笔记(二):保存图片、保存DataGridView数据到本地和从本地读取到DataGridView
- Python 读取图片文件为矩阵和保存矩阵为图片的方法
- Python---对html文件内容进行搜索取出特定URL地址字符串,保存成列表,并使用每个url下载图片,并保存到硬盘上,使用正则re
- 用C#编程从数据库中读取图片数据导进Excel文件的方法(如何从数据库中读取保存的文件,直接打开,中间不保存到本地)
- 利用Python PIL、cPickle将图片读取和保存为pkl格式文件
- 读取资源图片保存在本地解决文件无法创建问题。
- 不务正业--用python爬虫抓取Konachan的图片并保存到本地文件
- python学习—保存网页到本地 html及pdf
- Python 读取图片文件为矩阵和保存矩阵为图片
- python学习——爬下网站的所有图片并保存在本地
- 用C#编程从数据库中读取图片数据导进Excel文件的方法(如何从数据库中读取保存的文件,直接打开,中间不保存到本地)
- asp.net 怎么把远程图片保存为本地文件?
- WP7 Isolated Storage详解(7)-读取、保存图片文件
- OpenCV学习笔记(4)视频文件的读取与保存(2010-01-23 更新)
- 使用urlconnection下载文件或图片并保存到本地
- android WebView 控件加载本地sdcard中html文件图片的问题