您的位置:首页 > 编程语言 > Python开发

简单地python爬虫尝试

2018-02-07 15:52 666 查看
首先,用pip工具下载安装爬虫相关的第三方插件:

##pip install BeautifulSoup4
##pip install lxml
##pip install requests

加载插件
##加载第三方插件
import requests
import bs4
import lxml


##请求要爬去的网页路径,get方法吧怕去的内容放在response变量,包括html,相应头等文件。
response=requests.get("http://www.baidu.com")

##转换编码
response.encoding='utf-8'
##通过html属性得到相应的文档内容
html=response.text
print(html)

##BeautifulSoup利用解析html形成树节点形式
soup=bs4.BeautifulSoup(html,'lxml')
imgl=soup.find('img')
print(imgl)
imgs=soup.find_all('img')##find_all方法,找到页面中所有的img标签
for img in imgs:
print(img)

for img in imgs:
imgurl=img['src']
print(imgurl)

##将爬去道德img元素对应的图片,写入硬盘
x=0##写入文件名变量
for img in imgs:
imgurl = img['src']##取出img元素里面的图片路径
imgurl="http:"+imgurl##图片路径特殊时候特殊处理
##写入硬盘
filename=str(x)+".jpg"##先建立文件名
file=open(filename,'ab')##根据文件名创建文件,创建文件的形式是以二进制的叠加(参数'ad'的作用)
r=requests.get(imgurl)##请求网页图片的路径,然后存入r变量
file.write(r.content)##将相应的内容,通过content属性得到并写入文件
x+=1##文件名自增叠加

##file.close(),文件关闭

##r里面获取图片

##ad参数,表示二进制文件追加
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 爬虫