您的位置：首页 > 编程语言 > Python开发

简单地python爬虫尝试

2018-02-07 15:52 666 查看

首先，用pip工具下载安装爬虫相关的第三方插件：

##pip install BeautifulSoup4
##pip install lxml
##pip install requests

加载插件

##加载第三方插件
import requests
import bs4
import lxml

##请求要爬去的网页路径，get方法吧怕去的内容放在response变量，包括html，相应头等文件。
response=requests.get("http://www.baidu.com")

##转换编码
response.encoding='utf-8'
##通过html属性得到相应的文档内容
html=response.text
print(html)

##BeautifulSoup利用解析html形成树节点形式
soup=bs4.BeautifulSoup(html,'lxml')
imgl=soup.find('img')
print(imgl)
imgs=soup.find_all('img')##find_all方法，找到页面中所有的img标签
for img in imgs:
print(img)

for img in imgs:
imgurl=img['src']
print(imgurl)

##将爬去道德img元素对应的图片，写入硬盘
x=0##写入文件名变量
for img in imgs:
imgurl = img['src']##取出img元素里面的图片路径
imgurl="http:"+imgurl##图片路径特殊时候特殊处理
##写入硬盘
filename=str(x)+".jpg"##先建立文件名
file=open(filename,'ab')##根据文件名创建文件，创建文件的形式是以二进制的叠加（参数'ad'的作用）
r=requests.get(imgurl)##请求网页图片的路径，然后存入r变量
file.write(r.content)##将相应的内容，通过content属性得到并写入文件
x+=1##文件名自增叠加

##file.close(),文件关闭

##r里面获取图片

##ad参数,表示二进制文件追加

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 爬虫

相关文章推荐

新的分享

章节导航