简单地python爬虫尝试
2018-02-07 15:52
666 查看
首先,用pip工具下载安装爬虫相关的第三方插件:
加载插件
##pip install BeautifulSoup4 ##pip install lxml ##pip install requests
加载插件
##加载第三方插件 import requests import bs4 import lxml
##请求要爬去的网页路径,get方法吧怕去的内容放在response变量,包括html,相应头等文件。 response=requests.get("http://www.baidu.com") ##转换编码 response.encoding='utf-8' ##通过html属性得到相应的文档内容 html=response.text print(html) ##BeautifulSoup利用解析html形成树节点形式 soup=bs4.BeautifulSoup(html,'lxml') imgl=soup.find('img') print(imgl) imgs=soup.find_all('img')##find_all方法,找到页面中所有的img标签 for img in imgs: print(img) for img in imgs: imgurl=img['src'] print(imgurl) ##将爬去道德img元素对应的图片,写入硬盘 x=0##写入文件名变量 for img in imgs: imgurl = img['src']##取出img元素里面的图片路径 imgurl="http:"+imgurl##图片路径特殊时候特殊处理 ##写入硬盘 filename=str(x)+".jpg"##先建立文件名 file=open(filename,'ab')##根据文件名创建文件,创建文件的形式是以二进制的叠加(参数'ad'的作用) r=requests.get(imgurl)##请求网页图片的路径,然后存入r变量 file.write(r.content)##将相应的内容,通过content属性得到并写入文件 x+=1##文件名自增叠加 ##file.close(),文件关闭 ##r里面获取图片 ##ad参数,表示二进制文件追加
相关文章推荐
- python爬虫的一些简单尝试
- python尝试写简单爬虫
- python爬虫简单尝试
- Python3.x实现简单爬虫—爬糗事百科
- Python3——简单获取网页文字的爬虫
- python简单爬虫技术
- Python开发简单爬虫学习笔记(2)
- Python写一个简单的爬虫样例(不超过50行代码)
- Python实现抓取页面上链接的简单爬虫分享
- python3简单爬虫实现代码
- 初入python 3.5 上手简单爬虫脚本
- Python开发简单爬虫之实战演练
- 用python3.x与mysql数据库构建简单的爬虫系统(转)
- Python开发简单爬虫 - 慕课网
- 用Python写一个简单的爬虫
- [Python学习] 简单网络爬虫抓取博客文章及思想介绍
- 2,简单的Python爬虫
- Python爬虫实践(二):Urllib库的简单使用
- Python与简单网络爬虫的编写
- [记录]Python爬虫过程中遇到的简单带干扰线验证码处理方法