requests和bs4的python爬虫入门
2016-10-18 20:35
666 查看
现在就简单的讲下这几个月的学习成果嘛~~~
爬虫其实爬的都是源代码,然后再通过对源代码进行过滤,得出我们想要的东西~
有时会需要一些正则的东西~
比如一些文本啊,图片的src啊,链接的href啊~~
这里面有一些lazyload的图片,就需要 selenium webdriver 什么的了,这个还没研究到哈,勿喷勿喷。
上面的答案也有提到过,用requests和bs4写爬虫真的是傻瓜爬虫系列。
就是很容易了~~ 但是无论写什么程序,都得把文档读一遍先,个人认为这俩个文档还是很友好的~
requests文档
快速上手 — Requests 2.10.0 文档
BeautifulSoup文档
Beautiful Soup 4.4.0 文档
首先引入这俩模块
然后要给requests个url,告诉他我要爬取那个url的源码,假如就是这个问题的答案把
有时候还要伪装个header一起传给服务器,
User-Agent 就是浏览器版本,cookie就是本地终端上的数据
这两个开f12 的network 点doc 然后就应该能看得到了
然后就可以用requests进行爬取了
其实这个data是个response 对象
需要.text一下再交给 bs4
之后就能用soup.select 进行选择了,
要是不会写selector 最简单的方法,开f12 右键 copy > copy selector
例如我们写个简单的获取图片的。
这个soup.select 返回的是一个list,所以你要for in 循环一下
比如把它的link都放在一个list里
那么,我知道了这些link有什么用啊~~下面我们就可以用urllib.urlretrieve来下载他们了啊!!
如果你爬被反爬的话,还可以 引入time 让程序睡一会
源代码就在这里啦~~
pythonSpider/4zhihuImgs.py at master · Yangzhedi/pythonSpider · GitHub
我的一个小python爬虫库,各种各样的,还在入门中~~不过欢迎star和issue哈~~
GitHub - Yangzhedi/pythonSpider: some python spiders with BeautifulSoup
star我~~我会维护好你们的时间线的~
爬虫其实爬的都是源代码,然后再通过对源代码进行过滤,得出我们想要的东西~
有时会需要一些正则的东西~
比如一些文本啊,图片的src啊,链接的href啊~~
这里面有一些lazyload的图片,就需要 selenium webdriver 什么的了,这个还没研究到哈,勿喷勿喷。
上面的答案也有提到过,用requests和bs4写爬虫真的是傻瓜爬虫系列。
就是很容易了~~ 但是无论写什么程序,都得把文档读一遍先,个人认为这俩个文档还是很友好的~
requests文档
快速上手 — Requests 2.10.0 文档
BeautifulSoup文档
Beautiful Soup 4.4.0 文档
首先引入这俩模块
from bs4 import BeautifulSoup import requests
然后要给requests个url,告诉他我要爬取那个url的源码,假如就是这个问题的答案把
url = 'https://www.zhihu.com/question/20899988'
有时候还要伪装个header一起传给服务器,
User-Agent 就是浏览器版本,cookie就是本地终端上的数据
这两个开f12 的network 点doc 然后就应该能看得到了
headers = { 'User-Agent':'', 'Cookie':'' }
然后就可以用requests进行爬取了
data = requests.get(url, headers=headers)
其实这个data是个response 对象
需要.text一下再交给 bs4
soup = BeautifulSoup(data.text, 'lxml')
之后就能用soup.select 进行选择了,
要是不会写selector 最简单的方法,开f12 右键 copy > copy selector
例如我们写个简单的获取图片的。
imgs = soup.select('div.zm-editable-content > img')
这个soup.select 返回的是一个list,所以你要for in 循环一下
比如把它的link都放在一个list里
img_link = [] for i in imgs: img_link.append(i.get('data-actualsrc'))
那么,我知道了这些link有什么用啊~~下面我们就可以用urllib.urlretrieve来下载他们了啊!!
如果你爬被反爬的话,还可以 引入time 让程序睡一会
import time time.sleep(4)
源代码就在这里啦~~
pythonSpider/4zhihuImgs.py at master · Yangzhedi/pythonSpider · GitHub
我的一个小python爬虫库,各种各样的,还在入门中~~不过欢迎star和issue哈~~
GitHub - Yangzhedi/pythonSpider: some python spiders with BeautifulSoup
star我~~我会维护好你们的时间线的~
相关文章推荐
- Python爬虫—3第三方库_1_requests_入门
- python爬虫入门之requests
- 【python爬虫小实战】python3.x用requests和bs4实现有道翻译(中英文)
- python爬虫基础知识——requests、bs4的使用
- 简单的python2.7基于bs4和requests的爬虫
- Python爬虫入门之一-requests+BeautifulSoup
- Python爬虫(入门+进阶)学习笔记 1-3 使用Requests爬取豆瓣短评
- Python 爬虫入门——requests
- python爬虫入门教程--利用requests构建知乎API(三)
- Python爬虫大杀器之Requests快速入门
- Python爬虫----爬虫入门(5)---Requests基础
- python 爬虫 之如何入门 Requests 提供了很好的指南【三】
- python网络爬虫入门(一)——简单的博客爬虫
- Python爬虫入门
- 菜鸟python入门爬虫手记(2)
- python python 入门学习之网页数据爬虫cnbeta文章保存
- python python 入门学习之网页数据爬虫搜狐汽车数据库
- python爬虫入门教程之糗百图片爬虫代码分享
- [Python]网络爬虫(12):爬虫框架Scrapy的第一个爬虫示例入门教程