小白自学Python3爬虫
2017-10-30 09:56
316 查看
2017.10.30使用语言:Python3使用IDE:pycharm第一段程序:爬http.www.baidu.com页面
在爬虫过程中为了不重复爬已经爬过的URL,我们将爬过的URL放到一个集合当中。Python中set提供了这种数据要求,set是一种具有无序、互异性的集合。创建一个set可以使用set()或者{},但是空集合不能使用{},空的{}表示字典数据
#导入uellib.request库,它是隶属于urllib的一个库,其主要功能是: #打开URL,大多数是http import urllib.request url="http://www.baidu.com" data=urllib.request.urlopen(url)#返回http.client.HTTPResponse data=data.read() data=data.decode('Utf-8') print(data)
用Python处理简单的URL
#抓取百度上面搜索关键词为Jecvay Notes的网页import urllibimport urllib.requestdata={ }#data是一个字典data['word']='Jecvay Notes'#urlencode()把一个通俗的字符串, 转化为url格式的字符串url_values=urllib.parse.urlencode(data)#urllib.parse.urlencode()来将data转换为 ‘word=Jecvay+Notes’的字符串url="htttp://www.baidu.com/s?"full_url=url+url_valuesdata=urllib.request.urlopen(full_url)data=data.read()data=data.decode('UTF-8')print(data)
因为Python中list效率比较低,所以用collection.queue
官方介绍collection.queue使用
2345678910 | from collections import dequequeue = deque(["Eric", "John", "Michael"])queue.append("Terry") #Terry 入队queue.append("Graham") #Graham 入队queue.popleft() #队首元素出队#输出:'Eric'queue.popleft() #队首元素出队#输出:'John'queue #队列中剩下的元素#输出:deque(['Michael', 'Terry', 'Graham']) |
2345678910 | fromcollectionsimportdequequeue=deque(["Eric","John","Michael"])queue.append("Terry") # Terry 入队queue.append("Graham") #Graham 入队queue.popleft() # 队首元素出队#输出: 'Eric'queue.popleft() # 队首元素出队#输出: 'John'queue # 队列中剩下的元素#输出: deque(['Michael', 'Terry', 'Graham']) |
相关文章推荐
- Python爬虫天气预报(小白入门)
- 如何自学Python爬虫技术
- 开发记录_自学Python写爬虫程序爬取csdn个人博客信息
- 自学Python九 爬虫实战二(美图福利)
- 小白Python3爬虫3-5
- python小白入门学习笔记-爬虫入门
- Python爬虫小白学习心得(一
- Python爬虫小白入门(一)写在前面
- Python爬虫小白入门(二)requests库
- 自学Python之小爬虫实例
- Python小白写的三个入门级的爬虫(附代码和注释)
- 一个Python小白5个小时爬虫经历
- 开发记录_自学Python写爬虫程序爬取csdn个人博客信息
- 小白如何入门 Python 爬虫?
- 02—小白学Python爬虫之HTTP协议简介
- 一个Python小白5个小时爬虫经历
- 一个Python小白5个小时爬虫经历
- Python爬虫的小白学习笔记1-批量下载图片