Python基础知识——urllib模块在爬虫中的应用
2018-03-14 14:32
387 查看
以一个小例子引入urllib模块import urllib.request
#urlretrieve('要爬取的网址','想要将网页保存在本地的地址'),该方法可将网页直接保存在本地,无需read()及写入操作
a=urllib.request.urlretrieve('http://www.hellobi.com',filename='D:/python学习/1.html')
#urlretrieve('要爬取的网址','想要将网页保存在本地的地址'),该方法可将网页直接保存在本地,无需read()及写入操作
a=urllib.request.urlretrieve('http://www.hellobi.com',filename='D:/python学习/1.html')
#urlcleanup可清除urlretrive产生的缓存 urllib.request.urlcleanup()
#info展示当前环境信息 file=urllib.request.urlopen('http://www.hellobi.com') file.info()
#getcode获取网页状态码:200为正常状态 file.getcode() #geturl获取网页的名字 file.geturl()——来自韦玮老师课堂笔记及所悟
相关文章推荐
- python 爬虫入门(2) 爬虫基础知识 ; urllib 模块 ;urllib2 模块
- 运维学python之爬虫基础篇(二)urllib模块使用
- python爬虫入门(1) 基础知识 ; 正则表达式 Re 模块
- 运维学python之爬虫基础篇(三)urllib模块高级用法
- python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。
- python爬虫基础知识(一)--Urllib.request
- Python 爬虫基础 - Urllib 模块(1)
- Python 第一章 基础知识(7) 模块
- 零基础写python爬虫之urllib2使用指南
- Python中关于使用模块的基础知识
- 【实战\聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎项目笔记】第3章 爬虫基础知识回顾
- 使用Python的urllib和urllib2模块制作爬虫的实例教程
- Python的Urllib库的使用(爬虫基础)
- Python零基础入门十九之爬虫基础知识
- python爬虫之urllib模块和requests模块学习
- 网络爬虫及面试中必须掌握的python基础知识(二)
- mysql基础&重点知识总结及在python中的应用(3)
- python-基础知识之模块
- Python中使用urllib2模块编写爬虫的简单上手示例
- python 入门爬虫 -基础知识(数据如何呈现【一】)