python爬虫学习第五天
2017-07-29 22:35
330 查看
今天学习了urllib.parse这个模块定义了许多处理URL的标准接口,主要是对网页的URL进行拆分、合并
这部分的功能本身用起来比较简单,但需要对URL的结构有一定的理解才能很好的看懂和使用。
书上介绍的函数有:
urllib.parse.urlparse()//分析一个URL的成分,可以把一个URL拆分成最多六个部分
urllib.parse.urlunparse()//输入参数必须是六个,可以把这六个参数合并成一个完整的URL
urllib.parse.urlsplit()//原文介绍:
这个和urlparse()方法非常相似,只不过它不会单独解析parameters这一部分,只返回五个结果。上面例子中的parameters会合并到path中。
urllib.parse.urlunsplit()//原文介绍:
与urlunparse()类似,也是将链接的各个部分组合成完整链接的方法,传入的也是一个可迭代对象。 例如list、tuple等等,唯一的区别是,长度必须为5。
此外还有另外两个方法urllib.parse.urljoin()与urllib.parse.urlencode()//书中介绍的不是很多
练习1 urlparse
练习2 urlparse scheme参数
练习3 urlparse的返回值是元组,可用数组式操作也可用类属性式的操作
练习4 urlunparse
练习5 urlsplit 切分url
练习6 urlunsplit
这部分的功能本身用起来比较简单,但需要对URL的结构有一定的理解才能很好的看懂和使用。
书上介绍的函数有:
urllib.parse.urlparse()//分析一个URL的成分,可以把一个URL拆分成最多六个部分
urllib.parse.urlunparse()//输入参数必须是六个,可以把这六个参数合并成一个完整的URL
urllib.parse.urlsplit()//原文介绍:
这个和urlparse()方法非常相似,只不过它不会单独解析parameters这一部分,只返回五个结果。上面例子中的parameters会合并到path中。
urllib.parse.urlunsplit()//原文介绍:
与urlunparse()类似,也是将链接的各个部分组合成完整链接的方法,传入的也是一个可迭代对象。 例如list、tuple等等,唯一的区别是,长度必须为5。
此外还有另外两个方法urllib.parse.urljoin()与urllib.parse.urlencode()//书中介绍的不是很多
练习1 urlparse
# from urllib.parse import urlparse # result = urlparse('http://www.baidu.com/index.html;user?id=5#comment') # print(type(result)) # print(result)
练习2 urlparse scheme参数
# from urllib.parse import urlparse # result = urlparse('www.baidu.com/index.html;user?id=5#comment',scheme='https') # print(result) # result1 = urlparse('http://www.baidu.com/index.html;user?id=5#comment',scheme='https') # print(result1)
练习3 urlparse的返回值是元组,可用数组式操作也可用类属性式的操作
# from urllib.parse import urlparse # result = urlparse('http://www.baidu.com/index.html#comment',allow_fragments=False) # print(result.scheme) # print(result[0]) # print(result[1]) # print(result.netloc)
练习4 urlunparse
# from urllib.parse import urlunparse # data = ['https','www.baidu.com','index.html','user', 'a=6', 'comment'] # print(urlunparse(data))
练习5 urlsplit 切分url
# from urllib.parse import urlsplit # result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment') # print(result) # print(result[0]) # print(result[1]) # print(result[2]) # print(result[3]) # print(result[4])
练习6 urlunsplit
# from urllib.parse import urlunsplit # data = ['http', 'www.baidu.com', 'index.html', 'a=6', 'comment'] # print(urlunsplit(data))
相关文章推荐
- Python爬虫学习笔记Day3
- 【python爬虫学习经历一】
- python学习笔记:第五天( 字典)
- 【学习笔记】Python爬虫-豆瓣电影所有短评
- python爬虫学习笔记1——糗百段子爬取
- Python学习笔记(四) -- 简单的爬虫
- 萌新的Python学习日记 - 爬虫无影 - 使用BeautifulSoup + css selector 抓取动态网页内容:Knewone
- Python爬虫学习记录(5)——python mongodb + 爬虫 + web.py 的acfun视频排行榜
- 1.【python爬虫学习笔记】爬取豆瓣电影top250
- 【Python3.6爬虫学习记录】(四)爬取百度贴吧某帖子内容及图片
- Python3爬虫学习
- python爬虫学习第二十八天
- Python3爬虫学习4:降爬取的信息保存到本地
- 第五天学习python
- python——爬虫学习——Scrapy爬虫框架入门-(6)
- Python 基础学习 网络小爬虫
- python 爬虫学习
- Python爬虫学习四——爬虫实战
- python爬虫学习第十五天
- python多线程爬虫学习--去除字符串中间空格