python - 抓取页面上的链接
2016-03-13 01:18
337 查看
除了C/C++以外,我也接触过不少流行的语言,PHP、java、javascript、python,其中python可以说是操作起来最方便,缺点最少的语言了。
前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写。爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下。
首先我们需要用到一个开源的模块,requests。这不是python自带的模块,需要从网上下载、解压与安装:
windows用户直接点击下载。解压后再本地使用命令python setup.py install安装即可。
这个模块的文档我也正在慢慢翻译,翻译完了就给大家传上来(英文版先发在附件里)。就像它的说明里面说的那样,built forhuman beings,为人类而设计。使用它很方便,自己看文档。最简单的,requests.get()就是发送一个get请求。
代码如下:
首先import进re和requests模块,re模块是使用正则表达式的模块。
data= requests.get('http://www.163.com'),向网易首页提交get请求,得到一个requests对象r,r.text就是获得的网页源代码,保存在字符串data中。
再利用正则查找data中所有的链接,我的正则写的比较粗糙,直接把href=""或href=''之间的信息获取到,这就是我们要的链接信息。
re.findall返回的是一个列表,用for循环遍历列表并输出:
这是我获取到的所有连接的一部分。
上面是获取网站里所有链接的一个简单的实现,没有处理任何异常,没有考虑到超链接的类型,代码仅供参考。requests模块文档见附件。
前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写。爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下。
首先我们需要用到一个开源的模块,requests。这不是python自带的模块,需要从网上下载、解压与安装:
1 | $ curl-OL https://github.com/kennethreitz/requests/zipball/master[/code] |
1 | $ python setup.py install |
这个模块的文档我也正在慢慢翻译,翻译完了就给大家传上来(英文版先发在附件里)。就像它的说明里面说的那样,built forhuman beings,为人类而设计。使用它很方便,自己看文档。最简单的,requests.get()就是发送一个get请求。
代码如下:
01 | # coding:utf-8 |
02 | import re |
03 | import requests |
04 |
05 | # 获取网页内容 |
06 | r = requests.get( 'http://www.163.com' ) |
07 | data = r.text |
08 |
09 | # 利用正则查找所有连接 |
10 | link_list = re.findall(r "(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data) |
11 | for url in link_list: |
12 | url |
data= requests.get('http://www.163.com'),向网易首页提交get请求,得到一个requests对象r,r.text就是获得的网页源代码,保存在字符串data中。
再利用正则查找data中所有的链接,我的正则写的比较粗糙,直接把href=""或href=''之间的信息获取到,这就是我们要的链接信息。
re.findall返回的是一个列表,用for循环遍历列表并输出:
这是我获取到的所有连接的一部分。
上面是获取网站里所有链接的一个简单的实现,没有处理任何异常,没有考虑到超链接的类型,代码仅供参考。requests模块文档见附件。
相关文章推荐
- python web框架企业实战详解(第六期)\第四课时-webpy&django
- python web框架企业实战详解(第六期)\第一课时-sorted&if&for
- python web框架企业实战详解(第六期)\第二课时-pickle&__eq__
- 查看喜爱球队一周比赛安排
- python入门笔记_1
- 深入讲解Python函数中参数的使用及默认参数的陷阱
- Python连接MySQL并使用fetchall()方法过滤特殊字符
- Python中的列表生成式与生成器学习教程
- 深入解析Python中的list列表及其切片和迭代操作
- 简单讲解Python中的字符串与字符串的输入输出
- python生成时间戳控制数组
- python文件whl的安装方法
- python爬虫之cookies
- python tkinter界面中添加按钮的方法
- python爬虫之正则表达式
- Python 3 之 运算符重载详解
- Python2.X无换行无空格输出
- python2016-03-12
- python更新pip
- AdaBoost算法2(基于单层决策树)