您的位置：首页 > 编程语言 > Python开发

Python实现抓取页面上链接

2015-08-30 09:19 866 查看

方法一：
# coding:utf-8
import re
import requests
# 获取网页内容
r = requests.get('http://www.163.com')
data = r.text
# 利用正则查找所有连接
link_list =re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" ,data)
for url in link_list:
print url

方法二：

import urllib2
import re
#connect to a URL
website = urllib2.urlopen(url)
#read html code
html = website.read()
#use re.findall to get all the links
links = re.findall('"((http|ftp)s?://.*?)"', html)
for url in links:
print url

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

零基础学python-9.4 对象的真值
零基础学python-9.4 对象的真值
零基础学python-9.3 对象的比较
零基础学python-9.3 对象的比较
IDA pro 的Python环境变量设置
Python通过pyserial控制串口操作
Python工具
Python 遍历文件查找不同
初探python的__init__.py
简单Python脚本实现数据导出Excel格式的尝试
【python】strip()的用法
【python】socket编程常量错误问题-1 'AF_INET'
2015/8/29 Python基础(3):数值
Python 自学笔记（二）第一个程序 Hello World
Python中文分词组件jieba
Python 2.7和NLTK安装教程
python使用xmlrunner模块生成报告举例
Python 自学笔记（一）环境搭建
Setup Python 开发环境和IPython的基本使用
零基础学python-9.2 文件

新的分享

#新闻拍一拍# 微软推出 Pylance，改善 VS Code 中的 Python 体验
跟我学Python图像处理丨5种图像阈值化处理及算法对比
基于Python设计一个具有基本功能的通讯录
liunx上升级python2至python3
es的查询、排序查询、分页查询、布尔查询、查询结果过滤、高亮查询、聚合函数、python操作es
python常用标准库（时间模块time和datetime）
python之logging日志
python之configparser类的使用
Python常用标准库（pickle序列化和JSON序列化）
MySQL（12） - Python+MySQL读取写入图片
MySQL（11） - Python+MySQL开发新闻管理系统
Python 什么是flask框架？快速入门(flask安装，登录，新手三件套，登录认证装饰器，配置文件，路由系统，CBV)

章节导航