python使用正则表达式提取网页URL的方法
2015-05-26 12:35
996 查看
本文实例讲述了python使用正则表达式提取网页URL的方法。分享给大家供大家参考。具体实现方法如下:
import re import urllib url="//www.jb51.net" s=urllib.urlopen(url).read() ss=s.replace(" ","") urls=re.findall(r"<a.*?href=.*?<\/a>",ss,re.I) for i in urls: print i else: print 'this is over'
PS:这里再为大家提供2款非常方便的正则表达式工具供大家参考使用:
JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg
希望本文所述对大家的Python程序设计有所帮助。
您可能感兴趣的文章:
相关文章推荐
- python使用正则表达式分析网页中的图片并进行替换的方法
- 用python正则表达式提取网页的url
- Python爬虫urllib2笔记(三)之使用正则表达式提取百度贴吧网页中的楼主发的图片
- Python爬取网页信息时,经常使用的正则表达式及方法
- Python使用正则表达式抓取网页图片的方法示例
- Python 正则表达式 RE模块的使用方法
- Python正则表达式一: 基本使用方法
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- python使用正则表达式解析http url
- Python使用中文正则表达式匹配指定中文字符串的方法示例
- Python使用正则表达式过滤或替换HTML标签的方法详解
- python正则表达式的使用方法
- Python中正则表达式的使用方法
- Python使用正则表达式获取网页中所需要的信息
- Python: 字符串搜索和匹配,re.compile() 编译正则表达式字符串,然后使用match() , findall() 或者finditer() 等方法
- python使用xslt提取网页数据的方法
- python中正则表达式的使用方法
- python网络爬虫学习(三)正则表达式的使用之re.match方法