python获取网页上所有链接
2016-11-10 20:41
260 查看
import urllib2 #获取源码的函数,urllib3更换 urllib.request.urlopen(url).read() return urllib2.urlopen(url).read() def get_next_target(page): #每次处理page中寻找链接的函数 start_link = page.find('<a href=') if start_link == -1: return None, 0 start_quote = page.find('"', start_link) end_quote = page.find('"', start_quote + 1) url = page[start_quote + 1:end_quote] return url, end_quote def print_all_links(page): #循环寻找 while True: url, endpos = get_next_target(page) if url: print (url) page = page[endpos:] else: break #print_all_links(get_page('http://xkcd.com/353')) print_all_links(get_page('http://www.baidu.com')) #用百度做一下实验
还没有完善,a标签触发的javascript事件还未处理。一些函数在python3中不能用,最近学的是python2的课程。
相关文章推荐
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- 【python】获取指定网页上的所有超级链接
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- python获取网页所有链接
- 有关利用python获取网页, 以及KDD近几年论文标题与摘要链接
- 如何获取网页中所有的链接
- python3利用beautiful soup获取网页文本及src链接和http链接
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- python BeautifulSoup获取 网页链接的文字内容
- php获取网页上所有链接的方法
- python 抓去指定网页以及该网页上所有链接
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- beautifulsoup库简单抓取网页--获取所有链接例子
- 获取网页中的所有超级链接(爬虫专用)
- java抓取网页数据获取网页中所有的链接实例分享
- selenium 获取网页所有链接
- C#获取远程网页中的所有链接URL
- C#获取远程网页中的所有链接URL(网络蜘蛛实现原理)
- C#获取远程网页中的所有链接URL