您的位置：首页 > 编程语言 > Python开发

python获取网页上所有链接

2016-11-10 20:41 260 查看

import urllib2   #获取源码的函数，urllib3更换 urllib.request.urlopen(url).read()
return urllib2.urlopen(url).read()

def get_next_target(page): #每次处理page中寻找链接的函数
start_link = page.find('<a href=')
if start_link == -1:
return None, 0
start_quote = page.find('"', start_link)
end_quote = page.find('"', start_quote + 1)
url = page[start_quote + 1:end_quote]
return url, end_quote

def print_all_links(page): #循环寻找
while True:
url, endpos = get_next_target(page)
if url:
print (url)
page = page[endpos:]
else:
break

#print_all_links(get_page('http://xkcd.com/353'))
print_all_links(get_page('http://www.baidu.com')) #用百度做一下实验

还没有完善，a标签触发的javascript事件还未处理。一些函数在python3中不能用，最近学的是python2的课程。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航