获取当前页面的所有链接的四种方法对比(python 爬虫)
2015-12-14 03:15
776 查看
''' 得到当前页面所有连接 ''' import requests import re from bs4 import BeautifulSoup from lxml import etree from selenium import webdriver url = 'http://www.ok226.com' r = requests.get(url) r.encoding = 'gb2312' # 利用 re (太黄太暴力!) matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')" , r.text) for link in matchs: print(link) print() # 利用 BeautifulSoup4 (DOM树) soup = BeautifulSoup(r.text,'lxml') for a in soup.find_all('a'): link = a['href'] print(link) print() # 利用 lxml.etree (XPath) tree = etree.HTML(r.text) for link in tree.xpath("//@href"): print(link) print() # 利用selenium(要开浏览器!) driver = webdriver.Firefox() driver.get(url) for link in driver.find_elements_by_tag_name("a"): print(link.get_attribute("href")) driver.close()
[b]注意:若页面中含有 iframe,则 iframe 内所包含页面的所有标签都无法用以上四种方法获得!!!此时则要:[/b]
# 再打开所有iframe查找全部的a标签 for iframe in soup.find_all('iframe'): url_ifr = iframe['src'] # 取得当前iframe的src属性值 rr = requests.get(url_ifr) rr.encoding = 'gb2312' soup_ifr = BeautifulSoup(rr.text,'lxml') for a in soup_ifr.find_all('a'): link = a['href'] m = re.match(r'http:\/\/.*?(?=\/)',link) #print(link) if m: all_urls.add(m.group(0))
相关文章推荐
- Python中遇到的错误小结
- Python中list,tuple,dict,set的区别和用法
- python_GUI简单界面
- 基于Python使用CloudSight API实现简单的图像识别(image Recognition)
- Python中内置数据类型list,tuple,dict,set的区别和用法
- Python学习笔记整理3之输入输出、python eval函数
- python有关urllib,urllib2和requests应用记录
- Python中的expression和statement
- 2015-12-14(日记一)这段时间学习python爬虫
- Python_常见库
- python字典序从大到小排列
- Python字符串方法
- python学习--语句
- Python_类和装饰器
- [Python标准库]re——正则表达式[三]
- 用python的numpy作线性拟合、多项式拟合、对数拟合
- Python总结:Python基础(一)
- python-01:为什么想要做这一系列的博客
- python-ldap 报gcc错误
- 机器学习算法与Python实践之支持向量机