python爬虫由浅入深6--基于bs4库的HTML内容的查找方法
2017-09-26 19:54
465 查看
基于bs4库的HTML内容的查找方法:
实例:提取http://python123.io/ws/demo.html链接中的所有url思路:1.搜索所有的<a>标签
2.解析<a>标签格式,提取href后的链接内容
实现代码如下:
import requests from bs4 import BeautifulSoup r = requests.get("http://python123.io/ws/demo.html") demo = r.text soup = BeautifulSoup(demo,"html.parser") for link in soup.find_all('a'): print(link.get('href'))
此处用到的就是传说中的find_all()方法!!!
关于find_all()的用法,下面细细道来~~
<>.find_all(name,attrs,recursive,string,**kwargs) 函数返回的是一个列表类型,存储查找结果参数:
name:对标签名称的检索字符串,返回一个列表类型。。name可以是一个字符串,也可以是一个包含多个标签名称的列表类型
attrs:对标签属性值的检索字符串,可以标注属性检索
recursive:是否对子孙的全部检索,默认为True
string:<>....</>中字符区域的检索字符串
find_all()的简化形式
<tag>(...) 等价于<tag>.find_all(...)
soup(..) 等价于soup.find_all(...)
find_all()的扩展方法,如下
相关文章推荐
- python——爬虫学习——基于bs4库的HTML内容查找方法-(3)
- python爬虫由浅入深4--基于bs4的html内容遍历方法
- Python——BeautifulSoup库(二)——基于bs4库的HTML内容遍历方法
- Python网络爬虫与信息提取-Day7-基于bs4库的HTML内容遍历方法
- 基于bs4的HTML内容遍历方法
- 【用Python写爬虫】获取html的方法【二】:使用pycurl
- 【用Python写爬虫】获取html的方法【一】:使用urllib
- 【用Python写爬虫】获取html的方法【三】:使用cPAMIE
- python查找指定具有相同内容文件的方法
- 【用Python写爬虫】获取html的方法【一】:使用urllib
- 基于python Scrapy的爬虫——爬取某网站新闻内容
- 简单的python2.7基于bs4和requests的爬虫
- [原创]一种基于Python爬虫和Lucene检索的垂直搜索引擎的实现方法介绍
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
- 【用Python写爬虫】获取html的方法【五】:利用Twisted框架之client.getPage
- paip.uapi 获取网络url内容html 的方法java php ahk c++ python总结.
- Python实现批量将word转html并将html内容发布至网站的方法
- java爬虫爬取的html内容中空格( )变为问号“?”的解决方法
- python基于BeautifulSoup实现抓取网页指定内容的方法
- Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容