python_基于bs4html内容遍历
2017-07-02 09:37
183 查看
标签树的下行遍历
.contents(内容) 子节点的列表,将<tag>所有的儿子节点存入列表
.childern(孩子) 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
.descendants (后裔)子孙节点的迭代类型,包含所有子孙节点,用于循环遍历from bs4 import BeautifulSoup
import requests
try:
r=requests.get("http://python123.io/ws/demo.html",timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print('head标签',soup.head)#<head><title>This is a python demo page</title></head>
#head内容
print('head标签的内容',soup.head.contents)
print('body标签的内容',soup.body.contents)
#遍历子节点
for child in soup.body.children:
print(child)
#遍历子孙节点
for descendants in soup.body.descendants:
print('子孙节点',descendants)
except:
print("有点问题")
标签树的上行遍历:
.parent 节点的父亲标签
.parents 节点先辈标签的迭代类型,用于循环遍历先辈节点
from bs4 import BeautifulSoup
import requests
try:
#接收响应
r=requests.get("http://python123.io/ws/demo.html",timeout=30)
#异常
r.raise_for_status()
#编码
r.encoding=r.apparent_encoding
#接收返回的html 用BeautifulSoup 进行处理
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup)
#打印 标签树的上行遍历
for parent in soup.a.parents:
if parent is None :
print(parent)
else:
print('a',parent.name)
except:
print('异常')
标签树的平行遍历(平行遍历发生在同一节点下):
.next_sibling 返回按照html文本顺序的下一个平行节点标签
.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
.next_siblings 迭代类型,返回按照HTML 文本顺序的后续所有平行节点标签
.previous_siblings 迭代类型,返回按照HTML文本顺序的前续所有平行节点标签
.contents(内容) 子节点的列表,将<tag>所有的儿子节点存入列表
.childern(孩子) 子节点的迭代类型,与.contents类似,用于循环遍历儿子节点
.descendants (后裔)子孙节点的迭代类型,包含所有子孙节点,用于循环遍历from bs4 import BeautifulSoup
import requests
try:
r=requests.get("http://python123.io/ws/demo.html",timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print('head标签',soup.head)#<head><title>This is a python demo page</title></head>
#head内容
print('head标签的内容',soup.head.contents)
print('body标签的内容',soup.body.contents)
#遍历子节点
for child in soup.body.children:
print(child)
#遍历子孙节点
for descendants in soup.body.descendants:
print('子孙节点',descendants)
except:
print("有点问题")
标签树的上行遍历:
.parent 节点的父亲标签
.parents 节点先辈标签的迭代类型,用于循环遍历先辈节点
from bs4 import BeautifulSoup
import requests
try:
#接收响应
r=requests.get("http://python123.io/ws/demo.html",timeout=30)
#异常
r.raise_for_status()
#编码
r.encoding=r.apparent_encoding
#接收返回的html 用BeautifulSoup 进行处理
demo=r.text
soup=BeautifulSoup(demo,'html.parser')
print(soup)
#打印 标签树的上行遍历
for parent in soup.a.parents:
if parent is None :
print(parent)
else:
print('a',parent.name)
except:
print('异常')
标签树的平行遍历(平行遍历发生在同一节点下):
.next_sibling 返回按照html文本顺序的下一个平行节点标签
.previous_sibling 返回按照HTML文本顺序的上一个平行节点标签
.next_siblings 迭代类型,返回按照HTML 文本顺序的后续所有平行节点标签
.previous_siblings 迭代类型,返回按照HTML文本顺序的前续所有平行节点标签
相关文章推荐
- Python——BeautifulSoup库(二)——基于bs4库的HTML内容遍历方法
- Python网络爬虫与信息提取-Day7-基于bs4库的HTML内容遍历方法
- python爬虫由浅入深4--基于bs4的html内容遍历方法
- python 学习记录(11)-文件处理/读取文件/文件写入内容/文件删除/文件复制/文件重命名/后缀名/内容查找与替换/文件比较/ 配置文件访问/目录创建与删除/遍历目录/定向输出
- python遍历文件及其替换文件内容
- python爬虫由浅入深6--基于bs4库的HTML内容的查找方法
- 边缘检测,肖像胶卷色彩cameo.py/filters.py/utils.py文件内容,基于python2.7,IDE:spyder
- 基于词典的社交媒体内容的情感分析(Python实现)
- 用Python遍历文件并搜索文件内容
- Python基于正则表达式实现检查文件内容的方法【文件检索】
- Python基于正则表达式实现文件内容替换的方法
- Python爬虫爬取新浪微博内容示例【基于代理IP】
- 输出文件中不包含指定的多个排除词的行内容(双重遍历) 分类: python 小练习 2013-11-22 15:20 605人阅读 评论(0) 收藏
- python 遍历指定文件夹下的所有文件内容
- python基于BeautifulSoup实现抓取网页指定内容的方法
- 基于python Scrapy的爬虫——爬取某网站新闻内容
- Python os.path.walk遍历文件,搜索文件里面的内容
- python基于BeautifulSoup实现抓取网页指定内容的方法
- python——爬虫学习——基于bs4库的HTML内容查找方法-(3)
- Python遍历目录并查找文件内容