您的位置：首页 > 理论基础 > 计算机网络

python网络数据采集第一天

2017-08-15 14:21 363 查看

findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)标签参数tag ：传一个标签的名称或多个标签名称组成的 Python 列表做标签参数属性参数attributes 是用一个 python 字典封装一个标签的若干属性和对应的属性值递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息？如果 recursive 设置为 True ，findAll 就会根据你的要求去查找标签参数的所有子标签，以及子标签的子标签。如果 recursive 设置为 False ，findAll 就只查找文档的一级标签。findAll 默认是支持递归查找的（recursive 默认值是 True ）；文本参数 text 用标签的文本内容去匹配，而不是用标签的属性在 BeautifulSoup 库里，所有的子标签都是后代标签，但不是所有的后代标签都是子标签。如果你只想找出子标签，可以用 .children 标签
BeautifulSoup 的 next_siblings() 函数可以让收集表格数据成为简单的事情.

在抓取网页的时候，查找父标签的需求比查找子标签和兄弟标签要少很多。通常情况
下，如果以抓取网页内容为目的来观察 HTML 页面，我们都是从最上层标签开始的，然
后思考如何定位我们想要的数据块所在的位置。但是，偶尔在特殊情况下你也会用到
BeautifulSoup 的父标签查找函数， parent 和 parents 。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： python 数据采集

相关文章推荐

新的分享

章节导航