您的位置:首页 > 理论基础 > 计算机网络

python网络数据采集第一天

2017-08-15 14:21 363 查看
findAll(tag, attributes, recursive, text, limit, keywords)find(tag, attributes, recursive, text, keywords)标签参数tag :传一个标签的名称或多个标签名称组成的 Python 列表做标签参数属性参数attributes 是用一个 python 字典封装一个标签的若干属性和对应的属性值递归参数 recursive 是一个布尔变量。你想抓取 HTML 文档标签结构里多少层的信息?如果 recursive 设置为 True ,findAll 就会根据你的要求去查找标签参数的所有子标签,以及子标签的子标签。如果 recursive 设置为 False ,findAll 就只查找文档的一级标签。findAll 默认是支持递归查找的(recursive 默认值是 True );文本参数 text 用标签的文本内容去匹配,而不是用标签的属性在 BeautifulSoup 库里,所有的子标签都是后代标签,但不是所有的后代标签都是子标签。如果你只想找出子标签,可以用 .children 标签
BeautifulSoup 的 next_siblings() 函数可以让收集表格数据成为简单的事情.

在抓取网页的时候,查找父标签的需求比查找子标签和兄弟标签要少很多。通常情况
下,如果以抓取网页内容为目的来观察 HTML 页面,我们都是从最上层标签开始的,然
后思考如何定位我们想要的数据块所在的位置。但是,偶尔在特殊情况下你也会用到
BeautifulSoup 的父标签查找函数, parent 和 parents 。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  python 数据采集