您的位置：首页 > 理论基础 > 计算机网络

Python网络爬虫之BeautifulSoup库

2017-07-28 12:00 375 查看

BeautifulSoup是Python的第三方库，可以对HTML和XML格式的内容进行解析，并且提取其中的相关信息。BS可以对被提供的任何格式的内容进行爬取，并且进行树形解析。

1.BeautifulSoup库的安装

它的安装也可以利用pip命令。首先使用管理员权限启动cmd命令台，然后使用以下命令进行安装。

pip install beautifulsoup

如果提示安装错误，请检查在Python的安装中是否允许了pip插件，具体内容可以参照这篇关于Python安装的讲解。

Beautifulsoup库（bs4库）是维护、遍历、解析HTML标签树的功能库,其中BeautifulSoup类是bs4库中最基本的类。

学习bs4库的基本功能前，我们首先要仔细了解BeautifulSoup类的基本元素，方便以后更高效的使用bs4库。


名称	说明
Tag	标签，最基本的信息组织单元，分别用 <> 和 </> 标明开头和结尾，与HTML内标签对应
Name	标签的名字， <>……</p> 的名字是‘p’，可以用 <tag>.name 获取标签名字
Attributes	标签的属性，字典形式组织，可以用 <tag>.attrs 获取标签属性
NavigableString	标签内非属性字符串， <>……</> 中字符串，可以用 <tag>.string 获取标内字符串
Comment	标签内字符串的注释部分，一种特殊的Comment类型

网页内容有很多格式，对应也有很多的解析器，对网页内容进行解析。目前通用的有以下这些。


名称	实例
bs4的HTML解析器	BeautifulSoup(mk,’html.parser’)
lxml的HTML解析器	BaeutifulSoup(mk,’lxml’)
lxml的XML解析器	BeautifulSoup(mk,’xml’)
html5lib的解析器	BeautifulSoup(mk,’html5lib’)

*表格中第一项要在安装BeautifulSoup库之后使用，第2、3项要在

pip install lxml

后使用，最后一项则需要在

pip install html5lib

后使用

HTML网页是由标签构成的树形结构，如果需要提取和分析网页的内容，必须要能够对标签树结构进行遍历，这样才能完整获得标签树中的内容。

4000

根据HTML标签树的基本格式，如果想遍历所有内容，大致有三种路线：

下行遍历：由父亲节点向儿子节点和子孙节点遍历

上行遍历：由子孙节点向父亲节点遍历

平行遍历：在同一个父亲节点下，向同一级节点遍历

下行遍历方式中，bs4库提供以下3种属性：


属性	说明
<tag>.contents	子节点的列表，将 <tag> 所有儿子节点存入列表
<tag>.children	子节点的迭代类型，与.contents类似，用于循环遍历儿子节点
<tag>.descendants	子孙节点的迭代类型，包含所有子孙节点，用于循环遍历

下面通过代码示例进行演示：[github code]

上行遍历方式中，bs4库提供以下2种属性：

下面通过代码示例进行演示：[github code]

平行遍历方式中，bs4库提供以下4种属性：


属性	说明
<tag>.parent	节点的父亲标签
<tag>.parents	节点先辈标签的迭代类型，用于循环遍历先辈节点
<tag>.next_siblings	迭代类型，返回按照HTML文本顺序的后续所有平行节点标签
<tag>.previous_siblings	迭代类型，返回按照HTML文本顺序的前序所有平行节点标签

下面通过代码示例进行演示：[github code]

为了让HTML页面的内容更加友好的显示，bs4库提供

prettify()

方法进行相关的处理，在实际调试中将为用户提供很多方便。

html=requests.get(url)
soup=BeautifulSoup(html,'html.parser')
print(soup.prettify())

同时，bs4库将所有内容都采用UTF-8编码进行编码，UTF-8可以很好的支持中文等语言显示。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航