您的位置：首页 > 编程语言 > Python开发

Python3网络爬虫开发实践——第4章—解析库的使用—4.3使用pyquery

2019-01-29 10:00 549 查看

1.准备工作

请先确保已经安装了pyquery库，使用import语句导入模块，如果导入失败，请先安装：

[code]pip install pyquery -i https://pypi.tuna.tsinghua.edu.cn/simple

导入模块：

[code]import pyquery

2.初始化

2.1 字符串初始化

[code]html = """
<div>
<ul>
<li class="item-O">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
"""
doc = pyquery.PyQuery(html)
print(doc("li"))

输出结果：

[code]<li class="item-O">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>

如上结果所示：输出了html中的所有li节点。

2.2 URL初始化

初始化的参数可以是字符串，也可以传入网页的URL

[code]doc = pyquery.PyQuery(url="https://cuiqingcai.com")
print(doc("title"))

输出结果：

[code]<title>静觅丨崔庆才的个人博客</title>&#13;

2.3 文件初始化

[code]doc = pyquery.PyQuery(filename="demo.html")
print(doc("li"))

这里需要一个本地文件：demo.html。上述代码首先会读取本地的文件内容，然后将文件内容以字符串的形式传递给Pyquery类进行初始化。

3.基本CSS选择器

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航