您的位置：首页 > 编程语言 > Python开发

Python爬虫——4-2.数据筛选之XPath

2018-01-12 21:52 190 查看

爬虫数据筛选——XPath

在使用爬虫爬取的数据可以分为两种，非结构化数据：数据的内容没有固定的格式和规范，如用户名、邮箱、账号、电话号码、地址、电影名称、评分、评论、商品名称等等，对此类数据的筛选我们一般使用正则表达式，效率较高且非常精准，而对于一些有特定规范的数据如HTML网页文档、XML网页文档、JSON等等，由于数据本身存在一定的规律性，可以通过针对这些规律的分析工具进行数据的提取：**正则表达式、Xpath、BeautifulSoup4、select、css等等，本篇我们主要学习XPath，做个笔记，方便以后学习吧~

Xpath原本是在可扩展标记语言XML中进行数据查询的一种描述语言，可以很方便的在XML文档中查询到具体的数据；后续再发展过程中，对于标记语言都有非常友好的支持，如超文本标记语言HTML。

一、认识Xpath

1.Xpath应用环境的搭建——lxml的安装

正如在python中有一个内置的re模块用来支持正则表达式语法一样，python中有一个第三方的lxml模块，可以方便的支持Xpath的各种操作，可以友好的解析Xpath语法，使其用于在程序中进行结构化数据筛选。

安装命令如下:

pip install lxml

python2 -m pip install lxml

pip2 install lxml

2.在操作Xpath之前，首先需要了解一些基础的技术术语

二、python操作Xpath

python第三方模块lxml可以对Xpath有友好的支持，lxml是C实现的一种高性能python用于HTML/XML的解析模块，可以通过Xpath语法在html文档数据中进行指定表达式数据的索引查询

* 简单etree操作

```

# -*- coding:utf-8 -*-

from lxml import etree

# 模拟得到爬虫数据

content = """

<html>

<head>

<title>大牧</title>

</head>

<body>

<h1>个人简介</h1>

<div>

<p>姓名：某某某</p>

<p>住址：中国乡下</p>

<p>座右铭：岂能尽如人意，但求无愧于心</p>

</div>

</body>

</html>

"""

# 转换成html数据

# html = etree.parse("index.html")# 从文件中直接加载html数据

html = etree.HTML(content)# 通过etree.HTML()函数将字符串转换成HTML文档对象

print dir(html)# 查看文档对象的所有函数

print html.getchildren()# 查看文档对象根节点的所有子节点

# 转换成字符数据

str_html = etree.tostring(html)# 将HTML文档对象转换成字符串

print type(str_html)# 查看输出类型

print str_html# 查看输出数据

* xpath操作

```

# -*- coding:utf-8 -*-

from lxml import etree

# 模拟得到爬虫数据

content = u"""

<html>

<head>

<title>大牧</title>

</head>

<body>

<h1 name="title">个人简介</h1>

<div name="desc">

<p name="name">姓名：<span>某某某</span></p>

<p name="addr">住址：中国乡下</p>

<p name="info">座右铭：岂能尽如人意，但求无愧于心</p>

</div>

</body>

</html>

"""

# 将爬取到的数据转换成HTML文档

html = etree.HTML(content)

# 查询所有的p标签

p_x = html.xpath("//p")

print(p_x)

# 查询所有Name属性的值

v_attr_name= html.xpath("//@name")

print(v_attr_name)

# 查询所有包含name属性的标签

e_attr_name = html.xpath("//*[@name]")

print(e_attr_name)

# 查询所有包含name属性，并且name属性值为desc的标签

e_v_attr_name = html.xpath("//*[@name='desc']")

print(e_v_attr_name)

# 查询所有p标签的文本内容,不包含子标签

p_t = html.xpath("//p")

for p in p_t:

print (p.text)

# 查询多个p标签下的所有文本内容，包含子标签中的文本内容

p_m_t = html.xpath("//p")

for p2 in p_m_t:

print(p2.xpath("string(.)"))

```
案例操作：爬虫智联招聘中前10页的某个工作岗位名称、薪水、公司信息

# coding:utf-8
'''
使用xpath爬取智联招聘职位信息
'''
import requests
from lxml import etree

# 访问路由
url='http://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E5%8C%97%E4%BA%AC%2B%E4%B8%8A%E6%B5%B7%2B%E5%B9%BF%E5%B7%9E%2B%E6%B7%B1%E5%9C%B3&kw=python%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88&p=1&isadv=0'
# 设置访问头
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}
# 发送请求
response=requests.get(url,headers=headers)

# 根据网页数据，转换为html
html=etree.HTML(response.text)

# 使用xpath语法进行匹配
# 获取职位名称
job_names=html.xpath("//table[@class='newlist']/tr[1]/td[@class='zwmc']/div")
#job_names=html.xpath("//div[@id='newlist_list_content_table']/table[@class='newlist']/tr[1]/td[@class='zwmc']/div/a")
# 定义职位名称列表
name_list=[]
for job_name in job_names:
job_name2=job_name.xpath('string(.)').strip()
name_list.append(job_name2)

# 获取职位月薪
month_nums=html.xpath("//table[@class='newlist']/tr[1]/td[@class='zwyx']")
#定义保存月薪的列表
num_list=[]
for num in month_nums:
num2=num.xpath('string(.)').strip()
num_list.append(num2)

# 获取公司名称
company_names=html.xpath("//table[@class='newlist']/tr[1]/td[@class='gsmc']")
#定义保存月薪的列表
company_list=[]
for company_name in company_names:
company_name2=company_name.xpath('string(.)').strip()
company_list.append(company_name2)

max_list=[]
max_list.append(name_list)
max_list.append(num_list)
max_list.append(company_list)

f = open('zl.txt', 'w')
i=0
for i in range(0,len(company_list)):
info= max_list[0][i]+'|'+max_list[1][i]+'|'+max_list[2][i]+"\r\n"
print info
f.write(info.encode('utf-8'))
f.close()

# 打开zl.txt文件，保存内容格式如下
'''
python开发工程师|10001-15000|乐飞天下信息技术(北京)有限公司Python开发工程师|15001-20000|乐飞天下信息技术(北京)有限公司python开发工程师|6001-8000|北京红枣科技有限公司......
'''

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航