网页内容抓取分析---简单CSS选择器学习
2018-01-14 18:11
369 查看
Css 选择器
创建爬虫,分析目标网页内容,可以通过xpath方法,或者Css选择器的方法。以下介绍常用的Css选择器使用方法
表达式 | 说明 | 时间 |
---|---|---|
* | 选择所有节点 | |
# container | 选择id为container的节点元素 | |
.container | 选取所有class包含container的节点元素 | |
li a | 选取li元素下面所有的a节点元素 | |
ul + p | 选择ul后面的第一个p元素 | |
div # container > ul | 选取id为container的div节点下面的第一个ul子元素 | |
ul ~ p | 选取与ul相邻的所有p元素 | |
a[title] | 选取所有具有 title属性的a元素 | |
a[href=“http://51xiudao.cn”] | 选取所有href属性为51xiudao.cn值得a元素 | |
a[href*=”51xiudao”] | 选取所有href属性包含51xiudao的a元素 | |
a[href^=”http”] | 选取所有href以http开头的a元素 | |
a[href$=”.jpg”] | 选取所有href以 .jpg 结尾的a元素 | |
以上三项中 * ^ $ 涉及到正则表达式的相关内容 | 请查询我正则表达式相关文章 | |
input[type=radio]:checked | 选择宣州的radio元素 | |
div:not(#container) | 选择所有id不等于container的div元素 | |
li:nth-child(3) | 选取第三个li元素 | |
tr:nth-child(2n) | 选取偶数行 | |
新增 | 实用方法 | |
h1::text | 伪类选择器,获取 h1 标签内的文本(爬虫获取内容超级实用) | |
a::attr(href) | 伪类选择器,获取a连接href属性值 | 01/15 |
.abc.def | css中用两个class定位一个元素 例如< div class=”abc def” >xxx< / div> | 01/15 |
关于更多的Css 选择器相关知识,请google学习
相关文章推荐
- 使用PHP简单网页抓取和内容分析
- 使用PHP简单网页抓取和内容分析
- Python3学习(34)--简单网页内容抓取(爬虫入门一)
- 使用PHP简单网页抓取和内容分析
- 使用PHP简单网页抓取和内容分析
- 使用PHP简单网页抓取和内容分析
- 使用PHP简单网页抓取和内容分析
- HttpClient抓取网页内容简单介绍
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- node.js抓取并分析网页内容有无特殊内容的js文件
- Jsoup网页内容抓取分析(1)
- node.js抓取并分析网页内容有无特殊内容的js文件
- JSP学习笔记(七十五):使用HttpClient远程抓取网页内容
- 学习数据结构搜索的的意外收获哈。一个简单的基于java的网页抓取程序。
- Python简单抓取在线网页内容
- 抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项
- js网页内容抓取分析
- c#关于网页内容抓取,简单爬虫的实现。(包括动态,静态的)
- HttpClient抓取网页内容简单介绍