jsoup:解析HTML用法小结
2016-03-24 17:19
417 查看
1.解析方式
(1)从字符串解析
(1)搜索元素
(1)基本选择器
(1)从字符串解析
<span style="font-size:18px;">String html = "<html><head><title>First parse</title></head> <body><p>Parse HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html);</span>(2)从URL获取解析
<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com/").get(); String title = doc.title();</span>
<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com").data("query","Java") .userAgent("Mozilla").cookie("auth","token") .timeout(3000).post();</span>(3)从文件解析
File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");2.DOM方式遍历元素
(1)搜索元素
<span style="font-size:18px;">getElementById(String id) getElementByTag(String tag) getElementByClass(String className) getElementByAttribute(String key) siblingElements(), firstElementSibling(), lastElementSibling(), nextElementSibling(), previousElementSibling() parent(), children(), child(int index)</span>(2)获取元素数据
<span style="font-size:18px;">attr(String key) – 获取key属性 attributes() – 获取属性 id(), className(), classNames() text() – 获取文本内容 html() – 获取元素内部HTML内容 outerHtml() – 获取包括此元素的HTML内容 data() – 获取<srcipt>或<style>标签中的内容 tag(), tagName()</span>3.选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)
(1)基本选择器
<span style="font-size:18px;"> #id: 搜索有指定id的元素 .class: 搜索有指定class的元素 [attribute]: 搜索有attrribute属性的元素 [^attri]: 搜索有以attri开头的属性的元素 [attr=value]: 搜索有指定属性及其属性值的元素 [attr^=value], [attr$=value], [attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/] [attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素 *: 搜索所有元素</span>(2)选择器组合
<span style="font-size:18px;"> el#id: 同时指定标签名称和id el.class: 同时指定标签名称和class el[attr]: 同时指定标签名称和及其中所含属性的名称 上述3项的任意组合,如a[href].highlight ancestor child: 包含,如div.content p,即搜索<div class=”content”>下含有<p>标签的元素 ancestor > child: 直接包含,如div.content > p,即搜索直属<div class="content">节点下的<p>标签元素; div.content > *,即搜索<div class="content">下的所有元素 siblingA + siblingB: 直接遍历,如div.head + div,即搜索<div class="head"><div>的元素,其中不再包含子元素 siblingA ~ siblingX: 遍历,如h1 ~ p,即<h1>下直接或间接有<p>的元素 el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素</span>(3)伪选择器(条件选择器)
<span style="font-size:18px;">:lt(n): 搜索n号元素之前的元素 :gt(n): 搜索n号元素之后的元素 :eq(n): 搜索n号元素 :has(seletor): 搜索符合指定选择器的元素 :not(seletor): 搜索不符合指定选择器的元素 :contains(text): 搜索包含指定文本的元素,区分大小写 :containsOwn(text): 搜索直接指包含指定文本的元素 :matches(regex): 搜索符合指定正则表达式的元素 :matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素 注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,……</span>4.获取元素的属性、文本和HTML
<span style="font-size:18px;">获取元素的属性值:Node.attr(String key) 获取元素的文本,包括与其组合的子元素:Element.text() 获取HTML:Element.html()或Node.outerHtml()</span>5.操作URL
<span style="font-size:18px;">Element.attr("href") – 直接获取URL Element.attr("abs:href")或Element.absUrl("href") – 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串</span>6.测试例子
<span style="font-size:18px;">li[class=info] a[class=Author] - 空格前后表示包含关系,即表示li里的a div[class=mod mod-main mod-lmain]:contains(教学反思) - div中包含"教学反思",适合同时有多个同名DIV的情况</span>
<span style="font-size:18px;"> /* previousSibling()获取某标签前面的代码 nextSibling()获取某标签后的代码 如: <form id=form1> 第一名:Lily <br/> 第二名:Tom <br/> 第三名:Peter <br/> </form> */ Elements items = doc.select("form[id=form1]"); Elements prevs = items.select("br"); for(Element p : prevs){ String prevStr = p.previousSibling().toString().trim()); }</span>
<span style="font-size:18px;"> /* 最常用的链接抓取 */ String itemTag = "div[class=mydiv]"; String linkTag = "a" Elements items = doc.select(itemTag); Elements links = items.select(linkTag); for(Element l : links){ String href = l.attr("abs:href");//完整Href String absHref = l.attr("href");//相对路径 String text = l.text(); String title = l.attr("title"); }</span>
相关文章推荐
- JSP九大内置对象
- 随笔:弱类型语言javascript中的 |与|| ,&与&&,左移,右移,异或分析
- js 实现各个浏览器支持导出复杂excel
- 关于javascript跨域的解决方法
- javascript-leftpad方法
- JS--遍历DOM树
- Web前端性能优化——编写高效的JavaScript
- JS闭包
- jsp开发中cannot resolve taglib with uri的解决方法
- ExtJs4学习(四):Extjs 中id与itemId的差别
- alibaba的FastJson(高性能JSON开发包)
- bzoj 1012 [JSOI2008]最大数maxnumber
- 随笔:弱类型语言javascript中 a,b 的运算
- JavaScript之基础-3 JavaScript 数据类型、数据类型转换
- JS各种类型问题与隐式类型转换
- JavaScript高级程序设计学习笔记5
- json的使用
- jspspy database help
- 学习、阅读笔记——jsonP&Ajax
- hive json数据生成和处理