【Java Utility】Jsoup网页爬虫工具--使用DOM方法浏览Document【七】
2017-04-26 21:18
696 查看
原文出自https://jsoup.org/cookbook/extracting-data/dom-navigation
需求:
已知某个HTML文档的结构,需要从中提取数据。
解决方案:
将HTML解析成Document,使用类似DOM的方法
Elements【元素集】提供了一系列类似DOM的方法来查找元素,并提取和操作这些元素的数据。
查找元素:
获取元素数据:
操作HTML及文本:
需求:
已知某个HTML文档的结构,需要从中提取数据。
解决方案:
将HTML解析成Document,使用类似DOM的方法
File input = new File("/tmp/input.html"); Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/"); Element content = doc.getElementById("content"); Elements links = content.getElementsByTag("a"); for (Element link : links) { String linkHref = link.attr("href"); String linkText = link.text(); }说明:
Elements【元素集】提供了一系列类似DOM的方法来查找元素,并提取和操作这些元素的数据。
查找元素:
getElementById(String id) //通过id获取元素 getElementsByTag(String tag) //通过tag获取元素集 getElementsByClass(String className) //通过className获取元素集 getElementsByAttribute(String key) (and related methods) //通过属性名获取元素集 Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling() Graph: parent(), children(), child(int index) //同级元素的获取
获取元素数据:
attr(String key) //获取或设置属性值 attributes() //获取所有属性 id(), className() and classNames() //获取id或className或classNames text() //获取或设置text内容 html() //获取或设置元素内html内容 outerHtml() //获取元素外部HTML内容 data() //获取data tag() and tagName() //获取tag或tagName
操作HTML及文本:
append(String html), prepend(String html) appendText(String text), prependText(String text) appendElement(String tagName), prependElement(String tagName) html(String value)
相关文章推荐
- 【Java Utility】Jsoup网页爬虫工具--从文件加载Document【六】
- 【Java Utility】Jsoup网页爬虫工具--将String解析成Document【三】
- 【Java Utility】Jsoup网页爬虫工具--从URL加载Document【五】
- 【Java Utility】Jsoup网页爬虫工具-使用选择器查找元素【八】
- 【Java Utility】Jsoup网页爬虫工具--从元素/元素集中提取属性、文本和HTML内容【九】
- 【Java Utility】Jsoup网页爬虫工具--解析HTML语句片段【四】
- 【Java Utility】Jsoup网页爬虫工具--设置Element的HTML内容【十二】
- 【Java Utility】Jsoup网页爬虫工具--设置属性值【十一】
- 【Java Utility】Jsoup网页爬虫工具--文档解析及转换【二】
- 【Java Utility】Jsoup网页爬虫工具简介Java HTML PARSER【一】
- 【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档
- 爬虫 Http请求,urllib2获取数据,第三方库requests获取数据,BeautifulSoup处理数据,使用Chrome浏览器开发者工具显示检查网页源代码,json模块的dumps,loads,dump,load方法介绍
- 【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档
- java爬虫(使用jsoup设置代理,抓取网页内容)
- JAVA使用爬虫抓取网站网页内容的方法
- [Java爬虫] 使用 Jsoup + HttpClient 爬取网页图片
- 【使用JSOUP实现网络爬虫】从一个URL加载一个Document
- Java开发工具IntelliJ IDEA本地历史记录的使用方法
- Java keytool工具的作用及使用方法--数字签名
- 分别使用innerHTML和DOM在网页中动态生成表格的三种不同方法。