java 正则匹配提取html纯文本
2014-07-30 10:08
274 查看
本文来自于我的个人博客: java 正则匹配提取html纯文本
做内容的大家都知道,从html中直接提取纯文本是一个很大的问题,现将我做的正则匹配贴上:
做内容的大家都知道,从html中直接提取纯文本是一个很大的问题,现将我做的正则匹配贴上:
import java.util.regex.Matcher; import java.util.regex.Pattern; public class TestReg { static String reg = "<[a-zA-Z]+.*?>([\s\S]*?)</[a-zA-Z]*>"; public static void main(String[] args) { // TODO Auto-generated method stub String str = "<p></p><p> 我们以Buffer类开始对java.nio包的浏览历程。" + "这些类是java.nio的构造基础。这个系列中,我们将跟随《java NIO》书籍一起深入研究缓冲区," + "了解各种不同的类型,并学会怎样使用。</p><p> 一个Buffer对象" + "是固定数量的数据容器。其作用是一个存储器,或者分段运输区,在这里数据可被存储并在之后用于检索。" + "</p><p> Buffer类的家谱:</p><p> " + "<img src="http://photo.jfq24.com/image/bigger/blog/server/upload/2014-07/user_2/13711406446068247.png" " + "title="2014-07-27_1527.png"></p><p> <strong>一,缓冲区基础</strong>" + "</p><p> 1.缓冲区的属性:</p><p> " + "容量(capacity):缓冲区能够容纳的数据元素的最大数量,这一容量是在缓冲区被创建时设置的,并且永远不能被改变</p>" + "<p> 上界(limit): 缓冲区的第一个不能被读或写的元素。" + "或者说,缓冲区中现存元素的计数。</p><p> 位置(position): " + "下一个要被读或写的元素的索引,位置会自动由相应的get()和put()函数更新。</p><p> " + " 标记(mark): 一个备忘位置,调用mark()来设定mark=position.调用reset()设定position=mark。" + "标记在设定前是未定义的(undefied)。</p><p> 这四个属性的关系如下:</p"; Pattern p = Pattern.compile(reg, Pattern.MULTILINE); str = str.replace(" ", ""); Matcher m = p.matcher(str); while(m.find()) { String data = m.group(1).trim(); if(!"".equals(data)) { System.out.println(data); } } } }
相关文章推荐
- java 正则表达式提取html纯文本
- Java正则表达式提取html纯文本
- Java/Js下使用正则表达式匹配嵌套Html标签
- java正则表达式来替换文本中匹配正则的内容
- java正则匹配html片段,并取得标签中的内容
- Java经典实例:正则表达式,找到匹配的文本
- java正则表达式(HTML提取)
- java 正则 块转义,忽略大小写,匹配换行模式,匹配先前匹配的文本(解释正则运行机制)
- Java经典实例:正则表达式,替换匹配的文本
- 使用Java正则表达式匹配、替换HTML内容
- Java正则去除文本中的HTML标签
- 正则 去除html文本和匹配邮箱
- java 正则 块转义,忽略大小写,匹配换行模式,匹配先前匹配的文本(解释正则运行机制)
- 使用java正则表达式提取文本中所有邮箱地址
- Java正则 HTML 标签 得到 纯文本
- Java/Js下使用正则表达式匹配嵌套Html标签
- 正则表达式:java中匹配HTML中a标签中的中文字符
- 匹配html img 标签的正则表达式 java
- Java/Js下使用正则表达式匹配嵌套Html标签
- 通过正则表达式提取HTML正文(java实现)