JAVA过滤标签实现将html内容转换为文本的方法示例
2017-07-07 09:53
1131 查看
本文实例讲述了JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:
/** * 把html内容转为文本 * @param html 需要处理的html文本 * @param filterTags 需要保留的html标签样式 * @return */ public static String trimHtml2Txt(String html, String[] filterTags){ html = html.replaceAll("\\<head>[\\s\\S]*?</head>(?i)", "");//去掉head html = html.replaceAll("\\<!--[\\s\\S]*?-->", "");//去掉注释 html = html.replaceAll("\\<![\\s\\S]*?>", ""); html = html.replaceAll("\\<style[^>]*>[\\s\\S]*?</style>(?i)", "");//去掉样式 html = html.replaceAll("\\<script[^>]*>[\\s\\S]*?</script>(?i)", "");//去掉js html = html.replaceAll("\\<w:[^>]+>[\\s\\S]*?</w:[^>]+>(?i)", "");//去掉word标签 html = html.replaceAll("\\<xml>[\\s\\S]*?</xml>(?i)", ""); html = html.replaceAll("\\<html[^>]*>|<body[^>]*>|</html>|</body>(?i)", ""); html = html.replaceAll("\\\r\n|\n|\r", " ");//去掉换行 html = html.replaceAll("\\<br[^>]*>(?i)", "\n\r"); List<String> tags = new ArrayList<String>(); List<String> s_tags = new ArrayList<String>(); List<String> halfTag = Arrays.asList(new String[]{"img","table","thead","th","tr","td"});// if(filterTags != null && filterTags.length > 0){ for (String tag : filterTags) { tags.add("<"+tag+(halfTag.contains(tag)?"":">"));//开始标签 if(!"img".equals(tag)) tags.add("</"+tag+">");//结束标签 s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等 if(!"img".equals(tag)) s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#"); } } html = StringUtils.replaceEach(html, tags.toArray(new String[tags.size()]), s_tags.toArray(new String[s_tags.size()])); html = html.replaceAll("\\</p>(?i)", "\n\r"); html = html.replaceAll("\\<[^>]+>", ""); html = StringUtils.replaceEach(html,s_tags.toArray(new String[s_tags.size()]),tags.toArray(new String[tags.size()])); html = html.replaceAll("\\ ", " "); return html.trim(); }
PS:这里再为大家推荐一款功能类似的在线工具供大家参考使用:
在线html/js/css代码过滤工具
http://tools.jb51.net/code/htmlfilter
另外,关于正则操作,这里再为大家推荐两款相关在线工具:
JavaScript正则表达式在线测试工具:
http://tools.jb51.net/regex/javascript
正则表达式在线生成工具:
http://tools.jb51.net/regex/create_reg
更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总》
希望本文所述对大家java程序设计有所帮助。
您可能感兴趣的文章:
相关文章推荐
- JAVA 过滤标签将html内容转换为文本
- JAVA 过滤标签将html内容转换为文本
- Java 获取Html文本中的img标签下src中的内容方法
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例 .
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- PHP实现网页内容html标签补全和过滤的方法小结【2种方法】
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- Java 语言实现清除带 html 标签的内容方法
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- 使用Java把文本内容转换成网页的实现方法分享
- JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
- 使用java正则表达式过滤HTML ,获取<body>标签中的内容解决思路
- C#实现过滤html标签并保留a标签的方法
- jQuery获取标签文本内容和html内容的方法
- 网页内容的html标签补全和过滤的两种方法