如何去除html标签得到纯文本内容
2016-08-23 21:47
791 查看
public static String Html2Text(String inputString){
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try{
String regEx_script =
"<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
//定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
}
String regEx_style =
"<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
//定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
}
String regEx_html =
"<[^>]+>";
//定义HTML标签的正则表达式
p_script =
Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style =
Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html =
Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
textStr = htmlStr;
}catch(Exception e){
Manager.log.debug("neiNewsAction","Html2Text: " +
e.getMessage());
}
return textStr;//返回文本字符串
}
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try{
String regEx_script =
"<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
//定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
}
String regEx_style =
"<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
//定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
}
String regEx_html =
"<[^>]+>";
//定义HTML标签的正则表达式
p_script =
Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style =
Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html =
Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
textStr = htmlStr;
}catch(Exception e){
Manager.log.debug("neiNewsAction","Html2Text: " +
e.getMessage());
}
return textStr;//返回文本字符串
}
相关文章推荐
- MVC中html转义问题(直接输出html的方法)
- 菜鸟日记-HTML-表格与表单
- 菜鸟日记-HTML
- html中相关知识点的汇总
- webpack htmlWebpackPlugin 静态资源 版本控制
- 909422229__新手学习HTML【待续】
- HTML head 头标签详细解答
- HTML 页面文字 上标 下标
- html iframe
- HTML基础篇——a标签
- Html特殊字符
- .NET解析HTML库集合
- 浅谈script在html中的摆放位置
- html实现可输入下拉框
- HTML li如何垂直居中
- 您只能在 HTML 输出流中使用 document.write。 如果您在文档已加载后使用它(比如在函数中),会覆盖整个文档。
- 3D变化——旋转的立方体
- 关于html中select选中的问题
- html
- HTML Iframe窗口在页面跳转