您的位置:首页 > 编程语言 > Java开发

Java去掉字符串中所有的标签,获取纯文本内容

2017-02-09 22:38 561 查看
public class Test {
/**
* @Title: main
* @Description:
* @param args
* @author
* @date 2016年2月17日
* 1、去掉字符串中所有的标签,获取纯文本内容
* 2、获取html节点中img的src路径
*/
public static void main(String[] args) {
String html = "<div><p style='color:red;'>12132第一串字符</p></div><br /><div><p>这是第二窜字符</p></div><img width='199' src='_image/12/label'/><img width='199' src='_image/13/label'/><img width='199' src='_image/14/label'/>";
Pattern p = Pattern.compile("<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>");
Matcher m = p.matcher(html);
List<String> srcs = new ArrayList<String>();
while(m.find()){
srcs.add(m.group(1));
}
String regex = "<[^>]*>";
String str = html.replaceAll(regex, "");
System.out.println(str+"\n"+srcs.get(0));
}
}
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: