Java去掉字符串中所有的标签,获取纯文本内容
2017-02-09 22:38
561 查看
public class Test { /** * @Title: main * @Description: * @param args * @author * @date 2016年2月17日 * 1、去掉字符串中所有的标签,获取纯文本内容 * 2、获取html节点中img的src路径 */ public static void main(String[] args) { String html = "<div><p style='color:red;'>12132第一串字符</p></div><br /><div><p>这是第二窜字符</p></div><img width='199' src='_image/12/label'/><img width='199' src='_image/13/label'/><img width='199' src='_image/14/label'/>"; Pattern p = Pattern.compile("<img[^>]+src\\s*=\\s*['\"]([^'\"]+)['\"][^>]*>"); Matcher m = p.matcher(html); List<String> srcs = new ArrayList<String>(); while(m.find()){ srcs.add(m.group(1)); } String regex = "<[^>]*>"; String str = html.replaceAll(regex, ""); System.out.println(str+"\n"+srcs.get(0)); } }
相关文章推荐
- Java去掉字符串中所有的标签,获取纯文本内容,获取src
- js去掉html标签和去掉字符串文本的所有的空格
- js去掉html标签和去掉字符串文本的所有的空格
- js去掉html标签和去掉字符串文本的所有的空格
- Java 获取Html文本中的img标签下src中的内容
- Java 获取Html文本中的img标签下src中的内容方法
- Java 获取Html文本中的img标签下src中的内容
- 关于java 获取 html select标签 下拉框 option 文本内容 隐藏域
- js去掉html标签和去掉字符串文本的所有的空格
- js去掉html标签和去掉字符串文本的所有的空格
- 获取html字符串中第一张图片的路径以及获取html字符串中的文字内容(去掉标签)
- Java后台去除前台传递数据中的页面标签(HTML,Javascript,Style),获取文本内容!
- java 替换文本内容中的html标签
- 从html文本中获取所有img标签
- 获取select标签的文本内容以及Value值
- java正则表达式去掉所有HTML标签
- [Java] 利用xpdf库获取pdf文件的指定范围文本内容
- 去掉内容中的所有全部html标签。
- 去掉内容中的所有全部html标签。
- 去掉内容中的所有全部html标签。