通过正则表达式提取HTML正文(java实现)
2016-01-04 20:15
567 查看
场景:现有一批大量的网页数据,已经抓取到网页的body内容,但是其中有很多 <\span>、 <\p>、<\img>、<\br>、<\strong> 等标签,需要将这些标签全部过滤掉,只留下正文信息。
import java.io.BufferedReader; import java.io.File; import java.io.FileReader; import java.io.IOException; import java.util.regex.Matcher; import java.util.regex.Pattern; public class GetContent { private static String REGEX = "<.+?>"; private static String INPUT = ""; private static String REPLACE = ""; public static void main(String[] args) throws IOException { File file = new File("G:\\test.txt"); BufferedReader reader = new BufferedReader(new FileReader(file)); String tempString = null; // 一次读入一行,直到读入null为文件结束 while ((tempString = reader.readLine()) != null) { INPUT += tempString; } reader.close(); Pattern p = Pattern.compile(REGEX); Matcher m = p.matcher(INPUT); // 获得匹配器对象 INPUT = m.replaceAll(REPLACE); System.out.println(INPUT); } }
相关文章推荐
- Java数据类型和MySql数据类型对应表
- JAVA多线程机制之同步与互斥
- Eclipse中出现莫名其妙的ClassNotFound的情况
- 解决Eclipse构建Maven项目时web.xml is missing错误
- java 类动态加载 / static 语句块加载一次
- 学习 Java UDP 小结
- java日期组件
- Java EL 详细用法讲解
- Java8删除了jdbc.odbc驱动
- java的Iterator
- Java并发编程之CountDownLatch
- java js 日期总结
- javaEmail发送邮件问题总结
- XmlPullParserException: Unexpected token (position:TEXT @1:2 in java.io.StringReader)
- java压缩多个文件并且返回流示例
- 深入分析JavaWeb Item42 -- JavaMail创建邮件和发送邮件
- java.lang.IllegalStateException: The content of the adapter has changed but ListView..
- struts2 s:iterator标签
- 深入分析JavaWeb Item41 -- 邮件的发送与接收原理
- eclipse发布项目报错:Multiple Contexts hava a path of “/xxx“