Java抽取网页信息
2008-11-23 16:05
344 查看
使用正则表达式及字符串操作,抽取网页信息
/* 去script */
public static String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除注释*/
public static String trimComment(String content) {
String regEx = "<!--[^-]*-->";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除标签 */
public static String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");
return result;
}
/* 根据起始位置和结束位置,截取字符串 */
public static String subString(String start, String end, String content) {
int iStart = content.indexOf(start);
int iEnd = content.indexOf(end);
if (iStart < iEnd) {
return content.substring(iStart, iEnd);
}
return null;
}
/* 去script */
public static String trimScript(String content) {
String regEx = "<script[^>]*>[^<]+</script>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除注释*/
public static String trimComment(String content) {
String regEx = "<!--[^-]*-->";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
return result;
}
/* 去除标签 */
public static String trimTag(String content) {
String regEx = "<[^>]+>";
Pattern p = Pattern.compile(regEx);
Matcher m = p.matcher(content);
String result = content;
if (m.find()) {
result = m.replaceAll("");
}
result = result.replace(" ", "").replace(">", "").replace(
">", "");
return result;
}
/* 根据起始位置和结束位置,截取字符串 */
public static String subString(String start, String end, String content) {
int iStart = content.indexOf(start);
int iEnd = content.indexOf(end);
if (iStart < iEnd) {
return content.substring(iStart, iEnd);
}
return null;
}
相关文章推荐
- Java使用正则表达式及字符串操作,抽取网页信息
- 基于 Web 的数据挖掘 (自动抽取用 HTML、XML 和 Java 编写的信息)
- WEB网页结构化信息抽取技术介绍
- java微信网页授权获取用户信息以及JSSDK自定义分享等功能<三>
- 网页库级垂直搜索引擎技术(三)一堆信息抽取的资料文档
- Java实现的基于模板的网页结构化信息精准抽取组件:HtmlExtractor
- java 使用Jsoup解析URL网页信息
- 网页信息抓取(Java htmlparser)
- 利用正则表达式抽取网页信息
- Java精确抽取网页发布时间
- 一般网页信息抓取(Java htmlparser)
- 抽取网页信息
- 支持AJAX的网页信息抽取方案
- 【POI xls Java map】使用POI处理xls 抽取出异常信息 --java1.8Group by ---map迭代 -- 设置单元格高度
- java读取网页信息
- 用java中的URL读取网页信息
- html抽取文本信息-java版(适合lucene建立索引)
- 微信公众平台开发实战Java版之如何网页授权获取用户基本信息
- java读取网页信息
- 今天修正了网页抽取器,一个小时可抽取10W笔黄页信息