您的位置：首页 > 编程语言 > Java开发

Java抽取网页信息

2008-11-23 16:05 344 查看

使用正则表达式及字符串操作，抽取网页信息

/* 去script */

public static String trimScript(String content) {

String regEx = "<script[^>]*>[^<]+</script>";

Pattern p = Pattern.compile(regEx);

Matcher m = p.matcher(content);

String result = content;

if (m.find()) {

result = m.replaceAll("");

}

return result;

}

/* 去除注释*/

public static String trimComment(String content) {

String regEx = "";

Pattern p = Pattern.compile(regEx);

Matcher m = p.matcher(content);

String result = content;

if (m.find()) {

result = m.replaceAll("");

}

return result;

}

/* 去除标签 */

public static String trimTag(String content) {

String regEx = "<[^>]+>";

Pattern p = Pattern.compile(regEx);

Matcher m = p.matcher(content);

String result = content;

if (m.find()) {

result = m.replaceAll("");

}

result = result.replace(" ", "").replace(">", "").replace(

">", "");

return result;

}

/* 根据起始位置和结束位置，截取字符串 */

public static String subString(String start, String end, String content) {

int iStart = content.indexOf(start);

int iEnd = content.indexOf(end);

if (iStart < iEnd) {

return content.substring(iStart, iEnd);

}

return null;

}

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航