您的位置:首页 > 编程语言

针对某个网页的快照以及某些重要信息的抓取代码解析_2

2009-10-17 12:57 393 查看
5.整体的写完了,就开始测试运行:
ArrayList<Config> al=ConfigIni.getConfigIni();//获取配置信息
Config c=(Config)al.get(0);

while(true){
Date date=new Date(System.currentTimeMillis());
// System.out.println(date.toLocaleString());
SimpleDateFormat format=new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
String d=format.format(date);//时间格式化
String log="";
String temp="";

temp=getWebContent(c.getUrl());

Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);//去掉HTML标签的正则
Matcher matcher = pattern.matcher(temp);
String d_temp=d.replace(" ", "-").replace(":", "-");//时间替换,因为":"不能作为规范的文件名处理
Write.CreateAndWriterFile(c.getPath_url().replace("$", d_temp), temp);
log=d+"/t"+"文件 "+c.getPath_url().replace("$", d_temp)+" 生成成功!";
System.out.println(log);
Write.CreateAndWriterFile(c.getPath_log(), log);
String string = matcher.replaceAll("");//替换HTML标签
String regEx=c.getRegx();
Pattern p=Pattern.compile(regEx);//查找需要字符
Matcher m=p.matcher(string);
boolean result=m.find();
// System.out.println(result);
if(result){
// System.out.println(m.group());
Write.CreateAndWriterFile(c.getPath_report(), d+"/t"+m.group());
log=d+"/t"+"文件 "+c.getPath_report()+" 写入成功!";
System.out.println(log);
Write.CreateAndWriterFile(c.getPath_log(), log);
}else{
log=d+"/t"+"文件 "+c.getPath_report()+" 写入失败! 原因:没找到相应的字符串";
System.out.println(log);
Write.CreateAndWriterFile(c.getPath_log(), log);
}
int t2=Integer.parseInt(c.getTime());
Thread t=new Thread();
t.sleep(1000*t2);
System.gc();
}
运行结果成功。并生成相应的文件。
最后准备打ant包:ANT脚本如下:<build.xml>
<?xml version="1.0" encoding="UTF-8"?>
<project name="Snapshot_27" basedir="./">
<target name="copy" >
<copy todir="target">
<fileset dir="./">
<include name="readme.txt" />
<include name="config.ini" />
</fileset>
</copy>
</target>
<target name="jar" depends="copy">
<jar jarfile="target/Snapshot_27.jar" manifest="lib/MANIFEST.MF">
<fileset dir="bin/"/>
</jar>
</target>
</project>
源代码参考地址:http://download.csdn.net/source/1747877
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: