针对某个网页的快照以及某些重要信息的抓取代码解析_2
2009-10-17 12:57
393 查看
5.整体的写完了,就开始测试运行:
运行结果成功。并生成相应的文件。
最后准备打ant包:ANT脚本如下:<build.xml>
源代码参考地址:http://download.csdn.net/source/1747877
ArrayList<Config> al=ConfigIni.getConfigIni();//获取配置信息 Config c=(Config)al.get(0); while(true){ Date date=new Date(System.currentTimeMillis()); // System.out.println(date.toLocaleString()); SimpleDateFormat format=new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); String d=format.format(date);//时间格式化 String log=""; String temp=""; temp=getWebContent(c.getUrl()); Pattern pattern = Pattern.compile("<.+?>", Pattern.DOTALL);//去掉HTML标签的正则 Matcher matcher = pattern.matcher(temp); String d_temp=d.replace(" ", "-").replace(":", "-");//时间替换,因为":"不能作为规范的文件名处理 Write.CreateAndWriterFile(c.getPath_url().replace("$", d_temp), temp); log=d+"/t"+"文件 "+c.getPath_url().replace("$", d_temp)+" 生成成功!"; System.out.println(log); Write.CreateAndWriterFile(c.getPath_log(), log); String string = matcher.replaceAll("");//替换HTML标签 String regEx=c.getRegx(); Pattern p=Pattern.compile(regEx);//查找需要字符 Matcher m=p.matcher(string); boolean result=m.find(); // System.out.println(result); if(result){ // System.out.println(m.group()); Write.CreateAndWriterFile(c.getPath_report(), d+"/t"+m.group()); log=d+"/t"+"文件 "+c.getPath_report()+" 写入成功!"; System.out.println(log); Write.CreateAndWriterFile(c.getPath_log(), log); }else{ log=d+"/t"+"文件 "+c.getPath_report()+" 写入失败! 原因:没找到相应的字符串"; System.out.println(log); Write.CreateAndWriterFile(c.getPath_log(), log); } int t2=Integer.parseInt(c.getTime()); Thread t=new Thread(); t.sleep(1000*t2); System.gc(); } |
最后准备打ant包:ANT脚本如下:<build.xml>
<?xml version="1.0" encoding="UTF-8"?> <project name="Snapshot_27" basedir="./"> <target name="copy" > <copy todir="target"> <fileset dir="./"> <include name="readme.txt" /> <include name="config.ini" /> </fileset> </copy> </target> <target name="jar" depends="copy"> <jar jarfile="target/Snapshot_27.jar" manifest="lib/MANIFEST.MF"> <fileset dir="bin/"/> </jar> </target> </project> |
相关文章推荐
- 针对某个网页的快照以及某些重要信息的抓取代码解析_1
- Python抓取百度贴吧网页信息以及代码下载
- Python抓取淘女郎网页信息以及代码下载
- C#实现通过程序自动抓取远程Web网页信息的代码
- C#实现通过程序自动抓取远程Web网页信息的代码
- 网络爬虫框架的搭建以及使用HttpClient抓取解析网页的详细步骤
- Python抓取糗事百科网页信息以及源码下载
- php 实现信息采集(网页内容抓取)程序代码
- 豆瓣2100部动漫页面的网页源码(包括评分,导演,类型,简介等信息,附抓取代码)
- android 封装抓取网页信息的实例代码
- android 封装抓取网页信息的实例代码
- C#抓取网页数据 解析标题描述图片等信息 去除HTML标签
- 解析网页内容,获取你感兴趣的信息
- 一般网页信息抓取(Java htmlparser)
- C# 网页信息采集 核心代码收集
- 设置网页图片热点链接以及坐标值示例代码
- 线段树解析以及代码模板
- shell脚本抓取网页信息
- 网页信息抓取
- js解析xml字符串和xml文档实现原理及代码(针对ie与火狐)