批量查找未注册的域名
2014-04-11 10:05
190 查看
package com.blog.collection; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; import com.blog.model.Blog; public class CollectionHandler { private Progress progress; public void setProgress(Progress progress) { this.progress = progress; } public Progress getProgress() { return progress; } public void go(String user){ HttpRequest request=new HttpRequest(); System.out.println("加载中..."); String content=request.sendGet("http://blog.csdn.net/"+user+"/article/list/1", ""); //获取页码-摘要视图 String count=matcher(content, "(?<=<div[\\s\\S]{0,10}id=\"papelist\"[\\s\\S]{0,10}class=\"pagelist\">[\\s\\S]{1,100}共)\\d+(?=页</span>)"); Integer code=count.equals("")?0:Integer.parseInt(count); List<String> urls=new ArrayList<String>(); getUrls(content, urls, null); for(int i=2;i<=code;i++){ getUrls(null,urls, "http://blog.csdn.net/"+user+"/article/list/"+i); } System.out.println("数量:"+urls.size()); for (String string : urls) { System.out.println(string); handler(string); } System.out.println("处理完成"); } public void getUrls(String text,List<String> urls,String url){ HttpRequest request=new HttpRequest(); String content=null; if(text==null){ content=request.sendGet(url, ""); }else{ content=text; } String regex="(?<=<span[\\s\\S]{0,10}class=\"link_title\"><a[\\s\\S]{0,10}\")[\\s\\S]*?(?=\">)"; Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(content); while(matcher.find()){ urls.add("http://blog.csdn.net"+matcher.group()); } } /** * 处理博文 * @param url */ public void handler(String url){ Blog blog=new Blog(); HttpRequest request=new HttpRequest(); String content=request.sendGet(url, ""); //System.out.println(content); String regex = "(?<=<span class=\"link_title\"><a[\\s\\S]{0,1000}?>)[\\s\\S]*?(?=</a></span>)"; //标题 String title=matcher(content, regex).replaceAll("\n", "").replaceAll(" ", ""); System.out.println("标题"); System.out.println(title); blog.setTitle(title); //文章内容 regex="(?<=<div[\\s\\S]{0,100}id=\"article_content\"[\\s\\S]{0,100}class=\"article_content\">)[\\s\\S]*?(?=</div>[\\s\\S]{0,100}<!--)"; System.out.println("博文"); String text=matcher(content, regex); blog.setContent(text); //分类 regex="(?<=<span[\\s\\S]{0,100}class=\"link_categories\">[\\s\\S]{0,1000}<a[\\s\\S]{0,200}?>)[\\s\\S]*?(?=</a>)"; System.out.println("分类"); String type=matcher(content, regex); blog.setTags(type); System.out.println(type); if(this.progress!=null){ progress.handler(blog, type); } } public String matcher(String content,String regex){ Pattern pattern = Pattern.compile(regex); Matcher matcher = pattern.matcher(content); if (matcher.find()) { String group = matcher.group(0); return group; } return ""; } }
相关文章推荐
- asp.net 域名注册查询接口 支持批量后缀查询
- asp.net 域名注册查询接口 支持批量后缀查询
- Python批量查询域名是否被注册过
- asp.net 域名注册查询功能支持批量后缀查询模块
- CN域名今起开放个人域名注册
- 新网域名查询和注册API接口类 源码
- 查找nginx 配置文件中有效的域名
- 中国.ORG域名注册量破12万 6月第一周新增455个
- 域名注册及whois服务简介
- com/.net域名注册费10月提高 近增0.4美元
- 在Domino中用文本批量注册用户(转)
- python根据域名循环遍历查找绑定IP
- 简单方法用于域名注册
- 域名正式注册成功了!先庆祝一下了!呵呵!
- windows azure虚拟机里面安装FTP服务器(serv-u)之域名注册(花生壳)
- 10个免费域名转发地址 无广告 无需要注册
- 域名深锐调查,及全国全国域名注册商排名
- linux 批量查找替换文件中的某个字符串
- linux下如何批量查找或替换文件中的内容?