蜘蛛中可能会用到的正则
2008-01-17 10:54
211 查看
1 得到网页上的链接地址:
string strRegex = @"<a[^>]+href=/s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>/s]+))/s*[^>]*>";
string strRegex = "href=[///"///'](http://////|//.///|///)?//w+(//.//w+)*(/////w+(//.//w+)?)*(///|//?//w*=//w*(&//w*=//w*)*)?[///"///']";
2 得到网页的标题:
<title/b[^>]*>(?<text>[^<]+)<//s*title/s*>
3 得到keywords
<meta/b[/s/S]*name=""keywords""/scontent=""(?<key>[^""]*)""[^>]*>
4 去掉网页中的所有的html标记:
string strRegex = Regex.Replace(html, "<[^>]*>", ""); //html是一个要去除html标记的文档
string strRegex = @"<a[^>]+href=/s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>/s]+))/s*[^>]*>";
string strRegex = "href=[///"///'](http://////|//.///|///)?//w+(//.//w+)*(/////w+(//.//w+)?)*(///|//?//w*=//w*(&//w*=//w*)*)?[///"///']";
2 得到网页的标题:
<title/b[^>]*>(?<text>[^<]+)<//s*title/s*>
3 得到keywords
<meta/b[/s/S]*name=""keywords""/scontent=""(?<key>[^""]*)""[^>]*>
4 去掉网页中的所有的html标记:
string strRegex = Regex.Replace(html, "<[^>]*>", ""); //html是一个要去除html标记的文档
相关文章推荐
- 做CSS精简时可能会用到的正则表达式 (http://www.cnblogs.com/AndersLiu/archive/2008/06/24/css-minifying-regular-expressions.html)
- [翻译] 做CSS精简时可能会用到的正则表达式
- 以后可能会用到的JavaScript正则表达式
- 蜘蛛中可以用到的正则收集
- 蜘蛛中可以用到的正则收集
- 验证日期的正则表达式(以后可能会用到的)
- 蜘蛛中可以用到的正则收集
- 论坛转贴工具中用到的正则表达式学习正则的好例子
- 经常用到的提取手机、电话、Email联系方式的几个java正则表达式
- 正则匹配img标签 蜘蛛 爬取分析 新闻采集
- python环境配置和包安装时候可能会用到的命令
- java版的webservice,完全用java的正则表达式对websercice的xml进行解析,可以很快用到web中,只需要调用其中的封装好的方法
- 开发中可能会用到的几个 jQuery 小提示和技巧
- 可能会用到的一些网页,先存在这里免得以后找不到
- 经常用到的正则表达
- 经常用到的正则表达式【收藏】
- NET开发中你可能会用到的常用方法总结
- 读取超大数据文件入库可能会用到的php.ini设置
- 初赛可能会用到的计算机基础理论知识整理
- .NET开发中你可能会用到的常用方法总结