您的位置：首页 > Web前端 > HTML

蜘蛛中可能会用到的正则

2008-01-17 10:54 211 查看

1 得到网页上的链接地址：
      string strRegex = @"<a[^>]+href=/s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>/s]+))/s*[^>]*>";

      string strRegex = "href=[///"///'](http://////|//.///|///)?//w+(//.//w+)*(/////w+(//.//w+)?)*(///|//?//w*=//w*(&//w*=//w*)*)?[///"///']";

2 得到网页的标题：
<title/b[^>]*>(?<text>[^<]+)<//s*title/s*>

3 得到keywords
<meta/b[/s/S]*name=""keywords""/scontent=""(?<key>[^""]*)""[^>]*>

4 去掉网页中的所有的html标记：
      string strRegex = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： string html 文档

相关文章推荐

做CSS精简时可能会用到的正则表达式（http://www.cnblogs.com/AndersLiu/archive/2008/06/24/css-minifying-regular-expressions.html）
[翻译] 做CSS精简时可能会用到的正则表达式
以后可能会用到的JavaScript正则表达式
蜘蛛中可以用到的正则收集
蜘蛛中可以用到的正则收集
验证日期的正则表达式（以后可能会用到的）
蜘蛛中可以用到的正则收集
论坛转贴工具中用到的正则表达式学习正则的好例子
经常用到的提取手机、电话、Email联系方式的几个java正则表达式
正则匹配img标签蜘蛛爬取分析新闻采集
python环境配置和包安装时候可能会用到的命令
java版的webservice,完全用java的正则表达式对websercice的xml进行解析，可以很快用到web中，只需要调用其中的封装好的方法
开发中可能会用到的几个 jQuery 小提示和技巧
可能会用到的一些网页，先存在这里免得以后找不到
经常用到的正则表达
经常用到的正则表达式【收藏】
NET开发中你可能会用到的常用方法总结
读取超大数据文件入库可能会用到的php.ini设置
初赛可能会用到的计算机基础理论知识整理
.NET开发中你可能会用到的常用方法总结

新的分享

Html简单标签
HTML表单
仿京东商城html网页源码
HTML行内级元素之间的空格问题
HTML元素类型总结
HTML怎么设置下划线?html文字加下划线方法
HTML汉字编码标准介绍
html网页中使用希腊字母的方法
HTML基础详解(上)
HTML基础详解（下）
基于HTML十秒做出淘宝页面
【Python】300行代码搞定HTML模板渲染

章节导航