用正则表达式提取html中的一个指定div对
2011-07-26 22:54
1221 查看
得用平衡组了
上面的做法并不全对,因为在用的排除式[^<>]*会除去所有含有其它非div标签的div对,所以得到的结果并不满意
在此基础上修改得到:
Regex re = new Regex("(?is)<div class=\"info\">[^<>]*(((?'TAG'<div[^>]*>)[^<>]*)+((?'-TAG'</div>)[^<>]*)+)*(?(TAG)(?!))</div>", RegexOptions.None); MatchCollection mc = re.Matches("text"); foreach (Match ma in mc) { }
上面的做法并不全对,因为在用的排除式[^<>]*会除去所有含有其它非div标签的div对,所以得到的结果并不满意
在此基础上修改得到:
<div class="info">((?!</?div[^>]*>).|\n)*(((?'TAG'<div[^>]*>)((?!</?div[^>]*>).|\n)*)+((?'-TAG'</div>)((?!</?div[^>]*>).|\n)*)+)*(?(TAG)(?!))</div>
相关文章推荐
- 请教一个正则表达式,匹配所有Html标签外部的指定字符串
- Google Python Class 之——正则表达式提取html网页数据字段
- 正则表达式提取图片路径 并过滤掉指定字符的写法
- PHP正则表达式提取html超链接中的h…
- ASP正则表达式清除HTML指定标签的方法
- PHP正则表达式提取html超链接中的href地址
- 正则表达式提取sql语句的@参数名,顺便修正subsonic的一个bug
- C#正则表达式提取HTML中IMG标签中的SRC地址
- 使用正则表达式删除某一个html标签内所有属性
- java正则表达式(HTML提取)
- 利用正则表达式过滤掉HTML字符及自己指定的字符
- 正则表达式 提取 html 标签的内容
- [VB.NET]求一个正则表达式处理一下html
- 使用正则表达式写一个网页爬虫案例获取指定文档中的邮件地址保存到自己指定的文件夹中
- java中用正则表达式获取一个指定的子字符在字符串中出现的指定次数的下标索引,并且进行字符串分割
- .net(C#)从html中提取中文字_正则表达式
- asp.net正则表达式提取网页网址、标题、图片,滤所有HTML标签
- asp.net正则表达式删除指定的HTML标签的代码
- java 正则表达式提取html纯文本
- 从.net生成的html中找到的一个验证email地址的函数(正则表达式)