使用正则表达式找出不包含特定字符串的条目
2010-04-29 14:44
471 查看
使用否定式前瞻
实现
测试数据:2009-07-07 04:38:44 127.0.0.1 GET /robots.txt 2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt 2009-07-08 04:38:44 127.0.0.1 GET /
例如上面这几条简单的日志条目,我们想实现两个目标:
1. 把8号的数据过滤掉
2. 把那些不包含robots.txt字符串的条目给找出来(只要Url中包含robots.txt的都给过滤掉)。
前瞻的语法是:
(?!匹配模式)
我们先来实现第一个目标——匹配不以特定字符串开头的条目。
这里我们因为要排除一段连续的字符串,因此匹配模式非常简单,就是2009-07-08。实现如下:
^(?!2009-07-08).*?$
用Expresso我们可以看到结果确实过滤掉8号的数据。
接下来,我们来实现第二个目标——排除包含特定字符串的条目。
按照我们上面写法,我照葫芦画瓢了一下:
^.*?(?!robots/.txt).*?$
这段正则用大白话描述就是:开头任意字符,然后后面不要跟着robots.txt连续字符串,然后再跟着任意个字符,字符串结尾。
运行测试,结果发现:
没有达到我们想要的效果。这是为什么呢?我们给上面的正则表达式加上两个捕获分组调试一下:
^(.*?)(?!robots/.txt)(.*?)$
我们看到,第一个分组啥都没有匹配到,而第二个分组却匹配了整个字符串。再回过头来好好分析一下刚才那个正则表达式。实际上,当正则引擎解析到A区域的时候,就已经开始执行B区域的前瞻工作。这个时候发现当A区域为Null的时候匹配成功——.*本来就允许匹配空字符,前瞻条件又满足,A区域后面紧跟着的是“2009”字符串,而并不是robots。因此整个匹配过程成功匹配到所有条目。
分析出原因之后我们对上述的正则进行修正,将.*?移入前瞻表达式,如下:
^(?!.*?robots).*$
转自 http://www.aspxhome.com/asp/aspskills/20103/125192.htm
测试用http://regexpal.com/
相关文章推荐
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目(?!否定前瞻解析)
- 使用正则表达式找出不包含特定字符串的条目概述
- 使用正则表达式找出不包含特定字符串的条目
- 使用正则表达式找出不包含特定字符串的条目
- java正则表达式找出不包含特定字符串
- 使用正则表达式找出不包含特定字符串的条目
- 用正则表达式找出不包含连续字符串abc的单词
- 正则表达式匹配不包含特定字符串解决匹配溢出问题
- java使用正则表达式查找包含的字符串示例
- 用正则表达式找出不包含连续字符串abc的单词(转)
- Notepad++用正则表达式替换包含特定字符串的链接