您的位置：首页 > 其它

预搜索经典案例分析

2012-03-31 14:06 218 查看

C# code

string str ="aaa bbbb ffffff 999999999";
Regex r = new Regex(@"(\w)((?=\1\1\1)(\1))+");
foreach (Match m in r.Matches(str))
{
Console.WriteLine("Match:Value={0},Index={1},Length={2}", m.Value, m.Index, m.Length);
}

结果如下:
Match:Value=bb,Index=4,Length=2
Match:Value=ffff,Index=9,Length=4
Match:Value=9999999,Index=16,Length=7

表达式 "(\w)((?=\1\1\1)(\1))+" 在匹配字符串 "aaa ffffff 999999999" 时，将可以匹配4个"b"的前2个，可以匹配6个"f"的前4个，可以匹配9个"9"的前7个。我想问的是为什么漏掉的总是最后两个字母?它们为什么不能匹配成功?哪个规则导致了这种影响?能详细说说好吗?

(\w) # 匹配一个单词字符
( # 分组开始
(?=\1\1\1) # 紧接着必须是三个和前面的一样的字符，但不吃进字符
(\1) # 匹配一个和前面一样的字符
)+# 匹配一个或多个这样的分组

楼主的正则，(\w)((?=\1\1\1)(\1))+，其实就等价于
(\w)(\1)*(?=\1\1\1)(\1)

这个会相对好理解一些

说下分析过程，因为+表示{1,}，下面的“次数”表示((?=\1\1\1)(\1))+匹配成功的次数
次数楼主的正则等价于
1 (\w)((?=\1\1\1)(\1))
2 (\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))
3 (\w)((?=\1\1\1)(\1))((?=\1\1\1)(\1))((?=\1\1\1)(\1))
...

因为如果最后一个((?=\1\1\1)(\1))匹配成功，那么中间的((?=\1\1\1)(\1))一定成功，所以中间的限制条件(?=\1\1\1)就没有意义了，这时就可以简写为(\1)
也就是
次数楼主的正则等价于
1 (\w)((?=\1\1\1)(\1))
2 (\w)(\1)((?=\1\1\1)(\1))
3 (\w)(\1)(\1)((?=\1\1\1)(\1))
...

可以归纳为等价于
(\w)(\1)*((?=\1\1\1)(\1))
因为((?=\1\1\1)(\1))开始和结尾的()原来是用作量词+限制范围的，这里已经没有什么意义了，所以表达式最后可以归纳为等价于
(\w)(\1)*(?=\1\1\1)(\1)

分析这个表达式就容易多了
(\w)匹配一个字符，占一位，\1是对\w匹配内容的引用，(\1)*可以匹配0到无穷多个(\w)匹配到的字符，(?=\1\1\1)(\1)只占一位，但是(?=\1\1\1)要求所在位置右侧有三个(\w)匹配到的字符，所以在(?=\1\1\1)这个位置右侧应该有三个字符，只是最后两个不计入最后的匹配结果

以999999999为例，第一个9由(\w)匹配，第二到第六个9由(\1)来匹配，第七个9由(?=\1\1\1)(\1)中最后的(\1)来匹配，而第七、八、九这三个9是用来保证满足(?=\1\1\1)这个条件的

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航