您的位置:首页 > 其它

正则表达式基础(读书笔记)

2015-03-03 13:32 183 查看
正则表达式(regular expression,简称regex)是一种工具。

正则表达式的两种基本用途:查找和替换。

 

.字符(英文句号)可以匹配任何一个单个的字符。(.字符可以匹配任何单个的字符、数字、字母,甚至是.字符本身。)

\转义字符,这是一个元字符(metacharacter,表示这个字符有特殊含义,而不是字符本身含义。)

 

(总结:.可以匹配任意字符;\用来对字符进行转义。)

 

[和]不匹配任何字符,它们只负责定义一个字符集合。

 

-连字符,这是一个元字符,可以用来定义字符区间,作为一个元字符它只能用在[和]之间,在字符集合意外的地方,-只是一个普通字符。

 

合法的字符区间:

A-Z,匹配从A到Z的所有大些字母;

a-z,匹配从a到z的所有小写字母;

A-z,匹配从ASCII字符A到ASCII字母z的所有字母(不常用);

 

^取非字符也是元字符,用来对一个字符集合进行取非操作。

 

元字符大致可以分为两种:一种是用来匹配文本的(例如.),另一种是正则表达式语法所要求的(例如[和])。

 

//2015.02.17

空白元字符:

[\b]

回退(并删除)一个字符(Backspace键)

\f

换页符

\n

换行符

\r

回车符

\t

制表符(Tab键)

\v

垂直制表符

 

数字元字符:

\d

任何一个数字字符(等价于[0-9])

\D

任何一个非数字字符(等价于[^0-9])

 

字母数字元字符:

\w

任何一个字母数字字符(大小写均可)或下划线字符(等价于[a-zA-Z0-9_])

\W

任何一个非字母数字或非下划线字符(等价于[^a-zA-Z0-9_])

 

空白字符元字符:

\s

任何一个空白字符(等价于[\f\n\r\t\v])

\S

任何一个非空白字符(等价于[^\f\n\r\t\v])

 

+匹配一个或多个字符的一次或多次出现(至少一个;不匹配零个字符的情况)。

 

*匹配一个或多个字符的零次或多次出现。

 

?匹配一个或多个字符的零次或一次出现。

 

{n}为重复匹配次数设置一个精确的值(例{3}表示前一个字符或字符集合必须连续出现3次)。

 

{n, m}为重复匹配次数设定一个区间(例{2, 4}表示前一个字符或字符集合最少连续出现2次,最多4次,{3,
}表示前一个字符或字符集合至少出现3次)。

 

贪婪型元字符和它们的懒惰版本:

*

*?

+

+?

{n, }

{n, }?

 

(总结:正则表达式的真正威力体现在重复次数匹配方面。+匹配字符或字符集合的一次或多次重复出现、*匹配字符或字符集合的零次或多次重复出现、?匹配字符或字符集合的零次或一次出现。要想获得更精确的控制,可以使用{}语法来精确控制一个重复次数或重复次数的最小值和最大值。元字符分“贪婪型”和“懒惰型”两种,在需要防止过度匹配的情况下,使用“懒惰型”元字符来构造正则表达式。)

 

\b用来匹配一个单词的开始或结尾。

 

\B用来匹配一个字符的开始或结尾。

 

^用来定义字符串开头,$用来定义字符串结尾。

 

(?m)用来启用分行匹配模式,(?m)必须出现在整个模式的最前面。

 

(总结:正则表达式不仅可以用来匹配任意长度的文本块,还可以用来匹配出现在字符串特定位置的文本。\b用来指定一个单词边界(\B刚好相反)。^和$用来自定字符串边界(字符串的开头和字符串的结束)。如果与(?m)配合使用,^和$还将匹配在一个换行符处开头或结束的字符串(此时,换行符将被视为一个字符串分隔符)。)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: