正则表达式和其在OC中的的使用
2016-03-06 00:00
288 查看
摘要: 本文简单记录几个常用的正则表达式的字符和含义, 以便今后查阅和学习, 本文内容将不断扩充完善.
表二 : 常用的限定符
表三 : 常用的反义代码
表四 : 懒惰限定符
默认情况下, 正则表达式的匹配是贪婪的匹配, 比如, 对字符串 "abxnssdb" 使用正则表达式 "\w{3,6}" 进行匹配, 可以匹配到一个结果, 结果是前六个字符, 匹配范围是3---6, 但是默认会匹配尽可能多的字符.
IP地址: ((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
Emoji表情: [(\ud83c\udf00-\ud83d\ude4f)|(\ud83d\ude80-\ud83d\udeff)|(\u2600-\u27bf)]
((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?) 匹配一个IP地址
正则表达式是在维基百科上查到的emoji编码表, 然后根据emoji编码表,拼写的正则表达式.详见 维基百科-Emoji ,拼写正则表达式时候遇到的坑就是, Unicode编码现在都是Unicode32编码,但是在OC中只能识别Unicode16,使用Unicode32编码拼写正则表达式程序识别不了, 最终都转换成Unicode8编码才能正确匹配到emoji.
关于Unicode8,Unicode16,Unicode32详见 维基百科-Unicode.
?!: 如上表示非br.
[^>] : 表示非
(?!匹配模式) 我们先来实现第一个目标——匹配不以特定字符串开头的条目。
在网上看到了
?! 操作符详解
正则表达式和其在OC中的的使用
最近对正则表达式(regex)很感兴趣, 于是了解了一下, 正则表达式是所有语言都通用的一套查找字符串的方法, 在网上找了很多入门教程, 也看了很多的教程, 也能写出来简单的正则表达式了, 但是好像还是似懂非懂的. 学习正则表达式, 看再多的教程, 都不如自己认认真真的做练习学习的快. 好吧, 我来总结一下, 供自己以后参考:1. 先贴几个表, 正则表达式经常用到的字符及含义
表一 : 常用的元字符代码 | 说明 |
---|---|
. | 匹配除换行符以外的任意字符 |
\w | 匹配字母,数字,下划线,汉字 |
\s | 匹配任意空白符 |
\d | 匹配数字 |
\b | 匹配单词的开始或者结束 |
^ | 匹配字符串的开始 |
$ | 匹配字符串的结束 |
代码 | 说明 |
---|---|
* | 重复零次或者更多次 (重复任意次数) |
? | 重复零次或者一次 (重复次数小于等于1) |
+ | 重复一次或者更多次 (重复次数大于1) |
{n} | 重复n次 |
{n,} | 重复次数大于等于n |
{n, m} | 重复n到m次 |
代码 | 说明 |
---|---|
\W | 匹配任意非 字母,数字,下划线,汉字 |
\S | 匹配任意非 空白符 |
\D | 匹配任意非 数字 |
\B | 匹配任意非 单词的开始或者结束 |
[^x] | 匹配任意除了x外任意字符 |
[^aeio] | 匹配任意非aeio的字符 |
默认情况下, 正则表达式的匹配是贪婪的匹配, 比如, 对字符串 "abxnssdb" 使用正则表达式 "\w{3,6}" 进行匹配, 可以匹配到一个结果, 结果是前六个字符, 匹配范围是3---6, 但是默认会匹配尽可能多的字符.
懒惰限定符就是尽可能少的去匹配.
代码 | 说明 |
---|---|
*? | 重复零次或者更多次 (重复任意次数), 尽可能少的匹配 |
?? | 重复零次或者一次 (重复次数小于等于1), 尽可能少的匹配 |
+? | 重复一次或者更多次 (重复次数大于1), 尽可能少的匹配 |
{n}? | 重复n次, 尽可能少的匹配 |
{n,}? | 重复次数大于等于n, 尽可能少的匹配 |
{n, m}? | 重复n到m次, 尽可能少的匹配 |
2. 常用的正则表达式
中文: ^[\u0391-\uFFE5]+$IP地址: ((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
Emoji表情: [(\ud83c\udf00-\ud83d\ude4f)|(\ud83d\ude80-\ud83d\udeff)|(\u2600-\u27bf)]
3. 正则表达式例子
<a[^>]+> 匹配用尖括号括起来的以a开头的字符串。((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?) 匹配一个IP地址
4. OC中的正则表达式
4.1 OC中正则表达式基本使用
下面示例代码, 是正则表达式在oc中的使用方法, 例子是验证指定字符串是否是ip地址.results中包含的是
NSTextCheckingResult类型的对象, 每个
NSTextCheckingResult类型对象, 描述一个正则表达式匹配的结果, 正则表达式匹配的范围可以在这个对象中体现出来. 在oc中, 可以将这些常用的匹配, 写成NSString的分类.
void test1() { NSString *str = @"1.168.0.255"; NSString *pattern = @"^((2[0-4]\\d|25[0-5]|[01]?\\d\\d?)\\.){3}(2[0-4]\\d|25[0-5]|[01]?\\d\\d?)$"; // NSRegularExpression *regex = [[NSRegularExpression alloc] initWithPattern:pattern options:0 error:nil]; NSRegularExpression *regex = [NSRegularExpression regularExpressionWithPattern:pattern options:0 error:nil]; NSArray *results = [regex matchesInString:str options:0 range:NSMakeRange(0, str.length)]; NSLog(@"result count : %zd", results.count); NSLog(@"results = %@", results); }
4.2 OC中匹配emoji表情
OC匹配emoji正则表达式如下:[(\\ud83e\\udd00-\\ud83e\\uddff)|(\\ud83c\\udf00-\\ud83d\\ude4f)|(\\ud83d\\ude80-\\ud83d\\udeff)|(\u2600-\u26ff)]
正则表达式是在维基百科上查到的emoji编码表, 然后根据emoji编码表,拼写的正则表达式.详见 维基百科-Emoji ,拼写正则表达式时候遇到的坑就是, Unicode编码现在都是Unicode32编码,但是在OC中只能识别Unicode16,使用Unicode32编码拼写正则表达式程序识别不了, 最终都转换成Unicode8编码才能正确匹配到emoji.
关于Unicode8,Unicode16,Unicode32详见 维基百科-Unicode.
char data_utf8[]={0xE6,0xB1,0x89,0xE5,0xAD,0x97};//UTF-8编码 char16_t data_utf16[]={0x6C49,0x5B57}; //UTF-16编码 char32_t data_utf32[]={0x00006C49,0x00005B57};//UTF-32编码
4.3 前瞻操作符(?!)
"</?(?!br|p|img)[^>]*>" 匹配html中的标签, 非br,p,img?!: 如上表示非br.
[^>] : 表示非
>的字符.
(?!匹配模式) 我们先来实现第一个目标——匹配不以特定字符串开头的条目。
在网上看到了
?!符号, 于是乎找到一个解释比较详细的博客, 详细解释在这里:
?! 操作符详解
相关文章推荐
- msql 正则表达式
- 正则表达式
- Mootools 1.2教程 正则表达式
- 批处理FINDSTR正则表达式用法实例分析
- vbs正则表达式代码
- C#正则表达式Regex类的常用匹配
- C#中利用正则表达式将人民币金额转换为大写汉字
- C#使用正则表达式实现首字母转大写的方法
- php中看实例学正则表达式
- PHP正则表达式之定界符和原子介绍
- PHP下常用正则表达式整理
- 批处理 正则表达式(findstr) 整理
- 详解C#正则表达式Regex常用匹配
- C#正则表达式的6个简单例子
- JavaScript类型系统之正则表达式
- javascript中的正则表达式使用指南
- C#中的正则表达式介绍
- 学习正则帮手笨狼正则练习器
- java正则表达式应用的实例代码