您的位置：首页 > 编程语言 > Java开发

java 使用正则Pattern等实现【搜索 -> 提取 -> 分割 -> 替换】功能

2011-08-17 23:51 1056 查看

正则表达式在字符串处理上有着强大的功能，sun在jdk1.4加入了对它的支持

下面简单的说下它的4种常用功能：

搜索：

String str="abc efg ABC";

String regEx="a|f"; //表示a或f

Pattern p=Pattern.compile(regEx);

Matcher m=p.matcher(str);

boolean rs=m.find();

如果str中有regEx，那么rs为true，否则为flase。如果想在查找时忽略大小写，则可以写成Pattern p=Pattern.compile(regEx,Pattern.CASE_INSENSITIVE);

提取：

String regEx=".+\\\\(.+)$";

String str="c:\\dir1\\dir2\\name.txt";

Pattern p=Pattern.compile(regEx);

Matcher m=p.matcher(str);

boolean rs=m.find();

for(int i=1;i<=m.groupCount();i++){

System.out.println(m.group(i));

}

以上的执行结果为name.txt，提取的字符串储存在m.group(i)中，其中i最大值为m.groupCount();

分割：

String regEx="::";

Pattern p=Pattern.compile(regEx);

String[] r=p.split("xd::abc::cde");

执行后，r就是{"xd","abc","cde"}，其实分割时还有跟简单的方法：

String str="xd::abc::cde";

String[] r=str.split("::");

替换（删除）：

String regEx="a+"; //表示一个或多个a

Pattern p=Pattern.compile(regEx);

Matcher m=p.matcher("aaabbced a ccdeaa");

String s=m.replaceAll("A");

结果为"Abbced A ccdeA"

如果写成空串，既可达到删除的功能，比如：

String s=m.replaceAll("");

结果为"bbced ccde"

附：

\d 等於 [0-9] 數字

\D 等於 [^0-9] 非數字

\s 等於 [ \t\n\x0B\f\r] 空白字元

\S 等於 [^ \t\n\x0B\f\r] 非空白字元

\w 等於 [a-zA-Z_0-9] 數字或是英文字

\W 等於 [^a-zA-Z_0-9] 非數字與英文字

^ 表示每行的開頭

$ 表示每行的結尾

常用正则表达式

"^\d+$"　　//非负整数（正整数 + 0）

"^[0-9]*[1-9][0-9]*$"　　//正整数

"^((-\d+)|(0+))$"　　//非正整数（负整数 + 0）

"^-[0-9]*[1-9][0-9]*$"　　//负整数

"^-?\d+$"　　　　//整数

"^\d+(\.\d+)?$"　　//非负浮点数（正浮点数 + 0）

"^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$"　　//正浮点数

"^((-\d+(\.\d+)?)|(0+(\.0+)?))$"　　//非正浮点数（负浮点数 + 0）

"^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$"　　//负浮点数

"^(-?\d+)(\.\d+)?$"　　//浮点数

"^[A-Za-z]+$"　　//由26个英文字母组成的字符串

"^[A-Z]+$"　　//由26个英文字母的大写组成的字符串

"^[a-z]+$"　　//由26个英文字母的小写组成的字符串

"^[A-Za-z0-9]+$"　　//由数字和26个英文字母组成的字符串

"^\w+$"　　//由数字、26个英文字母或者下划线组成的字符串

"^[\w-]+(\.[\w-]+%28%5C.[%5Cw-]+%29+$]+)*@[\w-]+(\.[\w-]+)+$"　　　　//email地址

"^[a-zA-z]+://(\w+(-\w+)*)(\.(\w+(-\w+)*))*(\?\S*)?$"　　//url

/^(d{2}|d{4})-((0([1-9]{1}))|(1[1|2]))-(([0-2]([1-9]{1}))|(3[0|1]))$/ // 年-月-日

/^((0([1-9]{1}))|(1[1|2]))/(([0-2]([1-9]{1}))|(3[0|1]))/(d{2}|d{4})$/ // 月/日/年

"^([w-.]%7B1,3%7D.[0-9]%7B1,3%7D.[0-9]%7B1,3%7D.%29%7C%28%28[w-]+.%29+%29%29%28[a-zA-Z]%7B2,4%7D%7C[0-9]%7B1,3%7D%29%28]?%29$]+)@(([[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.)|(([w-]+.)+))([a-zA-Z]{2,4}|[0-9]{1,3})(]?)$" //Emil

"(d+-)?(d{4}-?d{7}|d{3}-?d{8}|^d{7,8})(-d+)?" //电话号码

"^(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$" //IP地址

匹配中文字符的正则表达式： [\u4e00-\u9fa5]

匹配双字节字符(包括汉字在内)：[^\x00-\xff]

匹配空行的正则表达式：\n[\s| ]*\r

匹配HTML标记的正则表达式：/<(.*)>.*<\/\1>|<(.*) \/>/

匹配首尾空格的正则表达式：(^\s*)|(\s*$)

匹配Email地址的正则表达式：\w+([-+.]%5Cw+%29*%5C.%5Cw+%28[-.]%5Cw+%29*]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

匹配网址URL的正则表达式：^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$

匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)：^[a-zA-Z][a-zA-Z0-9_]{4,15}$

匹配国内电话号码：(\d{3}-|\d{4}-)?(\d{8}|\d{7})?

匹配腾讯QQ号：^[1-9]*[1-9][0-9]*$

一些常用正则表达式

提取信息中的网络链接:

(h|H)(r|R)(e|E)(f|F) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?

提取信息中的邮件地址:

\w+([-+.]%5Cw+%29*%5C.%5Cw+%28[-.]%5Cw+%29*]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*

提取信息中的图片链接:

(s|S)(r|R)(c|C) *= *('|")?(\w|\\|\/|\.)+('|"| *|>)?

提取信息中的ip地址:

(\d+)\.(\d+)\.(\d+)\.(\d+)

提取信息中的中国手机号码:

(86)*0*13\d{9}

提取信息中的中国固定电话号码:

($\d{3,4}$|\d{3,4}-|\s)?\d{8}

提取信息中的中国电话号码（包括移动和固定电话）:

($\d{3,4}$|\d{3,4}-|\s)?\d{7,14}

提取信息中的中国邮政编码:

[1-9]{1}(\d+){5}

提取信息中的中国***号码:

\d{18}|\d{15}

提取信息中的整数：

\d+

提取信息中的浮点数（即小数）：

(-?\d*)\.?\d+

提取信息中的任何数字：

(-?\d*)(\.\d+)?

提取信息中的中文字符串：

[\u4e00-\u9fa5]*

提取信息中的双字节字符串 (汉字)：

[^\x00-\xff]*

提取信息中的英文字符串：

\w*

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航

java 使用正则Pattern等实现【搜索 -&gt; 提取 -&gt; 分割 -&gt; 替换】功能

java 使用正则Pattern等实现【搜索 -> 提取 -> 分割 -> 替换】功能