您的位置：首页 > 运维架构 > Shell

转――[Shell学习笔记] Shell正则表达式与grep、sed、awk的特点

2014-05-14 09:24 851 查看

http://www.1987.name/277.html
正则表达式是基于样式匹配的文本处理技术的关键所在。想要在编写文本处理工具方面驾轻就熟，就必须对正则表达式有个基本的了解。正则表达式是一种用于文本匹配的形式小巧、具有高针对性的编程语言，在很多文本编辑器或其他工具里，正则表达式通常被用来检索和/或替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进行字符串操作。例如，在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件（例如sed和grep）普及开的。正则表达式通常缩写成“regex”，单数有regexp、regex，复数有regexps、regexes、regexen。这些是正则表达式的定义。由于起源于unix系统，因此很多语法规则一样的。但是随着逐渐发展，后来扩展出以下几个类型。

正则表达式分类

基本的正则表达式（Basic Regular Expression）又叫Basic RegEx，简称：BREs）

扩展的正则表达式（Extended Regular Expression）又叫Extended RegEx，简称：EREs）

Perl的正则表达式（Perl Regular Expression）又叫Perl RegEx，简称：PREs）

Linux中常用文本工具与正则表达式的关系

grep与egrep正则表达式特点

grep支持BREs、EREs、PREs正则表达式：grep指令后不跟任何参数，则表示要使用“BREs”。

grep指令后跟“-E”参数，则表示要使用“EREs”。

grep指令后跟“-P”参数，则表示要使用“PREs”。

egrep支持EREs、PREs正则表达式：egrep指令后不跟任何参数，则表示要使用“EREs”。

egrep指令后跟“-P”参数，则表示要使用“PREs”。

grep与egrep正则匹配文件，处理文件方法：grep与egrep的处理对象：文本文件。

grep与egrep的处理过程：查找文本文件中是否含要查找的 “关键字”（关键字可以是正则表达式），如果含有要查找的“关健字”，那么默认返回该文本文件中包含该“关健字”的该行的内容，并在标准输出中显示出来，除非使用了“>”重定向符号，

grep与egrep在处理文本文件时，是按行处理的。

sed正则表达式特点

sed文本工具支持BREs、EREs正则表达式：sed指令默认是使用“BREs”

sed命令参数“-r”，则表示要使用“EREs”

sed功能与作用：sed处理的对象：文本文件。

sed处理操作：对文本文件的内容进行：查找、替换、删除、增加等操作。

sed在处理文本文件的时候，也是按行处理的。

awk(gawk)正则表达式特点

awk文本工具支持EREs正则表达式。

awk指令默认是使用“EREs”。

awk 文本工具处理文本的特点：awk 处理的对象：文本文件。

awk 处理操作：主要是对列进行操作。

正则表达式、POSIX字符类以及元字符表，点击查看注意：当使用BERs（基本正则表达式）时，必须在下列这些符号前加上转义字符（'\'），屏蔽掉它们的speical meaning“?,+,|,{,},（,）”这些字符，需要加入转义符号”\”。注意：修饰符用在正则表达式结尾，例如：/dog/i，其中"i"就是修饰符，它代表的含义就是：匹配时不区分大小写，常见的修饰符如下：g：全局匹配（即：一行上的每个出现，而不只是一行上的第一个出现）。

s：把整个匹配串当作一行处理。

m：多行匹配。

i：忽略大小写。

x：允许注释和空格的出现。

U：非贪婪匹配。

常用的shell正则表达式收集

^USER$ 匹配只包含USER的行
[tty]$ 匹配以tty结尾的行
\. 匹配带句点的行
^d..x..x..x 匹配用户、用户组及其他用户组成员有可执行权限的目录
^[^l] 匹配排除关联目录的目录列表
[.*0] 匹配0之前或之后加任意字符
[^$] 匹配空行
[^.*$] 匹配匹配行中任意字符串
^......$ 匹配包括6个字符的行
[a-zA-Z] 匹配任意单字符
[a-z][a-z]* 匹配至少一个小写字母
[^0-9\$] 匹配非数字或美元标识
[^0-0A-Za-z] 匹配非数字或字母
De..ce 匹配前两个字母为De，后跟两个任意字符，最后为ce
[1..9] 匹配匹配1到9
^.$ 匹配仅有一个字符的行
^\.[0-9][0-9] 匹配以一个句点和两个数字开始的行
'"Device"' 匹配单词device
De[Vv]ice\. 匹配单词Device或deVice
[0-9]\{2\}-[0-9]\{2\}-[0-9]\{4\} 匹配日期格式dd-mm-yyyy
[^.*$] 匹配匹配任意行
^[1-9]\d{5}$ 匹配邮政编码
((\+?[0-9]{2,4}\-[0-9]{3,4}\-)|([0-9]{3,4}\-))?([0-9]{7,8})(\-[0-9]+)?$/ 匹配电话号码
((\(\d{2,3}\))|(\d{3}\-))?13\d{9}$ 匹配手机号码
(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5]).(d{1,2}|1dd|2[0-4]d|25[0-5])$” 匹配IP地址
[\u4e00-\u9fa5] 匹配中文字符的正则表达式
[^\x00-\xff] 匹配双字节字符（包括汉字在内）
\n[\s| ]*\r 匹配空行的正则表达式
/<(.*)>.*<\/\1>|<(.*) \/>/ 匹配HTML标记的正则表达式
(^\s*)|(\s*$) 匹配首尾空格的正则表达式
\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)* 匹配Email地址的正则表达式
^[a-zA-z]+://(\\w+(-\\w+)*)(\\.(\\w+(-\\w+)*))*(\\?\\S*)?$ 匹配网址URL的正则表达式
^[a-zA-Z][a-zA-Z0-9_]{4,15}$ 匹配帐号是否合法(字母开头，允许5-16字节，允许字母数字下划线)
(\d{3}-|\d{4}-)?(\d{8}|\d{7})? 匹配国内电话号码
^[1-9]*[1-9][0-9]*$ 匹配腾讯QQ号

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航