您的位置：首页 > 运维架构 > Linux

Linux三剑客应用小结---grep、sed、awk

2017-06-14 20:21 344 查看

一、grep: Global search REgularexpression and Print out the line

1、grep的简单使用

grep的主要作用：文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查；打印匹配到的行

grep的工作模式：由正则表达式字符及文本字符所编写的过滤条件

grep的用法：grep [OPTIONS] PATTERN [FILE...]
[OPTIONS]：
-v: 显示不被pattern匹配到的行
-i: 忽略字符大小写
-n：显示匹配的行号
-c: 统计匹配的行数
-o: 仅显示匹配到的字符串
-q: 静默模式，不输出任何信息
-A #: after, 后#行
-B #: before, 前#行
-C #：context, 前后各#行
-e：实现多个选项间的逻辑or关系
-w：整行匹配整个单词
-E：使用ERE
-F：相当于fgrep，不支持正则表达式

2、grep拓展

grep -E, egrep

正则表达式引擎：采用不同算法，检查处理正则表达式的软件模块PCRE（Perl Compatible Regular Expressions）

元字符分类：字符匹配、匹配次数、位置锚定、分组。
字符匹配:
. 匹配任意单个字符
[] 匹配指定范围内的任意单个字符
[^] 匹配指定范围外的任意单个字符
[:alnum:] 字母和数字
[:alpha:] 代表任何英文大小写字符，亦即A-Z, a-z
[:lower:] 小写字母[:upper:] 大写字母
[:blank:] 空白字符（空格和制表符）
[:digit:] 十进制数字[:xdigit:]十六进制数字
[:graph:] 可打印的非空白字符
[:print:] 可打印字符
[:punct:] 标点符号
[:space:]水平和垂直的空白字符（比[:blank:]包含的范围广）
[:cntrl:] 不可打印的控制字符（退格、删除、警铃...）
匹配次数：
用在要指定次数的字符后面，用于指定前面的字符要出现的次数
* 匹配前面的字符任意次，包括0次，贪婪模式：尽可能长的匹配
.*任意长度的任意字符
\?匹配其前面的字符0或1次
\+匹配其前面的字符至少1次
\{n\}匹配前面的字符n次
\{m,n\}匹配前面的字符至少m次，至多n次
\{,n\}匹配前面的字符至多n次
\{n,\}匹配前面的字符至少n次
位置锚定：
定位出现的位置
^ 行首锚定，用于模式的最左侧
$ 行尾锚定，用于模式的最右侧
^PATTERN$ 用于模式匹配整行
^$ 空行
^[[:space:]]*$ 空白行
\< 或\b词首锚定，用于单词模式的左侧
\> 或\b词尾锚定；用于单词模式的右侧
\<PATTERN\>匹配整个单词
分组：
 将一个或多个字符捆绑在一起，当作一个整体进行处理，如：$root$\+分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中，这些变量的命名方式为: \1, \2, \3, ...

\1表示从左侧起第一个左括号以及与之匹配右括号之间的模式所匹配到的字符
示例：$string1\+\(string2$*\)
\1 ：string1\+$string2$*
\2 ：string2
后向引用：引用前面的分组括号中的模式所匹配字符，而非模式本身

二、sed

Stream EDitor, 行编辑器，sed是一种流编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件,简化对文件的反复操作,编写转换程序等。

用法:sed [option]... 'script' inputfile...
常用选项：
-n：不输出模式空间内容到屏幕，即不自动打印
-e: 多点编辑
-f：/PATH/SCRIPT_FILE: 从指定文件中读取编辑脚本
-r: 支持使用扩展正则表达式
-i: 原处编辑
script:'地址命令'
地址定界：
(1) 不给地址：对全文进行处理
(2) 单地址：
#: 指定的行
/pattern/：被此处模式所能够匹配到的每一行
(3) 地址范围：
#,#
#,+#
/pat1/,/pat2/
#,/pat1/
(4) ~：步进
1~2 奇数行
2~2 偶数行
编辑命令：
d: 删除模式空间匹配的行
p: 显示模式空间中的内容
支持使用\n实现多行追加
i [\]text：在行前面插入文本
c [\]text：替换行为单行或多行文本
w /path/somefile: 保存模式匹配的行至指定文件
r /path/somefile：读取指定文件的文本至模式空间中匹配到的行后
=: 为模式空间中的行打印行号
!:模式空间中匹配行取反处理替换标记：
g: 行内全局替换
p: 显示替换成功的行
s///：查找替换,支持使用其它分隔符，s@@@，s###：
高级编辑命令
w /PATH/TO/SOMEFILE：将替换成功的行保存至文件中
h: 把模式空间中的内容覆盖至保持空间中
H：把模式空间中的内容追加至保持空间中
g: 从保持空间取出数据覆盖至模式空间
G：从保持空间取出内容追加至模式空间
x: 把模式空间中的内容与保持空间中的内容进行互换
n: 读取匹配到的行的下一行覆盖至模式空间
N：读取匹配到的行的下一行追加至模式空间
d: 删除模式空间中的行
D：删除当前模式空间开端至\n的内容（不再传至标准输出），放弃之后的命令，但是对剩余模式空间重新执行sed

三、awk

awk：Aho, Weinberger, Kernighan，报告生成器，格式化文本

基本用法：
awk[options] ‘program’ var=value file…
awk[options] -f programfilevar=value file…
awk[options] 'BEGIN{ action;… } pattern{ action;…action;… }' file ...

awk程序通常由：BEGIN语句块、能够使用模式匹配的通用语句块、END语句块，共3部分组成。

program通常是被单引号或双引号中

选项：
-F指明输入时用到的字段分隔符
-v var=value: 自定义变量

基本格式：
awk[options] 'program' file…

awk的工作原理：
第一步：执行BEGIN{action;… }语句块中的语句
第二步：从文件或标准输入(stdin)读取一行，然后执行pattern{ action;… }语句块，它逐行扫描文件，从第一行到最后一行重复这个过程，直到文件全部被读取完毕。
第三步：当读至输入流末尾时，执行END{action;…}语句块

BEGIN语句块在awk开始从输入流中读取行之前被执行，这是一个可选的语句块，比如变量初始化、打印输出表格的表头等语句通常可以写在BEGIN语句块中。

END语句块在awk从输入流中读取完所有的行之后即被执行，比如打印所有行的分析结果这类信息汇总都是在END语句块中完成，它也是一个可选语句块。

pattern语句块中的通用命令是最重要的部分，也是可选的。如果没有提供pattern语句块，则默认执行{ print }，即打印每一个读取到的行，awk读取的每一行都会执行该语句块。

变量及示例：
变量：内置和自定义变量
FS：输入字段分隔符，默认为空白字符
awk-v FS=':' '{print $1,FS,$3}’ /etc/passwd
awk–F: '{print $1,$3,$7}’ /etc/passwd
OFS：输出字段分隔符，默认为空白字符
awk-v FS=‘:’ -v OFS=‘:’ '{print $1,$3,$7}’ /etc/passwd
RS：输入记录分隔符，指定输入时的换行符，原换行符仍有效
awk-v RS=' ' ‘{print }’ /etc/passwd
ORS：输出记录分隔符，输出时用指定符号代替换行符
awk-v RS=' ' -v ORS='###'‘{print }’
9c93
/etc/passwd
NF：字段数量
awk-F：‘{print NF}’ /etc/fstab,引用内置变量不用$
awk-F: '{print $(NF-1)}' /etc/passwd
NR：行号
awk'{print NR}' /etc/fstab; awkEND'{print NR}' /etc/fstab
FNR：各文件分别计数,行号
awk '{print FNR}' /etc/fstab /etc/inittab
FILENAME：当前文件名
awk '{print FILENAME}’ /etc/fstab
ARGC：命令行参数的个数
awk '{print ARGC}’ /etc/fstab /etc/inittab
awk ‘BEGIN {print ARGC}’ /etc/fstab /etc/
ARGV：数组，保存的是命令行所给定的各参数
awk ‘BEGIN {print ARGV[0]}’ /etc/fstab /etc/inittab
awk ‘BEGIN {print ARGV[1]}’ /etc/fstab/etc/inittab

格式化输出：printf“FORMAT”, item1, item2, ...
(1) 必须指定FORMAT
(2) 不会自动换行，需要显式给出换行控制符，\n
(3) FORMAT中需要分别为后面每个item指定格式符

格式符：与item一一对应
%c: 显示字符的ASCII码
%d, %i: 显示十进制整数
%e, %E:显示科学计数法数值
%f：显示为浮点数
%g, %G：以科学计数法或浮点形式显示数值
%s：显示字符串
%u：无符号整数
%%: 显示%自身

修饰符：
#[.#]：第一个数字控制显示的宽度；第二个#表示小数点后精度，%3.1f
-: 左对齐（默认右对齐）%-15s
+：显示数值的正负符号%+d

输出示例：
awk-F: ‘{printf"%s",$1}’ /etc/passwd
awk-F: ‘{printf"%s\n",$1}’ /etc/passwd
awk -F: '{printf "%-20s %10d\n",$1,$3}' /etc/passwd
awk -F: ‘{printf "Username: %s\n",$1}’ /etc/passwd
awk-F: ‘{printf“Username: %s,UID:%d\n",$1,$3}’/etc/passwd
awk-F: ‘{printf"Username: %15s,UID:%d\n",$1,$3}’/etc/passwd
awk-F: ‘{printf"Username: %-15s,UID:%d\n",$1,$3}’/etc/passwd

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： Linux sed grep awk 文本处理工具

相关文章推荐

新的分享

章节导航