您的位置：首页 > 其它

文本处理工具sed及awk的用法

2015-09-24 18:38 183 查看

sed: stream editor, 流编辑器；

sed对文本的处理很强大，并且sed非常小，参数少，容易掌握，他的操作方式根awk有点像。sed按顺序逐行读取文件。然后，它执行为该行指定的所有操作，并在完成请求的修改之后的内容显示出来，也可以存放到文件中。完成了一行上的所有操作之后，它读取文件的下一行，然后重复该过程直到它完成该文件。在这里要注意一点，源文件（默认地）保持不被修改。sed默认读取整个文件并对其中的每一行进行修改。说白了就是一行一行的操作。我用sed主要就是用里面的替换功能，真的很强大。
sed –h
-n, --quiet, --silent 取消自动打印模式空间
-e 脚本, --expression=脚本添加“脚本”到程序的运行列表
-f 脚本文件, --file=脚本文件添加“脚本文件”到程序的运行列表
--follow-symlinks 直接修改文件时跟随软链接
-i[扩展名], --in-place[=扩展名] 直接修改文件(如果指定扩展名就备份文件)
-l N, --line-length=N 指定“l”命令的换行期望长度
--posix 关闭所有 GNU 扩展
-r, --regexp-extended 在脚本中使用扩展正则表达式
-s, --separate 将输入文件视为各个独立的文件而不是一个长的连续输入
-u, --unbuffered 从输入文件读取最少的数据，更频繁的刷新输出

基本正则表达式元字符：
字符匹配：., [], [^]
次数匹配：*, \?, \+,\{m,n\}, \{n\}
位置锚定：^, $, \<, \>
分组及引用：, \1, \2, ...
多选一：a|b|c

删除/tmp/grub2.cfg文件中所有行的行首的空白字符；

sed 's/^[[:space:]]\+//' /tmp/grub2.cfg

删除/tmp/grub2.cfg文件中所有以#开头，后跟至少一个空白字符的行的行首的#和空白字符；

sed 's/^#[[:space:]]\+//' /tmp/grub2.cfg

awk(gawk)：文本格式化工具，报告生成器

awk是linux下的一个命令，他对其他命令的输出，对文件的处理都十分强大，其实他更像一门编程语言，他可以自定义变量，有条件语句，有循环，有数组，有正则，有函数等。他读取输出，或者文件的方式是一行，一行的读，根据你给出的条件进行查找，并在找出来的行中进行操作，感觉他的设计思想，真的很简单，但是结合实际情况，具体操作起来就没有那么简单了。他有三种形势，awk，gawk，nawk，平时所说的awk其实就是gawk。

1，变量


变量	描述
$n	当前记录的第n个字段，字段间由 FS分隔。
$0	完整的输入记录。
ARGC	命令行参数的数目。
ARGIND	命令行中当前文件的位置(从0开始算)。
ARGV	包含命令行参数的数组。
CONVFMT	数字转换格式(默认值为%.6g)
ENVIRON	环境变量关联数组。
ERRNO	最后一个系统错误的描述。
FIELDWIDTHS	字段宽度列表(用空格键分隔)。
FILENAME	当前文件名。
FNR	同 NR，但相对于当前文件。
FS	字段分隔符(默认是任何空格)。
IGNORECASE	如果为真，则进行忽略大小写的匹配。
NF	当前记录中的字段数。
NR	当前记录数。
OFMT	数字的输出格式(默认值是%.6g)。
OFS	输出字段分隔符(默认值是一个空格)。
ORS	输出记录分隔符(默认值是一个换行符)。
RLENGTH	由 match函数所匹配的字符串的长度。
RS	记录分隔符(默认是一个换行符)。
RSTART	由 match函数所匹配的字符串的第一个位置。
SUBSEP	数组下标分隔符(默认值是\034)。

2，运算符


运算符	描述
= += -= = /= %= ^= *=	赋值
?:	C条件表达式
\|\|	逻辑或
&&	逻辑与
~ ~!	匹配正则表达式和不匹配正则表达式
< <= > >= != ==	关系运算符
空格	连接
+ -	加，减
* / &	乘，除与求余
+ - !	一元加，减和逻辑非
^ ***	求幂
++ --	增加或减少，作为前缀或后缀
$	字段引用
in	数组成员

3，awk的正则


匹配符	描述
\Y	匹配一个单词开头或者末尾的空字符串
\B	匹配单词内的空字符串
\<	匹配一个单词的开头的空字符串，锚定开始
\>	匹配一个单词的末尾的空字符串，锚定末尾
\W	匹配一个非字母数字组成的单词
\w	匹配一个字母数字组成的单词
\'	匹配字符串末尾的一个空字符串
\‘	匹配字符串开头的一个空字符串

4，字符串函数

函数名	描述
sub	匹配记录中最大、最靠左边的子字符串的正则表达式，并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的时候
gsub	整个文档中进行匹配
index	返回子字符串第一次被匹配的位置，偏移量从位置1开始
substr	返回从位置1开始的子字符串，如果指定长度超过实际长度，就返回整个字符串
split	可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供，则按当前FS值进行分割
length	返回记录的字符数
match	返回在字符串中正则表达式位置的索引，如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位置，RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串
toupper和tolower	可用于字符串大小间的转换，该功能只在gawk中有效

5，数学函数


函数名	返回值
atan2(x,y)	y,x 范围内的余切
cos(x)	余弦函数
exp(x)	求幂
int(x)	取整
log(x)	自然对数
rand()	随机数
sin(x)	正弦
sqrt(x)	平方根
srand(x)	x是rand()函数的种子
int(x)	取整，过程没有舍入
rand()	产生一个大于等于0而小于1的随机数

本文出自 “未知_未觉” 博客，请务必保留此出处http://dengyinjun.blog.51cto.com/8749413/1697948

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航