您的位置:首页 > 运维架构 > Linux

Linux文本处理三剑客之awk

2018-03-08 17:33 435 查看

awk介绍

AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母)的最大功能取决于一个人所拥有的知识。AWK 提供了极其强大的功能:可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上 AWK 的确拥有自己的语言:AWK 程序设计语言, 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

最简单地说, AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言,尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于 SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 yacc 和 lex ,当然还从 C 语言中获取了一些优秀的思想。在最初创造 AWK 时,其目的是用于文本处理,并且这种语言的基础是,只要在输入数据中有模式匹配,就执行一系列指令。该实用工具扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行

awk正则表达式

awk '{print NR,NF,FILENAME}' file                ###统计行列并在每一行,NR:行号 NF:列 FILENAME:文件名
awk 'BEGIN{print "name"}' file                   ###初始化代码块(先处理,在处理其他),只能出现一次
awk 'END{print WESTOS}' file                     ###结束代码块(处理完结果后在处理),只能出现一次
awk -F ":" '/\<bash$/{print $1}' file            ##找出含有bash关键字的行并以分号为分隔符,打印出第1列,F:指定分隔符
awk -F "[: ]+" 'print $1' file                   ###以分号和空格为分隔符,打印出第1列
awk 'BEGIN{a=1;print a+1}' file                  ###先给a赋值在进行加法
awk '/bash\>/{a++}END{print a}' file             ###找出可登陆的用户,并统计出个数
awk -F ":" '/^root/{print}' file                 ###找出以root开头的并打印出来
awk -F ":" '/^a|nologin$/{print $1,$7}' file     ###找出以a开头的或者nologin结尾的,打印出第1,7列
awk -F ":" '$6~/bin$/{print $1,$7}' file         ###以冒号为分隔符,找出第6列为bin结束的行,打印出其第1,7列
awk -F ":" '$6!~/bin$/{print $1,$7}' file        ###以冒号为分隔符,找出第6列不是bin结束的行,打印出其第1,7列

awk 'NR==2,NR==5{print}' file                    ###显示出2,5行
awk '/a/,/b/{print}' file                        ###匹配出有a字符的行到有b字符的行,并打印出来


显示当前系统可登陆用户的name和id

awk -F ":" 'BEGIN{print "name id"}/\<bash$/{print $1" "$3}' /etc/passwd


统计行数可登陆行数:

awk 'BEGIN{n=0}/\<bash$/{n++}END{print n}' /etc/passwd


能够登陆且家目录不在home下的用户

awk -F ":" '/\<bash$/&&$6!~/^\/home/{print $1}' /etc/passwd


显示文本中3-5行的内容

awk -F ":" 'NR>=3&&NR<=5{print}' /etc/passwd


显示文本中6和8的内容

awk -F ":" 'NR==6||NR==8{print}' /etc/passwd


抓取ip地址

ifconfig eth0 |awk 'NR==2{print $2}'


求和1+2..+100:

seq 100 >dream
awk '$1<=100;a++;sum=sum+a;{print sum}' dream|tail -1
awk '$1<=100{a++;sum+=a}END{print sum}' dream


awk数组

数组是一个包含一系列元素的表(和C有些类似):

其格式为:

array[1]=”dream”

array[2]=”dream_ya”

array为数组名,1和2可以理解为角标,代表着数组的第几个,引号中为对应的内容

定义数组并打印

打印出数组的内容:

[root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";print array[1]}'
dream


打印出数组角标

[root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";for (key in array) print key}'
1
2


统计IP存在的个数并按个数(从大到小)排列:

cat >>dream<<EOF
172.25.254.1
172.25.254.123
172.25.24.11
172.25.254.125
192.25.254.12
172.25.25.12
172.25.254.1
172.25.254.125
192.25.254.12
172.25.254.123
172.25.254.125
192.25.254.12
172.25.254.1
192.25.25.25
172.25.254.123
192.25.254.12
172.25.25.25
172.25.24.11
172.25.254.125
172.25.254.123
EOF


1.正常解法:

[root@dream mnt]# sort dream |uniq -c|sort -nr                ###sort以第一位进行排列
4 192.25.254.12
4 172.25.254.125
4 172.25.254.123
3 172.25.254.1
2 172.25.24.11
1 192.25.25.25
1 172.25.25.25
1 172.25.25.12


2.awk数组:

awk '{array[$1]++} END {for(key in array) print array[key],key}' dream |sort -nr


原理:

$1表示dream文件中的第一列即为IP本身,由于IP为角标的话,对于数组来说这个数组并未定义,但是由于后面的++让这个数组进行了+1且默认值为0,所以每个IP形成的数组都是未定义的,遇到相同的IP时便会自动加1达到统计IP个数的效果。

array[key]:为个数===>>相当于前面引号里面的内容

key:为IP(角标)

统计字母后面数字的和,并先显示字母在显示和(倒序)

cat >>test<<EOF
a/3
b/4
e/5
c/4
a/5
c/2
d/3
b/3
f/9


[root@dream mnt]# awk -F "/" '{a[$1]+=$2}END{for (n in a){print n,a
}}' test|sort -k 2 -nr
f 9
a 8
b 7
c 6
e 5
d 3


统计/etc/fstab下字符串出现的次数

awk '{i=1;while(i<=NF){array[$i]++;i++}}END{for (key in array){print key,array[key]}}' /etc/fstab


原理:

每行处理完时,i小于等于NF(列数)为真,就会一直运行大括号里面的内容,当处理到最后一列时便会为假重新给i赋值,并且进入下一行,从而达到了统计字符串的次数

从字符串DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea中找出所有数字

echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea" | awk 'gsub(/[^[:digit:]]/,"",$0)'
echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea"|sed 's/[^0-9]//g'


原理:

[^[:digit:]]:除了数字的字符,gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容,模式匹配用的是扩展正则表达式
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  shell awk正则 awk数组