Linux文本处理三剑客之awk
2018-03-08 17:33
435 查看
awk介绍
AWK是一种优良的文本处理工具。它不仅是 Linux 中也是任何环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母)的最大功能取决于一个人所拥有的知识。AWK 提供了极其强大的功能:可以进行样式装入、流控制、数学运算符、进程控制语句甚至于内置的变量和函数。它具备了一个完整的语言所应具有的几乎所有精美特性。实际上 AWK 的确拥有自己的语言:AWK 程序设计语言, 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。最简单地说, AWK 是一种用于处理文本的编程语言工具。AWK 在很多方面类似于 shell 编程语言,尽管 AWK 具有完全属于其本身的语法。它的设计思想来源于 SNOBOL4 、sed 、Marc Rochkind设计的有效性语言、语言工具 yacc 和 lex ,当然还从 C 语言中获取了一些优秀的思想。在最初创造 AWK 时,其目的是用于文本处理,并且这种语言的基础是,只要在输入数据中有模式匹配,就执行一系列指令。该实用工具扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行
awk正则表达式
awk '{print NR,NF,FILENAME}' file ###统计行列并在每一行,NR:行号 NF:列 FILENAME:文件名 awk 'BEGIN{print "name"}' file ###初始化代码块(先处理,在处理其他),只能出现一次 awk 'END{print WESTOS}' file ###结束代码块(处理完结果后在处理),只能出现一次 awk -F ":" '/\<bash$/{print $1}' file ##找出含有bash关键字的行并以分号为分隔符,打印出第1列,F:指定分隔符 awk -F "[: ]+" 'print $1' file ###以分号和空格为分隔符,打印出第1列 awk 'BEGIN{a=1;print a+1}' file ###先给a赋值在进行加法 awk '/bash\>/{a++}END{print a}' file ###找出可登陆的用户,并统计出个数 awk -F ":" '/^root/{print}' file ###找出以root开头的并打印出来 awk -F ":" '/^a|nologin$/{print $1,$7}' file ###找出以a开头的或者nologin结尾的,打印出第1,7列 awk -F ":" '$6~/bin$/{print $1,$7}' file ###以冒号为分隔符,找出第6列为bin结束的行,打印出其第1,7列 awk -F ":" '$6!~/bin$/{print $1,$7}' file ###以冒号为分隔符,找出第6列不是bin结束的行,打印出其第1,7列 awk 'NR==2,NR==5{print}' file ###显示出2,5行 awk '/a/,/b/{print}' file ###匹配出有a字符的行到有b字符的行,并打印出来
显示当前系统可登陆用户的name和id
awk -F ":" 'BEGIN{print "name id"}/\<bash$/{print $1" "$3}' /etc/passwd
统计行数可登陆行数:
awk 'BEGIN{n=0}/\<bash$/{n++}END{print n}' /etc/passwd
能够登陆且家目录不在home下的用户
awk -F ":" '/\<bash$/&&$6!~/^\/home/{print $1}' /etc/passwd
显示文本中3-5行的内容
awk -F ":" 'NR>=3&&NR<=5{print}' /etc/passwd
显示文本中6和8的内容
awk -F ":" 'NR==6||NR==8{print}' /etc/passwd
抓取ip地址
ifconfig eth0 |awk 'NR==2{print $2}'
求和1+2..+100:
seq 100 >dream awk '$1<=100;a++;sum=sum+a;{print sum}' dream|tail -1 awk '$1<=100{a++;sum+=a}END{print sum}' dream
awk数组
数组是一个包含一系列元素的表(和C有些类似):其格式为:
array[1]=”dream”
array[2]=”dream_ya”
array为数组名,1和2可以理解为角标,代表着数组的第几个,引号中为对应的内容
定义数组并打印
打印出数组的内容:[root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";print array[1]}' dream
打印出数组角标
[root@dream mnt]# awk 'BEGIN{array[1]="dream";array[2]="dream_ya";for (key in array) print key}' 1 2
统计IP存在的个数并按个数(从大到小)排列:
cat >>dream<<EOF 172.25.254.1 172.25.254.123 172.25.24.11 172.25.254.125 192.25.254.12 172.25.25.12 172.25.254.1 172.25.254.125 192.25.254.12 172.25.254.123 172.25.254.125 192.25.254.12 172.25.254.1 192.25.25.25 172.25.254.123 192.25.254.12 172.25.25.25 172.25.24.11 172.25.254.125 172.25.254.123 EOF
1.正常解法:
[root@dream mnt]# sort dream |uniq -c|sort -nr ###sort以第一位进行排列 4 192.25.254.12 4 172.25.254.125 4 172.25.254.123 3 172.25.254.1 2 172.25.24.11 1 192.25.25.25 1 172.25.25.25 1 172.25.25.12
2.awk数组:
awk '{array[$1]++} END {for(key in array) print array[key],key}' dream |sort -nr
原理:
$1表示dream文件中的第一列即为IP本身,由于IP为角标的话,对于数组来说这个数组并未定义,但是由于后面的++让这个数组进行了+1且默认值为0,所以每个IP形成的数组都是未定义的,遇到相同的IP时便会自动加1达到统计IP个数的效果。
array[key]:为个数===>>相当于前面引号里面的内容
key:为IP(角标)
统计字母后面数字的和,并先显示字母在显示和(倒序)
cat >>test<<EOF a/3 b/4 e/5 c/4 a/5 c/2 d/3 b/3 f/9
[root@dream mnt]# awk -F "/" '{a[$1]+=$2}END{for (n in a){print n,a }}' test|sort -k 2 -nr f 9 a 8 b 7 c 6 e 5 d 3
统计/etc/fstab下字符串出现的次数
awk '{i=1;while(i<=NF){array[$i]++;i++}}END{for (key in array){print key,array[key]}}' /etc/fstab
原理:
每行处理完时,i小于等于NF(列数)为真,就会一直运行大括号里面的内容,当处理到最后一列时便会为假重新给i赋值,并且进入下一行,从而达到了统计字符串的次数
从字符串DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea中找出所有数字
echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea" | awk 'gsub(/[^[:digit:]]/,"",$0)' echo "DreaM@$!2HLM%0#&BHh7+(+_UIdfa6dfea"|sed 's/[^0-9]//g'
原理:
[^[:digit:]]:除了数字的字符,gsub(r,s,[t]):对t字符串进行搜索r表示的模式匹配的内容,并全部替换为s所表示的内容,模式匹配用的是扩展正则表达式
相关文章推荐
- Linux基础(20)文本处理三剑客之awk
- Linux文本处理三剑客之-awk
- Linux文本处理三剑客之awk
- Linux 文本处理三剑客之“awk”
- Linux文本处理三剑客之awk
- linux文本处理三剑客——awk
- Linux文本处理三剑客之-awk
- Linux文本处理三剑客之awk命令
- Linux文本处理三剑客(awk)
- Linux文本处理三剑客之awk详解
- Linux文本处理三剑客之awk
- shell 文本处理三剑客之awk
- Linux文本处理三剑客之grep
- Linux 三大文本处理命令之一AWK
- 文本处理三剑客之AWK
- Linux文本处理三剑客之grep
- linux 文本三剑客之awk
- Linux文本处理三剑客之grep及正则表达式
- Linux文本处理3大利器sed grep awk