一、gawk 是什么

在了解gawk之前，先了解一下文本三工具

文本过滤工具：grep|egrep|fgrep 其中fgrep不支持正则表达式

1.行编辑器：sed sed 有两种空间模式空间保持空间

2. 文本报告工具：awk|gawk 格式化文本输出；他在处理文本文件时，对文档中的数据有条件的输出

3. gawk – pattern scanning and processing languageawk 本质上一个编程语言。想要了解更详细就 Google

现在先看看awk在系统上是?

原来awk是gawk，从上面看就知道/bin/awk是gawk的软连接

二、awk的工作方式

1.awk 一次读取一行文本用输入分隔符（默认为空格）进行切片。

awk使用一行作为输入（通过文件或者管道），并将这一行赋给内部变量$0,默认时每一行也可以称为一个记录, 以换行符结束\n

2.然后，行被空格分解成字段（单词），每一个字段存储在已经编号的变量中，$1开始。

………………

以上实例就可以说明awk 的工作方式，awk默认是空格作为分隔符的。在awk中无论多少空格都会当一个空格。

cat是无法理解多个空格的，准确的说是以固定的格式来识别的。 print后面会有说明。

三、awk的使用

1. 基本用法：gawk [options] 'program' FILE …..

program: PATTERN{ACTION STATEMENTS}

'program': gawk自己的编程语言

PATTERN: 模式

ACTION STATEMENTS:动作语句:语句有多个可以用分号（；）分隔

option：基础常用的选项

-F：指明输入时用到的字段分隔符；

-v var=value: 自定义变量；

输出命令：在awk中总要输出结果的。既然要输出那就先了解一下简单的输出命令prin

2. print：

print item1, item2, …

从上述结果就可以看出print是逗号分隔。逗号是告诉print是多个字段的。

要点：

(1) 逗号分隔符；

(2) 输出的各item可以字符串，也可以是数值；当前记录的字段、变量或awk的表达式；

例：

其中的hello就是字符串，6就是数值，

(3) 如省略item，相当于print $0;

awk本质上是编程语言，那就他肯定也会有变量的。

3. 变量：每一个-v选项定义一个变量；变量分内建变量和自定义变量

常用的内建变量：

FS：input field seperator，默认为空白字符；输入字段分隔符

OFS：output field seperator，默认为空白字符；输出字段分隔符

例：

从上述例子可以看出，每一个-v定义一个变量，FS是输入分隔符，OFS是输出分隔符，

上述例子可以看出输入的分隔符是：输出分隔符是—

RS：input record seperator，输入时的换行符；行分隔符

ORS：output record seperator，输出时的换行符；

对于awk命令而言，处理字段分隔符，还有行分隔符。行分隔符可以自己定义

例：

从上述例子就可以看出：就可以我把（：）定义为行分隔符了，输入的是空格

NF：number of field，字段数量

例：

这个就不说了：就是一一对应的看就行了

{print NF}, {print $NF} awk 中不需加$

如果加上$，就会引用最后段

NR：number of record, 行数；显示行数对行统一技术

FNR：各文件分别计数；行数；

例：

从上述例子可以看出，NR是统计行数的，当多个文件时，他会统一的显示所有的文件行数。

FILENAME：当前正在处理的文件名；

ARGC：命令行给定的参数的个数；

ARGV：数组，保存的是命令行所给定的各参数；awk也当做一个参数

自定义变量：

(1) -v var=value var是变量名 value：值

对于awk变量名也区分字符大小写；

(2) 在program中直接定义

格式化输出命令printf

格式化输出：printf FORMAT, item1, item2, …

要点：

(1) FORMAT必须给出;

(2) 不会自动换行，需要显式给出换行控制符，\n

(3) FORMAT中需要分别为后面的每个item指定一个格式化符号；

格式符：

%c: 显示字符的ASCII码；

%d, %i: 显示十进制整数；

%e, %E: 科学计数法数值显示；

%f：显示为浮点数；

%g, %G：以科学计数法或浮点形式显示数值；

%s：显示字符串；

%u：无符号整数；

%%: 显示%自身；

例：

\n换行符，

这个其实就是$1输出的格式符就是%s，$2就是%i的修饰符。

格式符中还有修饰符：

#[.#]：第一个数字控制显示的宽度；第二个#表示小数点后的精度；

%3.1f

-: 左对齐

+：显示数值的符号

例：

这个可以直接看上面。

4、awk中的操作符

（1）算术操作符：

x+y, x-y, x*y, x/y x^y, x%y +：加 -：减：*乘：/除：^乘方：%：取余

-x：负数

+x: 转换为数值；

（2）字符串操作符：没有符号的操作符，字符串连接

赋值操作符：

++：自加

–：自减

（3）比较操作符：>, >=, <, <=, !=, ==

（4）模式匹配符：

~：是否匹配

!~：是否不匹配

（5）逻辑操作符：

&& 与

|| 或

! 非

（6）函数调用：

function_name(argu1, argu2, …)

（7）简单条件表达式：

selector?if-true-expression:if-false-expression

selector 条件表达时

awk -F: '{$3>=1000?usertype="Common User":usertype="Sysadmin or SysUser";printf "%15s:%-s\n",$1,usertype}' /etc/passwd

对 $3>=1000 判断是否系统用户还是普通用户。 usertype="Common User":usertype="Sysadmin or SysUser" 定义类型

printf "%15s:%-s\n",$1,usertype 输出：如果大于1000输出第一个也就是Common User，反之就第二个

5、PATTERN：模式

(1) empty：空模式，匹配文本的每一行；

之前用到的都是empty

(2) /regular expression/：仅处理能够被此处的模式匹配到的行；

显示./etc/fstab中的uuid的行

awk '/^UUID/{print $1}' /etc/fstab

取反

awk '!/^UUID/{print $1}' /etc/fstab

(3) relational expression: 关系表达式；结果有“真”有“假”；结果为“真”才会被处理；

真：结果为非0值，非空字符串；

判断是系统用户还普通用户

awk ‘$3>=1000{print $1,$3},/etc/passwd

判断shell是/bin/bash的用户。

awk -F: '$NF=="/bin/bash"'{print $1,$NF}' /etc/passwd

(4) line ranges：行范围，地址定界

startline,endline：/pat1/,/pat2/

注意：不支持直接给出数字的格式

基于条件判断的

~]# awk -F: '(NR>=2&&NR<=10){print $1}' /etc/passwd

(5) BEGIN/END模式

BEGIN{}: 仅在开始处理文件中的文本之前执行一次；

END{}：仅在文本处理完成之后执行一次；

BEGIN{}只有执行一次的 END{}在结束时执行次

6、常用的action

(1) Expressions ：表达式

(2) Control statements：if, while等；控制语句

(3) Compound statements：组合语句；

(4) input statements输入语句

(5) output statements 输出语句

好了这就是基础了，方正就是多练就行了，可以man gawk

原创文章，作者：N19_king，如若转载，请注明出处：http://www.178linux.com/20020

gawk基础

一、gawk 是什么

二、awk的工作方式

三、awk的使用

常用的内建变量：

自定义变量：

相关推荐

Openssl加密解密原理+CA自建实现

CentOS7下利用rsyslog+loganalyzer配置日志服务器及Linux和windows客户端配置

12压缩与解压

如何在CentOS 6上安装配置Samba

net25 第15周作业

分享到: