awk命令

awk是一個強大的文本分析工具，相對于grep的查找，sed的編輯，awk在其對數據分析并生成報告時，顯得尤為強大。簡單來說awk就是把文件逐行的讀入，以空格為默認分隔符將每行切片，切開的部分再進行各種分析處理。

awk有3個不同版本: awk、nawk和gawk，未作特別說明，一般指gawk，gawk 是 AWK 的 GNU 版本。

awk其名稱得自于它的創始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首個字母。實際上 AWK 的確擁有自己的語言： AWK 程序設計語言，三位創建者已將它正式定義為“樣式掃描和處理語言”。它允許您創建簡短的程序，這些程序讀取輸入文件、為數據排序、處理數據、對輸入執行計算以及生成報表，還有無數其他的功能

代碼塊

awk的所有代碼(目前這么認為)都是寫在語句塊中的。

語句塊可分為3類：

BEGIN語句塊、END語句塊和main語句塊。

其中BEGIN語句塊和END語句塊都是的格式分別為BEGIN{...}和END{...}，而main語句塊是一種統稱，它的pattern部分沒有固定格式，也可以省略，main代碼塊是在讀取文件的每一行的時候都執行的代碼塊。

BEGIN代碼塊：

在讀取文件之前執行，且執行一次
在BEGIN代碼塊中，無法使用$0或其它一些特殊變量
main代碼塊：

讀取文件時循環執行，(默認情況)每讀取一行，就執行一次main代碼塊
main代碼塊可有多個
END代碼塊：

在讀取文件完成之后執行，且執行一次
有END代碼塊，必有要讀取的數據(可以是標準輸入)
END代碼塊中可以使用$0等一些特殊變量，只不過這些特殊變量保存的是最后一輪awk循環的數據

語法

awk [options] 'pattern{action}'? ?file1 fiel1

awk的語法：

多個pattern{action}可以直接連接連用
action中多個語句如果寫在同一行，則需使用分號分隔
pattern部分用于篩選行，action表示在篩選通過后執行的操作
pattern和action都可以省略
省略pattern，等價于對每一行數據都執行action
例如：awk '{print $0}' a.txt
省略代碼塊{action}，等價于{print}即輸出所有行
例如：awk '/Alice/' a.txt等價于awk '/Alice/{print $0}' a.txt
省略代碼塊中的action，表示對篩選的行什么都不做
例如：awk '/Alice/{}' a.txt
pattern{action}任何一部分都可以省略
例如:awk '' a.txt

pattern{action}語句結構(都稱之為語句塊)，其中的pattern部分可以使用下面列出的模式：

# 特殊pattern
BEGIN
END

# 布爾代碼塊
/regular expression/ ? ?# 正則匹配成功與否 /a.*ef/{action}
relational expression ? # 即等值比較、大小比較 3>2{action}
pattern && pattern ? ? ?# 邏輯與 3>2 && 3>1 {action}
pattern || pattern ? ? ?# 邏輯或 3>2 || 3<1 {action}
! pattern ? ? ? ? ? ? ? # 邏輯取反 !/a.*ef/{action}
(pattern) ? ? ? ? ? ? ? # 改變優先級
pattern ? pattern : pattern ?# 三目運算符決定的布爾值

# 范圍pattern，非布爾代碼塊
pattern1, pattern2 ? ? ?# 范圍，pat1打開、pat2關閉，即flip,flop模式

工作原理

# awk-F: {print $1,$3}' /etc/passwd

(1)awk使用一行作為輸入，并將這一行賦給內部變量$0,每一行也可稱為一一個記錄，以換行符結束

(2)然后，行被: (默認為空格或制表符)分解成字段(或域)，每個字段存儲在已編號的變量中，從$1開始，最多達100個字段

(3)awk如何知道用空格來分隔字段的呢?因為有一個內部變量FS來確定字段分隔符。初始時，FS賦為空格

(4)awk打印字段時，將以設置的方法使用print西數打印，awk在打印的字段間加上空格，因為$1,$3之間有一個逗號。逗號比較特殊，它映射為另一個內部變量，稱為輸出字段分隔符OFS, OFS默認為空格

(5)awk輸出之后，將從文件中獲取另行，并將其存儲在$0中，覆蓋原來的內容，然后將新的字符串分隔成字段并進行處理。該過程將持續到所有行處理完畢

變量

可設置表示輸入記錄分隔符的預定義(Record Separator)來改變每次讀取的記錄模式。

RS通常設置在BEGIN代碼塊中，因為要先于讀取文件就確定好RS分隔符。

RS指定輸入記錄分隔符時，所讀取的記錄中是不包含分隔符字符的。例如RS="a"，則$0中一定不可能出現字符a

特殊的RS值用來解決特殊讀取需求：

RS=""：按段落讀取
RS="\0"：一次性讀取所有數據，但有些特殊文件中包含了空字符\0
RS="^$"：真正的一次性讀取所有數據，因為非空文件不可能匹配成功
RS="\n+"：按行讀取，但忽略所有空行

RS兩種可能情況：
·RS為單個字符：直接使用該字符來分割記錄
·RS為多個字符：將其當做正則表達式，只要匹配正則表達式的符號，都用來分割記錄
。設置預定義變量IGNORECASE為非索，正匹配時表示忽略大小寫
。兼容模式下，只有首字符才生效，不會使用正則模式去分割記錄

在讀取每條記錄之后，將其賦值給$0，同時還會設置NR、FNR、RT。

在awk每次讀完一條記錄時，會設置一個稱為RT的預定義變量，表示Record Termination。

當RS為單個字符時，RT的值和RS的值是相同的。

當RS為多個字符(正則表達式)時，則RT設置為正則匹配到記錄分隔符之后，真正用于劃分記錄時的字符。

當無法匹配到記錄分隔符時，RT設置為控制空字符串(即默認的初始值)。

在讀取每條記錄之后，將其賦值給$0，同時還會設置NR、FNR、RT。

所有文件的行號計數器

FNR

在讀取每條記錄之后，將其賦值給$0，同時還會設置NR、FNR、RT。

是各個文件的行號計數器

字段分割

awk讀取每一條記錄之后，會將其賦值給$0，同時還會對這條記錄按照預定義變量FS劃分字段，將劃分好的各個字段分別賦值給$1 $2 $3 $4...$N，同時將劃分的字段數量賦值給預定義變量NF

$N引用字段：

N=0：即$0，引用記錄本身
0<N<=NF：引用對應字段
N>NF：表示引用不存在的字段，返回空字符串
N<0：報錯

方式：

讀取record之后，將使用預定義變量FS、FIELDWIDTHS或FPAT中的一種來分割字段。分割完成之后，再進入main代碼段(所以，在main中設置FS對本次已經讀取的record是沒有影響的，但會影響下次讀取)。

FS或-F	FS或者-F：字段分隔符 FS為單個字符時，該字符即為字段分隔符 FS為多個字符時，則采用正則表達式模式作為字段分隔符特殊的，也是FS默認的情況，FS為單個空格時，將以連續的空白（空格、制表符、換行符）作為字段分隔符特殊的，FS為空字符串””時，將對每個字符都進行分隔，即每個字符都作為一個字段設置預定義變量IGNORECASE為非零值，正則匹配時表示忽略大小寫(只影響正則，所以FS為單字時無影響) 如果record中無法找到FS指定的分隔符(例如將FS設置為”\n”)，則整個記錄作為一個字段，即$1和$0相等。
FIELDWIDTHS	指定預定義變量FIELDWIDTHS按字符寬度分割字段，這是gawk提供的高級功能。在處理某字段缺失時非常好用。 ·FIELDWIDTHS="3569"表示第一個字段3字符，第二字段5字符.… ·FIELDWIDTHS="81：562：33"表示：。第一個字段讀8個字符。然后跳過1個字符再讀5個字符作為第二個字段。然后讀6個字符作為第三個字段。然后跳過2公字符在讀33個字符作為第四個字段（如果不足33個字符，師讀到結尾） ·FIELDWIDTHS="23*"：。第一個字段2個字符。第二個字段3個字符。第三個字段剩余所有字符。星號只能放在最后，且只能單獨使用，表示剩余所有
FPAT	FS是指定字段分隔符，來取得除分隔符外的部分作為字段。 FPAT是取得匹配的字符部分作為字段。它是gawk提供的一個高級功能。 FPAT根據指定的正則來全局匹配record，然后將所有匹配成功的部分組成$1、$2...，不會修改$0。 awk 'BEGIN{FPAT="[0-9]+"}{print $3"-"}' a.txt 之后再設置FS或FPAT，該變量將失效
OFS	分割表示使用FS（field Separator），計算表示使用預定義變量OFS（Output Field Separator）。修改$0，將使用FS重新分割字段，所以會影響$1、$2... 修改$1、$2，將根據$1到$NF等各字段來重新計算$0 即使是$1 = $1這樣的原值不變的修改，也一樣會重新計算$0 為不存在的字段賦值，將新增字段并按需使用空字符串填充中間的字段，并使用OFS重新計算$0 awk 'BEGIN{OFS="-"}{$(NF+2)=5;print $0}' a.txt 增加NF值，將使用空字符串新增字段，并使用OFS重新計算$0 awk 'BEGIN{OFS="-"}{NF+=3;print $0}' a.txt 減小NF值，將丟棄一定數量的尾部字段，并使用OFS重新計算$0 awk 'BEGIN{OFS="-"}{NF-=3;print $0}' a.txt 沒有導致$0重建，$0就一直是原原本本的數據，所以指定OFS也無效。當$0重建后，將自動使用OFS重建，所以即使沒有指定OFS，它也會采用默認值(空格)進行重建。如果重建$0之后，再去修改OFS，將對當前行無效，但對之后的行有效。所以如果也要對當前行生效，需要再次重建。