awk教程入門與實例練習(一)

Awk 是一種非常好的語言,同時有一個非常奇怪的名稱。在本系列(共三篇文章)的第一篇文章中,Daniel Robbins 將使您迅速掌握 awk 編程技巧。隨著本系列的進展,將討論更高級的主題,最后將演示一個真正的高級 awk 演示程序。

捍衛 awk
在本系列文章中,我將使您成為精通 awk 的編碼人員。我承認,awk 并沒有一個非常好聽且又非常“時髦”的名字。awk 的 GNU 版本(叫作 gawk)聽起來非常怪異。那些不熟悉這種語言的人可能聽說過 “awk”,并可能認為它是一組落伍且過時的混亂代碼。它甚至會使最博學的 UNIX 權威陷于錯亂的邊緣(使他不斷地發出 “kill -9!” 命令,就象使用咖啡機一樣)。

的確,awk 沒有一個動聽的名字。但它是一種很棒的語言。awk 適合于文本處理和報表生成,它還有許多精心設計的特性,允許進行需要特殊技巧程序設計。與某些語言不同,awk 的語法較為常見。它借鑒了某些語言的一些精華部分,如 C 語言、python 和 bash(雖然在技術上,awk 比 python 和 bash 早創建)。awk 是那種一旦學會了就會成為您戰略編碼庫的主要部分的語言。

第一個 awk
讓我們繼續,開始使用 awk,以了解其工作原理。在命令行中輸入以下命令:

$ awk ‘{ print }’ /etc/passwd

您將會見到 /etc/passwd 文件的內容出現在眼前。現在,解釋 awk 做了些什么。調用 awk 時,我們指定 /etc/passwd 作為輸入文件。執行 awk 時,它依次對 /etc/passwd 中的每一行執行 print 命令。所有輸出都發送到 stdout,所得到的結果與與執行catting /etc/passwd完全相同。

現在,解釋 { print } 代碼塊。在 awk 中,花括號用于將幾塊代碼組合到一起,這一點類似于 C 語言。在代碼塊中只有一條 print 命令。在 awk 中,如果只出現 print 命令,那么將打印當前行的全部內容。

這里是另一個 awk 示例,它的作用與上例完全相同:

$ awk ‘{ print $0 }’ /etc/passwd

在 awk 中,$0 變量表示整個當前行,所以 print 和 print $0 的作用完全一樣。

如果您愿意,可以創建一個 awk 程序,讓它輸出與輸入數據完全無關的數據。以下是一個示例:

$ awk ‘{ print “” }’ /etc/passwd

只要將 “” 字符串傳遞給 print 命令,它就會打印空白行。如果測試該腳本,將會發現對于 /etc/passwd 文件中的每一行,awk 都輸出一個空白行。再次說明, awk 對輸入文件中的每一行都執行這個腳本。以下是另一個示例:

$ awk ‘{ print “hiya” }’ /etc/passwd

運行這個腳本將在您的屏幕上寫滿 hiya。:)

多個字段
awk 非常善于處理分成多個邏輯字段的文本,而且讓您可以毫不費力地引用 awk 腳本中每個獨立的字段。以下腳本將打印出您的系統上所有用戶帳戶的列表:

$ awk -F”:” ‘{ print $1 }’ /etc/passwd

上例中,在調用 awk 時,使用 -F 選項來指定 “:” 作為字段分隔符。awk 處理 print $1 命令時,它會打印出在輸入文件中每一行中出現的第一個字段。以下是另一個示例:

$ awk -F”:” ‘{ print $1 $3 }’ /etc/passwd

以下是該腳本輸出的摘錄:

halt7
operator11
root0
shutdown6
sync5
bin1
….etc.

如您所見,awk 打印出 /etc/passwd 文件的第一和第三個字段,它們正好分別是用戶名和用戶標識字段。現在,當腳本運行時,它并不理想 — 在兩個輸出字段之間沒有空格!如果習慣于使用 bash 或 python 進行編程,那么您會指望 print $1 $3 命令在兩個字段之間插入空格。然而,當兩個字符串在 awk 程序中彼此相鄰時,awk 會連接它們但不在它們之間添加空格。以下命令會在這兩個字段中插入空格:

$ awk -F”:” ‘{ print $1 ” ” $3 }’ /etc/passwd

以這種方式調用 print 時,它將連接 $1、” ” 和 $3,創建可讀的輸出。當然,如果需要的話,我們還可以插入一些文本標簽:

$ awk -F”:” ‘{ print “username: ” $1 “/t/tuid:” $3″ }’ /etc/passwd

這將產生以下輸出:

username: halt uid:7
username: operator uid:11
username: root uid:0
username: shutdown uid:6
username: sync uid:5
username: bin uid:1
….etc.

外部腳本
將腳本作為命令行自變量傳遞給 awk 對于小的單行程序來說是非常簡單的,而對于多行程序,它就比較復雜。您肯定想要在外部文件中撰寫腳本。然后可以向 awk 傳遞 -f 選項,以向它提供此腳本文件:

$ awk -f myscript.awk myfile.in

將腳本放入文本文件還可以讓您使用附加 awk 功能。例如,這個多行腳本與前面的單行腳本的作用相同,它們都打印出 /etc/passwd 中每一行的第一個字段:

BEGIN {
FS=”:”
}

{ print $1 }

這兩個方法的差別在于如何設置字段分隔符。在這個腳本中,字段分隔符在代碼自身中指定(通過設置 FS 變量),而在前一個示例中,通過在命令行上向 awk 傳遞 -F”:” 選項來設置 FS。通常,最好在腳本自身中設置字段分隔符,只是因為這表示您可以少輸入一個命令行自變量。我們將在本文的后面詳細討論 FS 變量。

BEGIN 和 END 塊
通常,對于每個輸入行,awk 都會執行每個腳本代碼塊一次。然而,在許多編程情況中,可能需要在 awk 開始處理輸入文件中的文本之前執行初始化代碼。對于這種情況,awk 允許您定義一個 BEGIN 塊。我們在前一個示例中使用了 BEGIN 塊。因為 awk 在開始處理輸入文件之前會執行 BEGIN 塊,因此它是初始化 FS(字段分隔符)變量、打印頁眉或初始化其它在程序中以后會引用的全局變量的極佳位置。

awk 還提供了另一個特殊塊,叫作 END 塊。awk 在處理了輸入文件中的所有行之后執行這個塊。通常,END 塊用于執行最終計算或打印應該出現在輸出流結尾的摘要信息。

規則表達式和塊
awk 允許使用規則表達式,根據規則表達式是否匹配當前行來選擇執行獨立代碼塊。以下示例腳本只輸出包含字符序列 foo 的那些行:

/foo/ { print }

當然,可以使用更復雜的規則表達式。以下腳本將只打印包含浮點數的行:

/[0-9]+/.[0-9]*/ { print }

表達式和塊
還有許多其它方法可以選擇執行代碼塊。我們可以將任意一種布爾表達式放在一個代碼塊之前,以控制何時執行某特定塊。僅當對前面的布爾表達式求值為真時,awk 才執行代碼塊。以下示例腳本輸出將輸出其第一個字段等于 fred 的所有行中的第三個字段。如果當前行的第一個字段不等于 fred,awk 將繼續處理文件而不對當前行執行 print 語句:

$1 == “fred” { print $3 }

awk 提供了完整的比較運算符集合,包括 “==”、”<”、”>”、”<=”、”>=” 和 “!=”。另外,awk 還提供了 “~” 和 “!~” 運算符,它們分別表示“匹配”和“不匹配”。它們的用法是在運算符左邊指定變量,在右邊指定規則表達式。如果某一行的第五個字段包含字符序列 root,那么以下示例將只打印這一行中的第三個字段:

$5 ~ /root/ { print $3 }

條件語句
awk 還提供了非常好的類似于 C 語言的 if 語句。如果您愿意,可以使用 if 語句重寫前一個腳本:

{
if ( $5 ~ /root/ ) {
print $3
}
}

這兩個腳本的功能完全一樣。第一個示例中,布爾表達式放在代碼塊外面。而在第二個示例中,將對每一個輸入行執行代碼塊,而且我們使用 if 語句來選擇執行 print 命令。這兩個方法都可以使用,可以選擇最適合腳本其它部分的一種方法。

以下是更復雜的 awk if 語句示例。可以看到,盡管使用了復雜、嵌套的條件語句,if 語句看上去仍與相應的 C 語言 if 語句一樣:

{
if ( $1 == “foo” ) {
if ( $2 == “foo” ) {
print “uno”
} else {
print “one”
}
} else if ($1 == “bar” ) {
print “two”
} else {
print “three”
}
}

使用 if 語句還可以將代碼:

! /matchme/ { print $1 $3 $4 }

轉換成:

{
if ( $0 !~ /matchme/ ) {
print $1 $3 $4
}
}

這兩個腳本都只輸出不包含 matchme 字符序列的那些行。此外,還可以選擇最適合您的代碼的方法。它們的功能完全相同。

awk 還允許使用布爾運算符 “||”(邏輯與)和 “&&”(邏輯或),以便創建更復雜的布爾表達式:

( $1 == “foo” ) && ( $2 == “bar” ) { print }

這個示例只打印第一個字段等于 foo 且第二個字段等于 bar 的那些行。

數值變量!
至今,我們不是打印字符串、整行就是特定字段。然而,awk 還允許我們執行整數和浮點運算。通過使用數學表達式,可以很方便地編寫計算文件中空白行數量的腳本。以下就是這樣一個腳本:

BEGIN { x=0 }
/^$/ { x=x+1 }
END { print “I found ” x ” blank lines. :)” }

在 BEGIN 塊中,將整數變量 x 初始化成零。然后,awk 每次遇到空白行時,awk 將執行 x=x+1 語句,遞增 x。處理完所有行之后,執行 END 塊,awk 將打印出最終摘要,指出它找到的空白行數量。

字符串化變量
awk 的優點之一就是“簡單和字符串化”。我認為 awk 變量“字符串化”是因為所有 awk 變量在內部都是按字符串形式存儲的。同時,awk 變量是“簡單的”,因為可以對它執行數學操作,且只要變量包含有效數字字符串,awk 會自動處理字符串到數字的轉換步驟。要理解我的觀點,請研究以下這個示例:

x=”1.01″
# We just set x to contain the *string* “1.01″
x=x+1
# We just added one to a *string*
print x
# Incidentally, these are comments :)

awk 將輸出:

2.01

有趣吧!雖然將字符串值 1.01 賦值給變量 x,我們仍然可以對它加一。但在 bash 和 python 中卻不能這樣做。首先,bash 不支持浮點運算。而且,如果 bash 有“字符串化”變量,它們并不“簡單”;要執行任何數學操作,bash 要求我們將數字放到丑陋的 $( ) ) 結構中。如果使用 python,則必須在對 1.01 字符串執行任何數學運算之前,將它轉換成浮點值。雖然這并不困難,但它仍是附加的步驟。如果使用 awk,它是全自動的,而那會使我們的代碼又好又整潔。如果想要對每個輸入行的第一個字段乘方并加一,可以使用以下腳本:

{ print ($1^2)+1 }

如果做一個小實驗,就可以發現如果某個特定變量不包含有效數字,awk 在對數學表達式求值時會將該變量當作數字零處理。

眾多運算符
awk 的另一個優點是它有完整的數學運算符集合。除了標準的加、減、乘、除,awk 還允許使用前面演示過的指數運算符 “^”、模(余數)運算符 “%” 和其它許多從 C 語言中借入的易于使用的賦值操作符。

這些運算符包括前后加減(i++、–foo)、加/減/乘/除賦值運算符( a+=3、b*=2、c/=2.2、d-=6.2)。不僅如此 — 我們還有易于使用的模/指數賦值運算符(a^=2、b%=4)。

字段分隔符
awk 有它自己的特殊變量集合。其中一些允許調整 awk 的運行方式,而其它變量可以被讀取以收集關于輸入的有用信息。我們已經接觸過這些特殊變量中的一個,FS。前面已經提到過,這個變量讓您可以設置 awk 要查找的字段之間的字符序列。我們使用 /etc/passwd 作為輸入時,將 FS 設置成 “:”。當這樣做有問題時,我們還可以更靈活地使用 FS。

FS 值并沒有被限制為單一字符;可以通過指定任意長度的字符模式,將它設置成規則表達式。如果正在處理由一個或多個 tab 分隔的字段,您可能希望按以下方式設置 FS:

FS=”/t+”

以上示例中,我們使用特殊 “+” 規則表達式字符,它表示“一個或多個前一字符”。

如果字段由空格分隔(一個或多個空格或 tab),您可能想要將 FS 設置成以下規則表達式:

FS=”[[:space:]+]”

這個賦值表達式也有問題,它并非必要。為什么?因為缺省情況下,FS 設置成單一空格字符,awk 將這解釋成表示“一個或多個空格或 tab”。在這個特殊示例中,缺省 FS 設置恰恰是您最想要的!

復雜的規則表達式也不成問題。即使您的記錄由單詞 “foo” 分隔,后面跟著三個數字,以下規則表達式仍允許對數據進行正確的分析:

FS=”foo[0-9][0-9][0-9]”

字段數量
接著我們要討論的兩個變量通常并不是需要賦值的,而是用來讀取以獲取關于輸入的有用信息。第一個是 NF 變量,也叫做“字段數量”變量。awk 會自動將該變量設置成當前記錄中的字段數量。可以使用 NF 變量來只顯示某些輸入行:

NF == 3 { print “this particular record has three fields: ” $0 }

當然,也可以在條件語句中使用 NF 變量,如下:

{
if ( NF > 2 ) {
print $1 ” ” $2 “:” $3
}
}

記錄號
記錄號 (NR) 是另一個方便的變量。它始終包含當前記錄的編號(awk 將第一個記錄算作記錄號 1)。迄今為止,我們已經處理了每一行包含一個記錄的輸入文件。對于這些情況,NR 還會告訴您當前行號。然而,當我們在本系列以后部分中開始處理多行記錄時,就不會再有這種情況,所以要注意!可以象使用 NF 變量一樣使用 NR 來只打印某些輸入行:

(NR < 10 ) || (NR > 100) { print “We are on record number 1-9 or 101+” }

另一個示例:

{
#skip header
if ( NR > 10 ) {
print “ok, now for the real information!”
}
}

awk 提供了適合各種用途的附加變量。我們將在以后的文章中討論這些變量。

現在已經到了初次探索 awk 的尾聲。隨著本系列的開展,我將演示更高級的 awk 功能,我們將用一個真實的 awk 應用程序作為本系列的結尾。同時,如果急于學習更多知識,請參考以下列出的參考資料。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535764.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535764.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535764.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

HDFS-簡介

HDFS 是 Hadoop Distribute File System 的簡稱&#xff0c;意為&#xff1a;Hadoop 分布式文件系統&#xff0c;是一種旨在在商品硬件上運行的分布式文件系統。它與現有的分布式文件系統有許多相似之處。但是&#xff0c;與其他分布式文件系統的區別很明顯。HDFS具有高度的容錯…

awk教程入門與實例練習(二)

在這篇 awk 簡介的續集中&#xff0c;Daniel Robbins 繼續探索 awk&#xff08;一種很棒但有怪異名稱的語言&#xff09;。Daniel 將演示如何處理多行記錄、使用循環結構&#xff0c;以及創建并使用 awk 數組。閱讀完本文后&#xff0c;您將精通許多 awk 的功能&#xff0c;而且…

HDFS-配置項

一、core-site.xml與core-default.xml core-default.xml與core-site.xml的功能是一樣的&#xff0c;如果在core-site.xml里沒有配置的屬性&#xff0c;則會自動會獲取core-default.xml里的相同屬性的值 <configuration><property><!-- 這個屬性用來指定namenod…

awk教程入門與實例練習(三)

在 awk 系列的這篇總結中&#xff0c;Daniel 向您介紹 awk 重要的字符串函數&#xff0c;以及演示了如何從頭開始編寫完整的支票簿結算程序。在這個過程中&#xff0c;您將學習如何編寫自己的函數&#xff0c;并使用 awk 的多維數組。學完本文之后&#xff0c;您將掌握更多 awk…

HDFS-常用命令

1. -help&#xff1a;顯示幫助信息 hadoop fs -help rmshel2. -ls&#xff1a;顯示目錄信息 hadoop fs -ls /3. -mkdir&#xff1a;在HDFS上創建目錄 hadoop fs -mkdir -p /user/ha4. -moveFromLocal&#xff1a;從本地剪切粘貼到HDFS hadoop fs -moveFromLocal ~/test.txt…

如何關閉WINDOWS2003 DEP數據保護功能

近來很多朋友和客戶都使用了WINDOWS2003來架設自己的GAME SERVER,但有很多朋友反映說,不如WINDOWS2000好,原因不是穩定,而是成功率高,和簡單.但我個人覺得WINDOWS2003還是不錯的系統,如果朋友們都不用這個系統,而用WINDOWS2000 有點不值得了.我就開始找尋這樣的問題.我對GAME 不…

JDK源碼解析之 java.lang.Thread

位于java.lang包下的Thread類是非常重要的線程類&#xff0c;它實現了Runnable接口&#xff0c;今天我們來學習一下Thread類&#xff0c;在學習Thread類之前&#xff0c;先介紹與線程相關知識&#xff1a;線程的幾種狀態、上下文切換&#xff0c;然后接著介紹Thread類中的方法的…

TASKLIST

TASKLIST [/S system [/U username [/P [password]]]] [/M [module] | /SVC | /V] [/FI filter] [/FO format] [/NH]參數列表:/S system 指定連接到的遠程系統。/U [domain/]user 指定使用哪個用戶執行這個命令。/P [password] 為指定的用戶指定密碼。/SVC 顯示每個進程中的服務…

JDK源碼解析之 java.lang.ThreadLocal

此類提供線程局部變量。這些變量與普通變量不同&#xff0c;每個訪問一個線程&#xff08;通過其get或set方法&#xff09;的線程 都有其自己的&#xff0c;獨立初始化的變量副本。 ThreadLocal實例通常是希望將狀態與線程關聯的類中的私有靜態字段&#xff08;例如&#xff0c…

華爾街頂級大師胡立陽名言

1.不要聽“親朋好友”的話&#xff0c;他們只會讓你成為“平凡人”。 2.不要只會“用功讀書”&#xff0c;重要的是“要讀對書”。  3&#xff0e;不要只是“努力工作”&#xff0c;重要的是“做對工作”。   4.不要指示結交“志趣相投”的朋友&#xff0c;否則你永遠只看到…

JDK源碼解析之 Java.lang.Enum

Enum是一個特殊的類. 我們不能以class Xxx extends Enum的方式手動繼承, 必須寫成enum Xxx的形式; 然而這段枚舉類的定義在編譯之后又變回了class Xxx extends Enum. 一、類定義 public abstract class Enum<E extends Enum<E>>implements Comparable<E>, …

Linux下的一些簡單網絡配置命令介紹

1、 ifconfig可以使用ifconfig命令來配置并查看網絡接口的配置情況。例如&#xff1a;&#xff08;1&#xff09; 配置eth0的IP地址&#xff0c; 同時激活該設備。#ifconfig eth0 192.168.1.10 netmask 255.255.255.0 up&#xff08;2&#xff09; 配置eth0別名設備eth0:1的IP地…

JDK源碼解析之 java.lang.Throwable

在 Java 中&#xff0c;所有的異常都有一個共同的祖先 Throwable&#xff08;可拋出&#xff09;。Throwable 指定代碼中可用異常傳播機制通過 Java 應用程序傳輸的任何問題的共性。 一、類定義 public class Throwable implements Serializable {}Serializable&#xff1a;可…

JDK源碼解析之 java.lang.Error

java.lang.Error 錯誤。是所有錯誤的基類&#xff0c;用于標識嚴重的程序運行問題。這些問題通常描述一些不應被應用程序捕獲的反常情況。 一、源碼部分 //繼承了java.lang.Throwable public class Error extends Throwable {//適用于java序列化機制,過判斷類的serialVersionU…

linux命令之有關網絡的操作命令

1&#xff0e;hostname 命令&#xff08;1&#xff09;一般格式&#xff1a;hostname [選項] [主機名]&#xff08;2&#xff09;說明&#xff1a;顯示或設置系統的主機名&#xff1b;如果無任何選項和主機名&#xff0c;則用于顯示系統的主機名。&#xff08;3&#xff09…

JDK源碼解析之 java.lang.Exception

異常。是所有異常的基類&#xff0c;用于標識一般的程序運行問題。這些問題通常描述一些會被應用程序捕獲的反常情況。 一、源碼部分 //繼承了java.lang.Throwable public class Exception extends Throwable {//適用于java序列化機制,過判斷類的serialVersionUID來驗證的版本…

linux命令之有關關機和查看系統信息的命令

shutdown 正常關機 reboot 重啟計算機 ps 查看目前程序執行的情況top 查看目前程序執行的情景和內存使用情況kill 終止一個進程date 更改或查看目前時間 一&#xff0e;查看系統的進程 要管理進程&#xff0c;首先要知…

HDFS-文件讀寫過程

一、文件讀取 Client向NameNode發起RPC請求&#xff0c;來確定請求文件block所在的位置&#xff1b;NameNode會視情況返回文件的部分或者全部block列表&#xff0c;對于每個block&#xff0c;NameNode 都會返回含有該 block 副本的 DataNode 地址&#xff1b; 這些返回的 DN 地…

linux命令復習之有關磁盤空間的命令

1&#xff0e;mount 命令&#xff08;1&#xff09;一般格式&#xff1a;mount 文件系統類型 [選項] 掛接設備&#xff08;2&#xff09;說明&#xff1a;將某個文件系統掛載到某個目錄上。當這個命令執行成功后&#xff0c;直到使用 umount 將這個文件系統移除為止。&…

HDFS-常用API操作

一、Maven <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</version> </dependency> <dependency><groupId>org.apache.logging.log4j</groupId><artifactId>…