awk教程入門與實例練習(二)

在這篇 awk 簡介的續集中,Daniel Robbins 繼續探索 awk(一種很棒但有怪異名稱的語言)。Daniel 將演示如何處理多行記錄、使用循環結構,以及創建并使用 awk 數組。閱讀完本文后,您將精通許多 awk 的功能,而且可以編寫您自己的功能強大的 awk 腳本。

多行記錄
awk 是一種用于讀取和處理結構化數據(如系統的 /etc/passwd 文件)的極佳工具。/etc/passwd 是 UNIX 用戶數據庫,并且是用冒號定界的文本文件,它包含許多重要信息,包括所有現有用戶帳戶和用戶標識,以及其它信息。在我的前一篇文章中,我演示了 awk 如何輕松地分析這個文件。我們只須將 FS(字段分隔符)變量設置成 “:”。

正確設置了 FS 變量之后,就可以將 awk 配置成分析幾乎任何類型的結構化數據,只要這些數據是每行一個記錄。然而,如果要分析占據多行的記錄,僅僅依靠設置 FS 是不夠的。在這些情況下,我們還需要修改 RS 記錄分隔符變量。RS 變量告訴 awk 當前記錄什么時候結束,新記錄什么時候開始。

譬如,讓我們討論一下如何完成處理“聯邦證人保護計劃”所涉及人員的地址列表的任務:

Jimmy the Weasel
100 Pleasant Drive
San Francisco, CA 12345

Big Tony
200 Incognito Ave.
Suburbia, WA 67890

理論上,我們希望 awk 將每 3 行看作是一個獨立的記錄,而不是三個獨立的記錄。如果 awk 將地址的第一行看作是第一個字段 ($1),街道地址看作是第二個字段 ($2),城市、州和郵政編碼看作是第三個字段 $3,那么這個代碼就會變得很簡單。以下就是我們想要得到的代碼:

BEGIN {
FS=”/n”
RS=”"
}

在上面這段代碼中,將 FS 設置成 “/n” 告訴 awk 每個字段都占據一行。通過將 RS 設置成 “”,還會告訴 awk 每個地址記錄都由空白行分隔。一旦 awk 知道是如何格式化輸入的,它就可以為我們執行所有分析工作,腳本的其余部分很簡單。讓我們研究一個完整的腳本,它將分析這個地址列表,并將每個記錄打印在一行上,用逗號分隔每個字段。

address.awk

BEGIN {
FS=”/n”
RS=”"
}

{
print $1 “, ” $2 “, ” $3

}

如果這個腳本保存為 address.awk,地址數據存儲在文件 address.txt 中,可以通過輸入 “awk -f address.awk address.txt” 來執行這個腳本。此代碼將產生以下輸出:

Jimmy the Weasel, 100 Pleasant Drive, San Francisco, CA 12345
Big Tony, 200 Incognito Ave., Suburbia, WA 67890

OFS 和 ORS
在 address.awk 的 print 語句中,可以看到 awk 會連接(合并)一行中彼此相鄰的字符串。我們使用此功能在同一行上的三個字段之間插入一個逗號和空格 (”, “)。這個方法雖然有用,但比較難看。與其在字段間插入 “, ” 字符串,倒不如讓通過設置一個特殊 awk 變量 OFS,讓 awk 完成這件事。請參考下面這個代碼片斷。

print “Hello”, “there”, “Jim!”

這行代碼中的逗號并不是實際文字字符串的一部分。事實上,它們告訴 awk “Hello”、”there” 和 “Jim!” 是單獨的字段,并且應該在每個字符串之間打印 OFS 變量。缺省情況下,awk 產生以下輸出:

Hello there Jim!

這是缺省情況下的輸出結果,OFS 被設置成 ” “,單個空格。不過,我們可以方便地重新定義 OFS,這樣 awk 將插入我們中意的字段分隔符。以下是原始 address.awk 程序的修訂版,它使用 OFS 來輸出那些中間的 “, ” 字符串:

address.awk 的修訂版

BEGIN {
FS=”/n”
RS=”"
OFS=”, ”
}

{
print $1, $2, $3

}

awk 還有一個特殊變量 ORS,全稱是“輸出記錄分隔符”。通過設置缺省為換行 (”/n”) 的 OFS,我們可以控制在 print 語句結尾自動打印的字符。缺省 ORS 值會使 awk 在新行中輸出每個新的 print 語句。如果想使輸出的間隔翻倍,可以將 ORS 設置成 “/n/n”。或者,如果想要用單個空格分隔記錄(而不換行),將 ORS 設置成 “”。

將多行轉換成用 tab 分隔的格式
假設我們編寫了一個腳本,它將地址列表轉換成每個記錄一行,且用 tab 定界的格式,以便導入電子表格。使用稍加修改的 address.awk 之后,就可以清楚地看到這個程序只適合于三行的地址。如果 awk 遇到以下地址,將丟掉第四行,并且不打印該行:

Cousin Vinnie
Vinnie’s Auto Shop
300 City Alley
Sosueme, OR 76543

要處理這種情況,代碼最好考慮每個字段的記錄數量,并依次打印每個記錄。現在,代碼只打印地址的前三個字段。以下就是我們想要的一些代碼:

適合具有任意多字段的地址的 address.awk 版本

BEGIN {
FS=”/n”
RS=”"
ORS=”"
}

{
x=1
while ( x<NF ) {
print $x “/t”
x++
}
print $NF “/n”
}

首先,將字段分隔符 FS 設置成 “/n”,將記錄分隔符 RS 設置成 “”,這樣 awk 可以象以前一樣正確分析多行地址。然后,將輸出記錄分隔符 ORS 設置成 “”,它將使 print 語句在每個調用結尾不輸出新行。這意味著如果希望任何文本從新的一行開始,那么需要明確寫入 print “/n”。

在主代碼塊中,創建了一個變量 x 來存儲正在處理的當前字段的編號。起初,它被設置成 1。然后,我們使用 while 循環(一種 awk 循環結構,等同于 C 語言中的 while 循環),對于所有記錄(最后一個記錄除外)重復打印記錄和 tab 字符。最后,打印最后一個記錄和換行;此外,由于將 ORS 設置成 “”,print 將不輸出換行。程序輸出如下,這正是我們所期望的:

我們想要的輸出。不算漂亮,但用 tab 定界,以便于導入電子表格

Jimmy the Weasel 100 Pleasant Drive San Francisco, CA 12345
Big Tony 200 Incognito Ave. Suburbia, WA 67890
Cousin Vinnie Vinnie’s Auto Shop 300 City Alley Sosueme, OR 76543

循環結構
我們已經看到了 awk 的 while 循環結構,它等同于相應的 C 語言 while 循環。awk 還有 “do…while” 循環,它在代碼塊結尾處對條件求值,而不象標準 while 循環那樣在開始處求值。它類似于其它語言中的 “repeat…until” 循環。以下是一個示例:

do…while 示例

{
count=1
do {
print “I get printed at least once no matter what”
} while ( count != 1 )
}

與一般的 while 循環不同,由于在代碼塊之后對條件求值,”do…while” 循環永遠都至少執行一次。換句話說,當第一次遇到普通 while 循環時,如果條件為假,將永遠不執行該循環。

for 循環
awk 允許創建 for 循環,它就象 while 循環,也等同于 C 語言的 for 循環:

for ( initial assignment; comparison; increment ) {
code block
}

以下是一個簡短示例:

for ( x = 1; x <= 4; x++ ) {
print “iteration”,x
}

此段代碼將打印:

iteration 1
iteration 2
iteration 3
iteration 4

break 和 continue
此外,如同 C 語言一樣,awk 提供了 break 和 continue 語句。使用這些語句可以更好地控制 awk 的循環結構。以下是迫切需要 break 語句的代碼片斷:

while 死循環

while (1) {
print “forever and ever…”
}

因為 1 永遠代表是真,這個 while 循環將永遠運行下去。以下是一個只執行十次的循環:

break 語句示例

x=1
while(1) {
print “iteration”,x
if ( x == 10 ) {
break
}
x++
}

這里,break 語句用于“逃出”最深層的循環。”break” 使循環立即終止,并繼續執行循環代碼塊后面的語句。

continue 語句補充了 break,其作用如下:

x=1
while (1) {
if ( x == 4 ) {
x++
continue
}
print “iteration”,x
if ( x > 20 ) {
break
}
x++
}

這段代碼打印 “iteration 1″ 到 “iteration 21″,”iteration 4″ 除外。如果迭代等于 4,則增加 x 并調用 continue 語句,該語句立即使 awk 開始執行下一個循環迭代,而不執行代碼塊的其余部分。如同 break 一樣,continue 語句適合各種 awk 迭代循環。在 for 循環主體中使用時,continue 將使循環控制變量自動增加。以下是一個等價循環:

for ( x=1; x<=21; x++ ) {
if ( x == 4 ) {
continue
}
print “iteration”,x
}

在 while 循環中時,在調用 continue 之前沒有必要增加 x,因為 for 循環會自動增加 x。

數組
如果您知道 awk 可以使用數組,您一定會感到高興。然而,在 awk 中,數組下標通常從 1 開始,而不是 0:

myarray[1]=”jim”
myarray[2]=456

awk 遇到第一個賦值語句時,它將創建 myarray,并將元素 myarray[1] 設置成 “jim”。執行了第二個賦值語句后,數組就有兩個元素了。

數組迭代
定義之后,awk 有一個便利的機制來迭代數組元素,如下所示:

for ( x in myarray ) {
print myarray[x]
}

這段代碼將打印數組 myarray 中的每一個元素。當對于 for 使用這種特殊的 “in” 形式時,awk 將 myarray 的每個現有下標依次賦值給 x(循環控制變量),每次賦值以后都循環一次循環代碼。雖然這是一個非常方便的 awk 功能,但它有一個缺點 — 當 awk 在數組下標之間輪轉時,它不會依照任何特定的順序。那就意味著我們不能知道以上代碼的輸出是:

jim
456

還是

456
jim

套用 Forrest Gump 的話來說,迭代數組內容就像一盒巧克力 — 您永遠不知道將會得到什么。因此有必要使 awk 數組“字符串化”,我們現在就來研究這個問題。

數組下標字符串化
在我的前一篇文章中,我演示了 awk 實際上以字符串格式來存儲數字值。雖然 awk 要執行必要的轉換來完成這項工作,但它卻可以使用某些看起來很奇怪的代碼:

a=”1″
b=”2″
c=a+b+3

執行了這段代碼后,c 等于 6。由于 awk 是“字符串化”的,添加字符串 “1″ 和 “2″ 在功能上并不比添加數字 1 和 2 難。這兩種情況下,awk 都可以成功執行運算。awk 的“字符串化”性質非常可愛 — 您可能想要知道如果使用數組的字符串下標會發生什么情況。例如,使用以下代碼:

myarr[”1″]=”Mr. Whipple”
print myarr[”1″]

可以預料,這段代碼將打印 “Mr. Whipple”。但如果去掉第二個 “1″ 下標中的引號,情況又會怎樣呢?

myarr[”1″]=”Mr. Whipple”
print myarr[1]

猜想這個代碼片斷的結果比較難。awk 將 myarr[”1″] 和 myarr[1] 看作數組的兩個獨立元素,還是它們是指同一個元素?答案是它們指的是同一個元素,awk 將打印 “Mr. Whipple”,如同第一個代碼片斷一樣。雖然看上去可能有點怪,但 awk 在幕后卻一直使用數組的字符串下標!

了解了這個奇怪的真相之后,我們中的一些人可能想要執行類似于以下的古怪代碼:

myarr[”name”]=”Mr. Whipple”
print myarr[”name”]

這段代碼不僅不會產生錯誤,而且它的功能與前面的示例完全相同,也將打印 “Mr. Whipple”!可以看到,awk 并沒有限制我們使用純整數下標;如果我們愿意,可以使用字符串下標,而且不會產生任何問題。只要我們使用非整數數組下標,如 myarr[”name”],那么我們就在使用關聯數組。從技術上講,如果我們使用字符串下標,awk 的后臺操作并沒有什么不同(因為即便使用“整數”下標,awk 還是會將它看作是字符串)。但是,應該將它們稱作關聯數組 — 它聽起來很酷,而且會給您的上司留下印象。字符串化下標是我們的小秘密。;)

數組工具
談到數組時,awk 給予我們許多靈活性。可以使用字符串下標,而且不需要連續的數字序列下標(例如,可以定義 myarr[1] 和 myarr[1000],但不定義其它所有元素)。雖然這些都很有用,但在某些情況下,會產生混淆。幸好,awk 提供了一些實用功能有助于使數組變得更易于管理。

首先,可以刪除數組元素。如果想要刪除數組 fooarray 的元素 1,輸入:

delete fooarray[1]

而且,如果想要查看是否存在某個特定數組元素,可以使用特殊的 “in” 布爾運算符,如下所示:

if ( 1 in fooarray ) {
print “Ayep! It’s there.”
} else {
print “Nope! Can’t find it.”
}

下一篇
本文中,我們已經討論了許多基礎知識。下一篇中,我將演示如何使用 awk 的數學運算和字符串函數,以及如何創建您自己的函數,使您完全掌握 awk 知識。我還將指導您創建支票簿結算程序。那時,我會鼓勵您編寫自己的 awk 程序。請查閱以下參考資料。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535762.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535762.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535762.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

HDFS-配置項

一、core-site.xml與core-default.xml core-default.xml與core-site.xml的功能是一樣的&#xff0c;如果在core-site.xml里沒有配置的屬性&#xff0c;則會自動會獲取core-default.xml里的相同屬性的值 <configuration><property><!-- 這個屬性用來指定namenod…

awk教程入門與實例練習(三)

在 awk 系列的這篇總結中&#xff0c;Daniel 向您介紹 awk 重要的字符串函數&#xff0c;以及演示了如何從頭開始編寫完整的支票簿結算程序。在這個過程中&#xff0c;您將學習如何編寫自己的函數&#xff0c;并使用 awk 的多維數組。學完本文之后&#xff0c;您將掌握更多 awk…

HDFS-常用命令

1. -help&#xff1a;顯示幫助信息 hadoop fs -help rmshel2. -ls&#xff1a;顯示目錄信息 hadoop fs -ls /3. -mkdir&#xff1a;在HDFS上創建目錄 hadoop fs -mkdir -p /user/ha4. -moveFromLocal&#xff1a;從本地剪切粘貼到HDFS hadoop fs -moveFromLocal ~/test.txt…

如何關閉WINDOWS2003 DEP數據保護功能

近來很多朋友和客戶都使用了WINDOWS2003來架設自己的GAME SERVER,但有很多朋友反映說,不如WINDOWS2000好,原因不是穩定,而是成功率高,和簡單.但我個人覺得WINDOWS2003還是不錯的系統,如果朋友們都不用這個系統,而用WINDOWS2000 有點不值得了.我就開始找尋這樣的問題.我對GAME 不…

JDK源碼解析之 java.lang.Thread

位于java.lang包下的Thread類是非常重要的線程類&#xff0c;它實現了Runnable接口&#xff0c;今天我們來學習一下Thread類&#xff0c;在學習Thread類之前&#xff0c;先介紹與線程相關知識&#xff1a;線程的幾種狀態、上下文切換&#xff0c;然后接著介紹Thread類中的方法的…

TASKLIST

TASKLIST [/S system [/U username [/P [password]]]] [/M [module] | /SVC | /V] [/FI filter] [/FO format] [/NH]參數列表:/S system 指定連接到的遠程系統。/U [domain/]user 指定使用哪個用戶執行這個命令。/P [password] 為指定的用戶指定密碼。/SVC 顯示每個進程中的服務…

JDK源碼解析之 java.lang.ThreadLocal

此類提供線程局部變量。這些變量與普通變量不同&#xff0c;每個訪問一個線程&#xff08;通過其get或set方法&#xff09;的線程 都有其自己的&#xff0c;獨立初始化的變量副本。 ThreadLocal實例通常是希望將狀態與線程關聯的類中的私有靜態字段&#xff08;例如&#xff0c…

華爾街頂級大師胡立陽名言

1.不要聽“親朋好友”的話&#xff0c;他們只會讓你成為“平凡人”。 2.不要只會“用功讀書”&#xff0c;重要的是“要讀對書”。  3&#xff0e;不要只是“努力工作”&#xff0c;重要的是“做對工作”。   4.不要指示結交“志趣相投”的朋友&#xff0c;否則你永遠只看到…

JDK源碼解析之 Java.lang.Enum

Enum是一個特殊的類. 我們不能以class Xxx extends Enum的方式手動繼承, 必須寫成enum Xxx的形式; 然而這段枚舉類的定義在編譯之后又變回了class Xxx extends Enum. 一、類定義 public abstract class Enum<E extends Enum<E>>implements Comparable<E>, …

Linux下的一些簡單網絡配置命令介紹

1、 ifconfig可以使用ifconfig命令來配置并查看網絡接口的配置情況。例如&#xff1a;&#xff08;1&#xff09; 配置eth0的IP地址&#xff0c; 同時激活該設備。#ifconfig eth0 192.168.1.10 netmask 255.255.255.0 up&#xff08;2&#xff09; 配置eth0別名設備eth0:1的IP地…

JDK源碼解析之 java.lang.Throwable

在 Java 中&#xff0c;所有的異常都有一個共同的祖先 Throwable&#xff08;可拋出&#xff09;。Throwable 指定代碼中可用異常傳播機制通過 Java 應用程序傳輸的任何問題的共性。 一、類定義 public class Throwable implements Serializable {}Serializable&#xff1a;可…

JDK源碼解析之 java.lang.Error

java.lang.Error 錯誤。是所有錯誤的基類&#xff0c;用于標識嚴重的程序運行問題。這些問題通常描述一些不應被應用程序捕獲的反常情況。 一、源碼部分 //繼承了java.lang.Throwable public class Error extends Throwable {//適用于java序列化機制,過判斷類的serialVersionU…

linux命令之有關網絡的操作命令

1&#xff0e;hostname 命令&#xff08;1&#xff09;一般格式&#xff1a;hostname [選項] [主機名]&#xff08;2&#xff09;說明&#xff1a;顯示或設置系統的主機名&#xff1b;如果無任何選項和主機名&#xff0c;則用于顯示系統的主機名。&#xff08;3&#xff09…

JDK源碼解析之 java.lang.Exception

異常。是所有異常的基類&#xff0c;用于標識一般的程序運行問題。這些問題通常描述一些會被應用程序捕獲的反常情況。 一、源碼部分 //繼承了java.lang.Throwable public class Exception extends Throwable {//適用于java序列化機制,過判斷類的serialVersionUID來驗證的版本…

linux命令之有關關機和查看系統信息的命令

shutdown 正常關機 reboot 重啟計算機 ps 查看目前程序執行的情況top 查看目前程序執行的情景和內存使用情況kill 終止一個進程date 更改或查看目前時間 一&#xff0e;查看系統的進程 要管理進程&#xff0c;首先要知…

HDFS-文件讀寫過程

一、文件讀取 Client向NameNode發起RPC請求&#xff0c;來確定請求文件block所在的位置&#xff1b;NameNode會視情況返回文件的部分或者全部block列表&#xff0c;對于每個block&#xff0c;NameNode 都會返回含有該 block 副本的 DataNode 地址&#xff1b; 這些返回的 DN 地…

linux命令復習之有關磁盤空間的命令

1&#xff0e;mount 命令&#xff08;1&#xff09;一般格式&#xff1a;mount 文件系統類型 [選項] 掛接設備&#xff08;2&#xff09;說明&#xff1a;將某個文件系統掛載到某個目錄上。當這個命令執行成功后&#xff0c;直到使用 umount 將這個文件系統移除為止。&…

HDFS-常用API操作

一、Maven <dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</version> </dependency> <dependency><groupId>org.apache.logging.log4j</groupId><artifactId>…

linux命令之-管理文件和目錄的命令

一. 創建和刪除目錄的命令 1&#xff0e;mkdir 命令 &#xff08;1&#xff09;一般格式&#xff1a;mkdir [選項] 目錄名 &#xff08;2&#xff09;說明&#xff1a;該命令創建由目錄名命名的目錄。 &#xff08;3&#xff09;舉例1&#xff1a; 在目錄 /usr/fedora 下建…

Hive-簡介入門

Hive簡介 Hive最初是Facebook為了滿足對海量社交網絡數據的管理和機器學習的需求而產生和發展的。互聯網現在進入了大數據時代&#xff0c;大數據是現在互聯網的趨勢&#xff0c;而hadoop就是大數據時代里的核心技術&#xff0c;但是hadoop的mapreduce操作專業性太強&#xff0…