AT&T匯編語言與GCC內嵌匯編簡介
1 AT&T 與INTEL的匯編語言語法的區別
1.1大小寫
1.2操作數賦值方向
1.3前綴
1.4間接尋址語法
1.5后綴
1.6指令
2 GCC內嵌匯編
2.1簡介
2.2內嵌匯編舉例
2.3語法
2.3.1匯編語句模板
2.3.2輸出部分
2.3.3輸入部分
2.3.4限制字符
2.3.5破壞描述部分
2.4GCC如何編譯內嵌匯編代碼
3后記
本節先介紹
AT&T匯編語言語法與INTEL匯編語法的差別,然后介紹GCC內嵌匯編語法。閱讀本節需要讀者具有INTEL
匯編語言基礎。
1 AT&T 與INTEL的匯編語言語法的區別
1.1
指令大小寫
INTEL格式的指令使用大寫字母,而AT&T
格式的使用小寫字母。
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
1.2
指令操作數賦值方向
在INTEL語法中,第一個表示目的操作數,第二個表示源操作數,賦值方向從右向左。
AT&T語法第一個為源操作數,第二個為目的操作數,方向從左到右,合乎自然。
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
1.3
指令前綴
在INTEL語法中寄存器和立即數不需要前綴;
AT&T中寄存器需要加前綴“%”;立即數需要加前綴“$”。
例:
INTEL AT&T
MOV EAX,1 movl $1,%eax
符號常數直接引用,不需要加前綴,如:
movl value , %ebx
value為一常數;
在符號前加前綴 $, 表示引用符號地址,
如
movl $value, %ebx
是將value的地址放到ebx中。
總線鎖定前綴“lock”:
總線鎖定操作。“lock”前綴在Linux
核心代碼中使用很多,特別是SMP
代碼中。當總線鎖定后其它CPU
不能存取鎖定地址處的內存單元。
遠程跳轉指令和子過程調用指令的操作碼使用前綴“l“,分別為ljmp,lcall,
與之相應的返回指令偽lret。
例:
INTEL AT&T
lcall $secion:$offset
JMP FAR SECTION:OFFSET ljmp $secion:$offset
RET FAR SATCK_ADJUST lret $stack_adjust
1.4 間接尋址語法
INTEL中基地址使用“[”、“]”,而在AT&T“(”、“)”;
另外處理復雜操作數的語法也不同,
INTEL為Segreg:[base+index*scale+disp]
,而在AT&T中為%segreg:disp(base,index,sale),其中segreg
,index,scale,disp都是可選的,在指定index而沒有顯式指定Scale
的情況下使用默認值1。Scale,disp不需要加前綴“&”。
INTEL AT&T
Instr foo,segreg:[base+index*scale+disp] instr %segreg:disp(base,index,scale),foo
1.5
指令后綴
AT&T
語法中大部分指令操作碼的最后一個字母表示操作數大小,“b”表示byte
(一個字節);“w”表示word(2,個字節);“l”表示long(4,個字節)。
INTEL中處理內存操作數時也有類似的語法如:
BYTE PTR、WORD PTR、DWORD PTR。
例:
INTEL AT&T
mov al, bl movb %bl,%al
mov ax,bx movw %bx,%ax
mov eax, dword ptr [ebx] movl (%ebx), %eax
AT&T匯編指令中,操作數擴展指令有兩個后綴,一個指定源操作數的字長,另一個指定目標操作數的字長。AT&T的符號擴展指令的為“movs”,零擴展指令為“movz
”(相應的Intel指令為“movsx”和“movzx”)。因此,“movsbl %al,%edx”表示對寄存器al
中的字節數據進行字節到長字的符號擴展,計算結果存放在寄存器edx
中。下面是一些允許的操作數擴展后綴:
l
bl: ,字節>->長字 l
bw: ,字節>->字 l
wl: ,字->長字
跳轉指令標號后的后綴表示跳轉方向,“f”表示向前(forward),
“b,”表示向后(back)。
例:
jmp 1f
jmp 1f
1.6 指令
INTEL匯編與AT&T匯編指令基本相同,差別僅在語法上。關于每條指令的語法可以參考I386Manual。
2 GCC內嵌匯編
2.1 簡介
內核代碼絕大部分使用C
語言編寫,只有一小部分使用匯編語言編寫,例如與特定體系結構相關的代碼和對性能影響很大的代碼。GCC提供了內嵌匯編的功能,可以在C代碼中直接內嵌匯編語言語句,大大方便了程序設計。
簡單的內嵌匯編很容易理解
例:
__asm__
__volatile__("hlt");
“__asm__”表示后面的代碼為內嵌匯編,“asm”是“__asm__”的別名。
“__volatile__”表示編譯器不要優化代碼,后面的指令保留原樣,
“volatile”是它的別名。括號里面是匯編指令。
2.2 內嵌匯編舉例在內嵌匯編中,可以將C
語言表達式指定為匯編指令的操作數,而且不用去管如何將C
語言表達式的值讀入哪個寄存器,以及如何將計算結果寫回C
變量,你只要告訴程序中C語言表達式與匯編指令操作數之間的對應關系即可, GCC
會自動插入代碼完成必要的操作。
使用內嵌匯編,要先編寫匯編指令模板,然后將C語言表達式與指令的操作數相關聯,并告訴
GCC對這些操作有哪些限制條件。例如在下面的匯編語句:
__asm__ __violate__
("movl %1,%0" : "=r" (result) : "m" (input));
“movl %1,%0”是指令模板;“%0”和“%1”代表指令的操作數,稱為占位符,內嵌匯編靠它們將C
語言表達式與指令操作數相對應。指令模板后面用小括號括起來的是C
語言表達式,本例中只有兩個:“result”和“input”,他們按照出現的順序分別與指令操作
數“%0”,“%1,”對應;注意對應順序:第一個C表達式對應“%0”;第二個表達式對應“%1
”,依次類推,操作數至多有10個,分別用“%0”,“%1”….“%9,”表示。在每個操作數前
面有一個用引號括起來的字符串,字符串的內容是對該操作數的限制或者說要求。“result”前面
的限制字符串是“=r”,其中“=”表示“result”是輸出操作數,“r
”表示需要將“result”與某個通用寄存器相關聯,先將操作數的值讀入寄存器,然后
在指令中使用相應寄存器,而不是“result”本身,當然指令執行完后需要將寄存器中的值
存入變量“result”,從表面上看好像是指令直接對“result”進行操作,實際上GCC
做了隱式處理,這樣我們可以少寫一些指令。“input”前面的“r”表示該表達式需要先放入
某個寄存器,然后在指令中使用該寄存器參加運算。
我們將上面的內嵌代碼放到一個C源文件中,然后使用gcc –c–S得到該C
文件源代碼相對應的匯編代碼,然后查看一下匯編代碼,看看GCC是如何處理的。
C源文件如下內容如下,注意該代碼沒有實際意義,僅僅作為例子。
extern int
input,result;
void test(void)
{
input
= 1;
__asm__ __volatile__ ("movl %1,%0" :
"=r" (result) : "r" (input));
return
;
}
對應的匯編代碼如下;
行號 代碼 解釋
1
7
8 movl $1, input 對應C語言語句input = 1;
9 input, %eax
10 #APP GCC插入的注釋,表示內嵌匯編開始
11 movl %eax,%eax 我們的內嵌匯編語句
12 #NO_APP GCC 插入的注釋,表示內嵌匯編結束
13 movl %eax, result 將結果存入result變量
14
-
18
。。。。。。
從匯編代碼可以看出,第9行和第13行是GCC,自動增加的代碼,GCC
根據限定字符串決定如何處理C表達式,本例兩個表達式都被指定為“r”型,所以先使用指令:
movl input, %eax
將input讀入寄存器%eax;GCC,也指定一個寄存器與輸出變量result
相關,本例也是%eax,等得到操作結果后再使用指令:
movl %eax, result
將寄存器的值寫回C變量result中。從上面的匯編代碼我們可以看出與result
和input,相關連的寄存器都是%eax,GCC使用%eax,替換內嵌匯編指令模板中的
%0,%1
movl %eax,%eax
顯然這一句可以不要。但是沒有優化,所以這一句沒有被去掉。
由此可見,C表達式或者變量與寄存器的關系由GCC自動處理,我們只需使用限制字符串指導GCC
如何處理即可。限制字符必須與指令對操作數的要求相匹配,否則產生的匯編代碼
將會有錯,讀者可以將上例中的兩個“r”,都改為“m”(m,表示操作數放在內存,而不是寄
存器中),編譯后得到的結果是:
movl input, result
很明顯這是一條非法指令,因此限制字符串必須與指令對操作數的要求匹配。例如指令movl
允許寄存器到寄存器,立即數到寄存器等,但是不允許內存到內存的操作,因此兩個操作數
不能同時使用“m”作為限定字符。
2.3 語法
內嵌匯編語法如下:
__asm__(
匯編語句模板:
輸出部分:
輸入部分:
破壞描述部分)
共四個部分:匯編語句模板,輸出部分,輸入部分,破壞描述部分,各部分使用“:”格
開,匯編語句模板必不可少,其他三部分可選,如果使用了后面的部分,而前面部分為空,
也需要用“:”格開,相應部分內容為空。例如:
__asm__ __volatile__(
"cli":
:
:"memory")
2.3.1 匯編語句模板
匯編語句模板由匯編語句序列組成,語句之間使用“;”、“\n”或“\n\t”分開。
指令中的操作數可以使用占位符引用C語言變量,操作數占位符最多10個,名稱如下:%0,%1…,%9。
指令中使用占位符表示的操作數,總被視為long型(4,個字節),但對其施加的操作
根據指令可以是字或者字節,當把操作數當作字或者字節使用時,默認為低字或者低字節。
對字節操作可以顯式的指明是低字節還是次字節。方法是在%和序號之間插入一個字母,
“b”代表低字節,“h”代表高字節,例如:%h1。
2.3.2 輸出部分
輸出部分描述輸出操作數,不同的操作數描述符之間用逗號格開,每個操作數描述符由限定字符串和
C語言變量組成。每個輸出操作數的限定字符串必須包含“=”表示他是一個輸出操作數。
例:
__asm__ __volatile__("pushfl ; popl %0 ; cli":"=g" (x) )
描述符字符串表示對該變量的限制條件,這樣GCC就可以根據這些條件決定如何
分配寄存器,如何產生必要的代碼處理指令操作數與C表達式或C變量之間的聯系。
2.3.3 輸入部分
輸入部分描述輸入操作數,不同的操作數描述符之間使用逗號格開,每個操作數描述符由
限定字符串和C語言表達式或者C語言變量組成。
例1:
__asm__ __volatile__ ("lidt %0" : : "m" (real_mode_idt));
例二(bitops.h):
Static __inline__ void __set_bit(int nr,
volatile void * addr)
{
__asm__(
"btsl%1,%0" :
"=m"(ADDR) :
"Ir"(nr));
}
后例功能是將(*addr)的第nr位設為1。第一個占位符%0與C,語言變量ADDR
對應,第二個占位符%1與C,語言變量nr對應。因此上面的匯編語句代碼與下面的偽代碼等價:
btsl nr, ADDR,該指令的兩個操作數不能全是內存變量,因此將nr的限定字符串指定為“Ir”,
將nr,與立即數或者寄存器相關聯,這樣兩個操作數中只有ADDR為內存變量。
2.3.4 限制字符
2.3.4.1 限制字符列表
限制字符有很多種,有些是與特定體系結構相關,此處僅列出常用的限定字符和i386
中可能用到的一些常用的限定符。它們的作用是指示編譯器如何處理其后的C
語言變量與指令操作數之間的關系,例如是將變量放在寄存器中還是放在內存中等,
下表列出了常用的限定字母。
分類
限定符 描述 通用寄存器
“a”將輸入變量放入eax
這里有一個問題:假設eax已經被使用,那怎么辦?
其實很簡單:因為GCC知道eax已經被使用,它在這段匯編代碼的起始處插入一條
語句pushl %eax,將eax內容保存到堆棧,然后在這段代碼結束處再增加一條
語句popl %eax,恢復eax的內容
“b”將輸入變量放入ebx
“c”將輸入變量放入ecx
“d”將輸入變量放入edx
“s”將輸入變量放入esi
“d”將輸入變量放入edi
“q”將輸入變量放入eax,ebx ,ecx ,edx中的一個
“r”將輸入變量放入通用寄存器,也就是eax ,ebx,ecx,edx,esi,edi中的一個
“A”把eax和edx,合成一個64位的寄存器(uselong longs)
“m”內存變量
“o”操作數為內存變量,但是其尋址方式是偏移量類型,也即是基址尋址,或者是基址加變址尋址
“V”操作數為內存變量,但尋址方式不是偏移量類型
“,” 操作數為內存變量,但尋址方式為自動增量
“p”操作數是一個合法的內存地址(指針)
1 AT&T 與INTEL的匯編語言語法的區別
1.1大小寫
1.2操作數賦值方向
1.3前綴
1.4間接尋址語法
1.5后綴
1.6指令
2 GCC內嵌匯編
2.1簡介
2.2內嵌匯編舉例
2.3語法
2.3.1匯編語句模板
2.3.2輸出部分
2.3.3輸入部分
2.3.4限制字符
2.3.5破壞描述部分
2.4GCC如何編譯內嵌匯編代碼
3后記
本節先介紹
AT&T匯編語言語法與INTEL匯編語法的差別,然后介紹GCC內嵌匯編語法。閱讀本節需要讀者具有INTEL
匯編語言基礎。
1 AT&T 與INTEL的匯編語言語法的區別
1.1
指令大小寫
INTEL格式的指令使用大寫字母,而AT&T
格式的使用小寫字母。
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
1.2
指令操作數賦值方向
在INTEL語法中,第一個表示目的操作數,第二個表示源操作數,賦值方向從右向左。
AT&T語法第一個為源操作數,第二個為目的操作數,方向從左到右,合乎自然。
例:
INTEL AT&T
MOV EAX,EBX movl %ebx,%eax
1.3
指令前綴
在INTEL語法中寄存器和立即數不需要前綴;
AT&T中寄存器需要加前綴“%”;立即數需要加前綴“$”。
例:
INTEL AT&T
MOV EAX,1 movl $1,%eax
符號常數直接引用,不需要加前綴,如:
movl value , %ebx
value為一常數;
在符號前加前綴 $, 表示引用符號地址,
如
movl $value, %ebx
是將value的地址放到ebx中。
總線鎖定前綴“lock”:
總線鎖定操作。“lock”前綴在Linux
核心代碼中使用很多,特別是SMP
代碼中。當總線鎖定后其它CPU
不能存取鎖定地址處的內存單元。
遠程跳轉指令和子過程調用指令的操作碼使用前綴“l“,分別為ljmp,lcall,
與之相應的返回指令偽lret。
例:
INTEL AT&T
lcall $secion:$offset
JMP FAR SECTION:OFFSET ljmp $secion:$offset
RET FAR SATCK_ADJUST lret $stack_adjust
1.4 間接尋址語法
INTEL中基地址使用“[”、“]”,而在AT&T“(”、“)”;
另外處理復雜操作數的語法也不同,
INTEL為Segreg:[base+index*scale+disp]
,而在AT&T中為%segreg:disp(base,index,sale),其中segreg
,index,scale,disp都是可選的,在指定index而沒有顯式指定Scale
的情況下使用默認值1。Scale,disp不需要加前綴“&”。
INTEL AT&T
Instr foo,segreg:[base+index*scale+disp] instr %segreg:disp(base,index,scale),foo
1.5
指令后綴
AT&T
語法中大部分指令操作碼的最后一個字母表示操作數大小,“b”表示byte
(一個字節);“w”表示word(2,個字節);“l”表示long(4,個字節)。
INTEL中處理內存操作數時也有類似的語法如:
BYTE PTR、WORD PTR、DWORD PTR。
例:
INTEL AT&T
mov al, bl movb %bl,%al
mov ax,bx movw %bx,%ax
mov eax, dword ptr [ebx] movl (%ebx), %eax
AT&T匯編指令中,操作數擴展指令有兩個后綴,一個指定源操作數的字長,另一個指定目標操作數的字長。AT&T的符號擴展指令的為“movs”,零擴展指令為“movz
”(相應的Intel指令為“movsx”和“movzx”)。因此,“movsbl %al,%edx”表示對寄存器al
中的字節數據進行字節到長字的符號擴展,計算結果存放在寄存器edx
中。下面是一些允許的操作數擴展后綴:
l
bl: ,字節>->長字 l
bw: ,字節>->字 l
wl: ,字->長字
跳轉指令標號后的后綴表示跳轉方向,“f”表示向前(forward),
“b,”表示向后(back)。
例:
jmp 1f
jmp 1f
1.6 指令
INTEL匯編與AT&T匯編指令基本相同,差別僅在語法上。關于每條指令的語法可以參考I386Manual。
2 GCC內嵌匯編
2.1 簡介
內核代碼絕大部分使用C
語言編寫,只有一小部分使用匯編語言編寫,例如與特定體系結構相關的代碼和對性能影響很大的代碼。GCC提供了內嵌匯編的功能,可以在C代碼中直接內嵌匯編語言語句,大大方便了程序設計。
簡單的內嵌匯編很容易理解
例:
__asm__
__volatile__("hlt");
“__asm__”表示后面的代碼為內嵌匯編,“asm”是“__asm__”的別名。
“__volatile__”表示編譯器不要優化代碼,后面的指令保留原樣,
“volatile”是它的別名。括號里面是匯編指令。
2.2 內嵌匯編舉例在內嵌匯編中,可以將C
語言表達式指定為匯編指令的操作數,而且不用去管如何將C
語言表達式的值讀入哪個寄存器,以及如何將計算結果寫回C
變量,你只要告訴程序中C語言表達式與匯編指令操作數之間的對應關系即可, GCC
會自動插入代碼完成必要的操作。
使用內嵌匯編,要先編寫匯編指令模板,然后將C語言表達式與指令的操作數相關聯,并告訴
GCC對這些操作有哪些限制條件。例如在下面的匯編語句:
__asm__ __violate__
("movl %1,%0" : "=r" (result) : "m" (input));
“movl %1,%0”是指令模板;“%0”和“%1”代表指令的操作數,稱為占位符,內嵌匯編靠它們將C
語言表達式與指令操作數相對應。指令模板后面用小括號括起來的是C
語言表達式,本例中只有兩個:“result”和“input”,他們按照出現的順序分別與指令操作
數“%0”,“%1,”對應;注意對應順序:第一個C表達式對應“%0”;第二個表達式對應“%1
”,依次類推,操作數至多有10個,分別用“%0”,“%1”….“%9,”表示。在每個操作數前
面有一個用引號括起來的字符串,字符串的內容是對該操作數的限制或者說要求。“result”前面
的限制字符串是“=r”,其中“=”表示“result”是輸出操作數,“r
”表示需要將“result”與某個通用寄存器相關聯,先將操作數的值讀入寄存器,然后
在指令中使用相應寄存器,而不是“result”本身,當然指令執行完后需要將寄存器中的值
存入變量“result”,從表面上看好像是指令直接對“result”進行操作,實際上GCC
做了隱式處理,這樣我們可以少寫一些指令。“input”前面的“r”表示該表達式需要先放入
某個寄存器,然后在指令中使用該寄存器參加運算。
我們將上面的內嵌代碼放到一個C源文件中,然后使用gcc –c–S得到該C
文件源代碼相對應的匯編代碼,然后查看一下匯編代碼,看看GCC是如何處理的。
C源文件如下內容如下,注意該代碼沒有實際意義,僅僅作為例子。
extern int
input,result;
void test(void)
{
input
= 1;
__asm__ __volatile__ ("movl %1,%0" :
"=r" (result) : "r" (input));
return
;
}
對應的匯編代碼如下;
行號 代碼 解釋
1
7
8 movl $1, input 對應C語言語句input = 1;
9 input, %eax
10 #APP GCC插入的注釋,表示內嵌匯編開始
11 movl %eax,%eax 我們的內嵌匯編語句
12 #NO_APP GCC 插入的注釋,表示內嵌匯編結束
13 movl %eax, result 將結果存入result變量
14
-
18
。。。。。。
從匯編代碼可以看出,第9行和第13行是GCC,自動增加的代碼,GCC
根據限定字符串決定如何處理C表達式,本例兩個表達式都被指定為“r”型,所以先使用指令:
movl input, %eax
將input讀入寄存器%eax;GCC,也指定一個寄存器與輸出變量result
相關,本例也是%eax,等得到操作結果后再使用指令:
movl %eax, result
將寄存器的值寫回C變量result中。從上面的匯編代碼我們可以看出與result
和input,相關連的寄存器都是%eax,GCC使用%eax,替換內嵌匯編指令模板中的
%0,%1
movl %eax,%eax
顯然這一句可以不要。但是沒有優化,所以這一句沒有被去掉。
由此可見,C表達式或者變量與寄存器的關系由GCC自動處理,我們只需使用限制字符串指導GCC
如何處理即可。限制字符必須與指令對操作數的要求相匹配,否則產生的匯編代碼
將會有錯,讀者可以將上例中的兩個“r”,都改為“m”(m,表示操作數放在內存,而不是寄
存器中),編譯后得到的結果是:
movl input, result
很明顯這是一條非法指令,因此限制字符串必須與指令對操作數的要求匹配。例如指令movl
允許寄存器到寄存器,立即數到寄存器等,但是不允許內存到內存的操作,因此兩個操作數
不能同時使用“m”作為限定字符。
2.3 語法
內嵌匯編語法如下:
__asm__(
匯編語句模板:
輸出部分:
輸入部分:
破壞描述部分)
共四個部分:匯編語句模板,輸出部分,輸入部分,破壞描述部分,各部分使用“:”格
開,匯編語句模板必不可少,其他三部分可選,如果使用了后面的部分,而前面部分為空,
也需要用“:”格開,相應部分內容為空。例如:
__asm__ __volatile__(
"cli":
:
:"memory")
2.3.1 匯編語句模板
匯編語句模板由匯編語句序列組成,語句之間使用“;”、“\n”或“\n\t”分開。
指令中的操作數可以使用占位符引用C語言變量,操作數占位符最多10個,名稱如下:%0,%1…,%9。
指令中使用占位符表示的操作數,總被視為long型(4,個字節),但對其施加的操作
根據指令可以是字或者字節,當把操作數當作字或者字節使用時,默認為低字或者低字節。
對字節操作可以顯式的指明是低字節還是次字節。方法是在%和序號之間插入一個字母,
“b”代表低字節,“h”代表高字節,例如:%h1。
2.3.2 輸出部分
輸出部分描述輸出操作數,不同的操作數描述符之間用逗號格開,每個操作數描述符由限定字符串和
C語言變量組成。每個輸出操作數的限定字符串必須包含“=”表示他是一個輸出操作數。
例:
__asm__ __volatile__("pushfl ; popl %0 ; cli":"=g" (x) )
描述符字符串表示對該變量的限制條件,這樣GCC就可以根據這些條件決定如何
分配寄存器,如何產生必要的代碼處理指令操作數與C表達式或C變量之間的聯系。
2.3.3 輸入部分
輸入部分描述輸入操作數,不同的操作數描述符之間使用逗號格開,每個操作數描述符由
限定字符串和C語言表達式或者C語言變量組成。
例1:
__asm__ __volatile__ ("lidt %0" : : "m" (real_mode_idt));
例二(bitops.h):
Static __inline__ void __set_bit(int nr,
volatile void * addr)
{
__asm__(
"btsl%1,%0" :
"=m"(ADDR) :
"Ir"(nr));
}
后例功能是將(*addr)的第nr位設為1。第一個占位符%0與C,語言變量ADDR
對應,第二個占位符%1與C,語言變量nr對應。因此上面的匯編語句代碼與下面的偽代碼等價:
btsl nr, ADDR,該指令的兩個操作數不能全是內存變量,因此將nr的限定字符串指定為“Ir”,
將nr,與立即數或者寄存器相關聯,這樣兩個操作數中只有ADDR為內存變量。
2.3.4 限制字符
2.3.4.1 限制字符列表
限制字符有很多種,有些是與特定體系結構相關,此處僅列出常用的限定字符和i386
中可能用到的一些常用的限定符。它們的作用是指示編譯器如何處理其后的C
語言變量與指令操作數之間的關系,例如是將變量放在寄存器中還是放在內存中等,
下表列出了常用的限定字母。
分類
限定符 描述 通用寄存器
“a”將輸入變量放入eax
這里有一個問題:假設eax已經被使用,那怎么辦?
其實很簡單:因為GCC知道eax已經被使用,它在這段匯編代碼的起始處插入一條
語句pushl %eax,將eax內容保存到堆棧,然后在這段代碼結束處再增加一條
語句popl %eax,恢復eax的內容
“b”將輸入變量放入ebx
“c”將輸入變量放入ecx
“d”將輸入變量放入edx
“s”將輸入變量放入esi
“d”將輸入變量放入edi
“q”將輸入變量放入eax,ebx ,ecx ,edx中的一個
“r”將輸入變量放入通用寄存器,也就是eax ,ebx,ecx,edx,esi,edi中的一個
“A”把eax和edx,合成一個64位的寄存器(uselong longs)
“m”內存變量
“o”操作數為內存變量,但是其尋址方式是偏移量類型,也即是基址尋址,或者是基址加變址尋址
“V”操作數為內存變量,但尋址方式不是偏移量類型
“,” 操作數為內存變量,但尋址方式為自動增量
“p”操作數是一個合法的內存地址(指針)
寄存器或內存
“g” 將輸入變量放入eax,ebx,ecx ,edx中的一個或者作為內存變量
“X”操作數可以是任何類型
立即數
“I” 0-31 之間的立即數(用于32位移位指令)
“J” 0-63 之間的立即數(用于64 位移位指令)
“N” 0-255 ,之間的立即數(用于out 指令)
“i” 立即數
“n” 立即數,有些系統不支持除字以外的立即數,這些系統應該使用“n”而不是“i”
匹配
“0”,“1 ,”... “9 ”
表示用它限制的操作數與某個指定的操作數匹配,也即該操作數就是指定的那個操作數,
例如用“0 ”去描述“%1”操作數,那么“%1”引用的其實就是“%0”操作數,注意作為
限定符字母的0-9 ,與指令中的“%0”-“%9”的區別,前者描述操作數,后者代表操作數。
后面有詳細描述 & 該輸出操作數不能使用過和輸入操作數相同的寄存器
后面有詳細描述
操作數類型
“=” 操作數在指令中是只寫的(輸出操作數)
“+” 操作數在指令中是讀寫類型的(輸入輸出操作數)
浮點數
“f”
浮點寄存器
“t”第一個浮點寄存器
“u”第二個浮點寄存器
“G”標準的80387
浮點常數
% 該操作數可以和下一個操作數交換位置
例如addl的兩個操作數可以交換順序(當然兩個操作數都不能是立即數)
# 部分注釋,從該字符到其后的逗號之間所有字母被忽略
* 表示如果選用寄存器,則其后的字母被忽略
現在繼續看上面的例子,
"=m" (ADDR)表示ADDR為內存變量(“m”),而且是輸出變量(“=”);"Ir" (nr)表示nr,為
0-31之間的立即數(“I”)或者一個寄存器操作數(“r”)。
2.3.4.2
匹配限制符
I386
指令集中許多指令的操作數是讀寫型的(讀寫型操作數指先讀取原來的值然后參加運算,最后
將結果寫回操作數),例如addl %1,%0,它的作用是將操作數%0與操作數%1的和存入操作數%0,
因此操作數%0是讀寫型操作數。老版本的GCC對這種類型操作數的支持不是很好,它將操作數嚴格
分為輸入和輸出兩種,分別放在輸入部分和輸出部分,而沒有一個單獨部分描述讀寫型操作數,
因此在GCC中讀寫型的操作數需要在輸入和輸出部分分別描述,靠匹配限制符將兩者關聯到一起
注意僅在輸入和輸出部分使用相同的C變量,但是不用匹配限制符,產生的代碼很可能不對,后
面會分析原因。
匹配限制符是一位數字:“0”、“1”……“9,”,分別表示它限制的C表達式分別與
占位符%0,%1,……%9對應的C變量匹配。例如使用“0”作為%1,的限制字符,那么
%0和%1表示同一個C,變量。
看一下下面的代碼就知道為什么要將讀寫型操作數,分別在輸入和輸出部分加以描述。
該例功能是求input+result的和,然后存入result:
extern int input,result;
void test_at_t()
{
result= 0;
input = 1;
__asm__
__volatile__ ("addl %1,%0":"=r"(result): "r"(input));
}
對應的匯編代碼為:
movl $0,_result
movl $1,_input
movl _input,%edx /APP
addl %edx,%eax /NO_APP
movl %eax,%edx
movl %edx,_result
input 為輸入型變量,而且需要放在寄存器中,GCC給它分配的寄存器是%edx,在執行addl之前%edx,
的內容已經是input的值。可見對于使用“r”限制的輸入型變量或者表達式,在使用之前GCC會插入
必要的代碼將他們的值讀到寄存器;“m”型變量則不需要這一步。讀入input后執行addl,顯然%eax
的值不對,需要先讀入result的值才行。再往后看:movl %eax,%edx和movl %edx,_result
的作用是將結果存回result,分配給result的寄存器與分配給input的一樣,都是%edx。
綜上可以總結出如下幾點:
1. 使用“r”限制的輸入變量,GCC先分配一個寄存器,然后將值讀入寄存器,最后
用該寄存器替換占位符;
2. 使用“r”限制的輸出變量,GCC會分配一個寄存器,然后用該寄存器替換占位符,
但是在使用該寄存器之前并不將變量值先讀入寄存器,GCC認為所有輸出變量以前的
值都沒有用處,不讀入寄存器(可能是因為AT&T匯編源于CISC架構處理器的匯編語言
,在CISC處理器中大部分指令的輸入輸出明顯分開,而不像RISC那樣一個操作數既
做輸入又做輸出,例如add r0,r1,r2,r0,和r1是輸入,r2是輸出,輸入和輸出分開,
沒有使用輸入輸出型操作數,這樣我們就可以認為r2對應的操作數原來的值沒有用處,
也就沒有必要先將操作數的值讀入r2,因為這是浪費處理器的CPU周期),最后GCC插入代碼,
將寄存器的值寫回變量;
3. 輸入變量使用的寄存器在最后一處使用它的指令之后,就可以挪做其他用處,因為
已經不再使用。例如上例中的%edx。在執行完addl之后就作為與result對應的寄存器。
因為第二條,上面的內嵌匯編指令不能奏效,因此需要在執行addl之前把result的值讀入
寄存器,也許再將result放入輸入部分就可以了(因為第一條會保證將result
先讀入寄存器)。修改后的指令如下(為了更容易說明問題將input限制符由“r,”改為“m”):
extern int input,result;
void test_at_t()
{
result = 0;
input = 1;
__asm__
__volatile__ ("addl %2,%0":"=r"(result):"r"(result),"m"(input));
}
看上去上面的代碼可以正常工作,因為我們知道%0和%1都和result相關,應該使用同一個
寄存器,但是GCC并不去判斷%0和%1,是否和同一個C表達式或變量相關聯(這樣易于產生與
內嵌匯編相應的匯編代碼),因此%0和%1使用的寄存器可能不同。我們看一下匯編代碼就知道了。
movl $0,_result
movl $1,_input
movl _result,%edx /APP
addl _input,%eax /NO_APP
movl %eax,%edx
movl %edx,_result
現在在執行addl之前將result的值被讀入了寄存器%edx,但是addl指令的操作數%0
卻成了%eax,而不是%edx,與預料的不同,這是因為GCC給輸出和輸入部分的變量分配了不同
的寄存器,GCC沒有去判斷兩者是否都與result相關,后面會講GCC如何翻譯內嵌匯編,看完之后
就不會驚奇啦。
使用匹配限制符后,GCC知道應將對應的操作數放在同一個位置(同一個寄存器或者同一個
內存變量)。使用匹配限制字符的代碼如下:
extern int input,result;
void test_at_t()
{
result = 0;
input = 1;
__asm__
__volatile__ ("addl %2,%0":"=r"(result):"0"(result),"m"(input));
}
輸入部分中的result用匹配限制符“0”限制,表示%1與%0,代表同一個變量,
輸入部分說明該變量的輸入功能,輸出部分說明該變量的輸出功能,兩者結合表示result
是讀寫型。因為%0和%1,表示同一個C變量,所以放在相同的位置,無論是寄存器還是內存。
相應的匯編代碼為:
movl $0,_result
movl $1,_input
movl _result,%edx
movl %edx,%eax /APP
addl _input,%eax /NO_APP
movl %eax,%edx
movl %edx,_result
可以看到與result相關的寄存器是%edx,在執行指令addl之前先從%edx將result讀入%eax,
執行之后需要將結果從%eax讀入%edx,最后存入result中。這里我們可以看出GCC
處理內嵌匯編中輸出操作數的一點點信息:addl并沒有使用%edx,可見它不是簡單的用result
對應的寄存器%edx去替換%0,而是先分配一個寄存器,執行運算,最后才將運算結果存入
對應的變量,因此GCC是先看該占位符對應的變量的限制符,發現是一個輸出型寄存器變量,
就為它分配一個寄存器,此時沒有去管對應的C變量,最后GCC,知道還要將寄存器的值寫回變量,
與此同時,它發現該變量與%edx關聯,因此先存入%edx,再存入變量。
至此讀者應該明白了匹配限制符的意義和用法。在新版本的GCC中增加了一個限制字符“+”,
它表示操作數是讀寫型的,GCC知道應將變量值先讀入寄存器,然后計算,最后寫回變量,而
無需在輸入部分再去描述該變量。
例;
extern int input,result;
void test_at_t()
{
result = 0;
input = 1;
__asm__
__volatile__ ("addl %1,%0":"+r"(result):"m"(input));
}
此處用“+”替換了“=”,而且去掉了輸入部分關于result的描述,產生的匯編代碼如下:
movl $0,_result
movl $1,_input
movl _result,%eax /APP
addl _input,%eax /NO_APP
movl %eax,_result
L2:
movl %ebp,%esp
處理的比使用匹配限制符的情況還要好,省去了好幾條匯編代碼。
2.3.4.3 “&”限制符
限制符“&”在內核中使用的比較多,它表示輸入和輸出操作數不能使用相同的寄存器,
這樣可以避免很多錯誤。
舉一個例子,下面代碼的作用是將函數foo的返回值存入變量ret中:
__asm__ ( “call foo;movl %%edx,%1”, :”=a”(ret) : ”r”(bar) );
我們知道函數的int型返回值存放在%eax中,但是gcc編譯的結果是輸入和輸出同時使用了
寄存器%eax,如下:
movl bar, %eax
#APP
call foo
movl %ebx,%eax
#NO_APP
movl %eax, ret
結果顯然不對,原因是GCC并不知道%eax中的值是我們所要的。避免這種情況的方法是使用“&”
限定符,這樣bar就不會再使用%eax寄存器,因為已被ret指定使用。
_asm__ ( “call foo;movl %%edx,%1”,:”=&a”(ret) : ”r”(bar) );
2.3.5 破壞描述部分
2.3.5.1 寄存器破壞描述符
通常編寫程序只使用一種語言:高級語言或者匯編語言。高級語言編譯的步驟大致如下:
l
預處理;
l
編譯
l
匯編
l
鏈接
我們這里只關心第二步編譯(將C代碼轉換成匯編代碼):因為所有的代碼都是用高級語言編寫,
編譯器可以識別各種語句的作用,在轉換的過程中所有的寄存器都由編譯器決定如何分配使用,
它有能力保證寄存器的使用不會沖突;也可以利用寄存器作為變量的緩沖區,因為寄存器的訪問
速度比內存快很多倍。如果全部使用匯編語言則由程序員去控制寄存器的使用,只能靠程序員去
保證寄存器使用的正確性。但是如果兩種語言混用情況就變復雜了,因為內嵌的匯編代碼可以直接
使用寄存器,而編譯器在轉換的時候并不去檢查內嵌的匯編代碼使用了哪些寄存器(因為很難檢測
匯編指令使用了哪些寄存器,例如有些指令隱式修改寄存器,有時內嵌的匯編代碼會調用其他子過程,
而子過程也會修改寄存器),因此需要一種機制通知編譯器我們使用了哪些寄存器(程序員自己知道
內嵌匯編代碼中使用了哪些寄存器),否則對這些寄存器的使用就有可能導致錯誤,修改描述部分
可以起到這種作用。當然內嵌匯編的輸入輸出部分指明的寄存器或者指定為“r”,“g”型由編譯器
去分配的寄存器就不需要在破壞描述部分去描述,因為編譯器已經知道了。
破壞描述符由逗號格開的字符串組成,每個字符串描述一種情況,一般是寄存器名;除寄存器外
還有“memory”。例如:“%eax”,“%ebx”,“memory”等。
下面看個例子就很清楚為什么需要通知GCC內嵌匯編代碼中隱式(稱它為隱式是因為GCC并不知道)
使用的寄存器。
在內嵌的匯編指令中可能會直接引用某些寄存器,我們已經知道AT&T格式的匯編語言中,寄存器
名以“%”作為前綴,為了在生成的匯編程序中保留這個“%”號,在asm語句中對寄存器的
引用必須用“%%”作為寄存器名稱的前綴。原因是“%”在asm,內嵌匯編語句中的作用與“\”在C
語言中的作用相同,因此“%%”轉換后代表“%”。
例(沒有使用修改描述符):
int main(void)
{
int input, output,temp;
input = 1;
__asm__ __volatile__ ("movl $0, %%eax;\n\t
movl %%eax, %1;\n\t
movl %2, %%eax;\n\t
movl %%eax, %0;\n\t"
:"=m"(output),"=m"(temp) /* output */
:"r"(input) /* input */
);
return 0;
}
這段代碼使用%eax作為臨時寄存器,功能相當于C代碼:“temp = 0;output=input”,
對應的匯編代碼如下:
movl $1,-4(%ebp)
movl -4(%ebp),%eax /APP
movl $0, %eax;
movl %eax, -12(%ebp);
movl %eax, %eax;
movl %eax, -8(%ebp); /NO_APP
顯然GCC給input分配的寄存器也是%eax,發生了沖突,output的值始終為0,而不是input。
使用破壞描述后的代碼:
int main(void)
{
int input, output,temp;
input = 1;
__asm__ __volatile__
( "movl $0, %%eax;\n\t
movl %%eax, %1;\n\t
movl %2, %%eax;\n\t
movl %%eax, %0;\n\t"
:"=m"(output),"=m"(temp) /* output */
:"r"(input) /* input */
:"eax"); /* 描述符 */
return 0;
}
對應的匯編代碼:
movl $1,-4(%ebp)
movl -4(%ebp),%edx /APP
movl $0, %eax;
movl %eax, -12(%ebp);
movl %edx, %eax;
movl %eax, -8(%ebp); /NO_APP
通過破壞描述部分,GCC得知%eax已被使用,因此給input分配了%edx。在使用內嵌匯編時請記
住一點:盡量告訴GCC盡可能多的信息,以防出錯。
如果你使用的指令會改變CPU的條件寄存器cc,需要在修改描述部分增加“cc”。
2.3.5.2 memory破壞描述符
“memory”比較特殊,可能是內嵌匯編中最難懂部分。為解釋清楚它,先介紹一下編譯器的
優化知識,再看C關鍵字volatile。最后去看該描述符。
2.3.5.2.1 編譯器優化介紹
內存訪問速度遠不及CPU處理速度,為提高機器整體性能,在硬件上引入硬件高速緩存Cache,
加速對內存的訪問。另外在現代CPU中指令的執行并不一定嚴格按照順序執行,沒有相關性
的指令可以亂序執行,以充分利用CPU的指令流水線,提高執行速度。以上是硬件級別的優化。
再看軟件一級的優化:一種是在編寫代碼時由程序員優化,另一種是由編譯器進行優化。編譯器
優化常用的方法有:將內存變量緩存到寄存器;調整指令順序充分利用CPU指令流水線,常見的
是重新排序讀寫指令。
對常規內存進行優化的時候,這些優化是透明的,而且效率很好。由編譯器優化或者硬件重新排序引起的問題的解決辦法是在從硬件(或者其他處理器)的角度看必須以特定順序執行的操作之間設置內存屏障(memory barrier),linux提供了一個宏解決編譯器的執行順序問題。
void Barrier(void)
這個函數通知編譯器插入一個內存屏障,但對硬件無效,編譯后的代碼會把當前CPU
寄存器中的所有修改過的數值存入內存,需要這些數據的時候再重新從內存中讀出。
2.3.5.2.2 C 語言關鍵字volatile
C 語言關鍵字volatile(注意它是用來修飾變量而不是上面介紹的__volatile__)表明某個變量
的值可能在外部被改變,因此對這些變量的存取不能緩存到寄存器,每次使用時需要重新存取。
該關鍵字在多線程環境下經常使用,因為在編寫多線程的程序時,同一個變量可能被多個線程修
改,而程序通過該變量同步各個線程,例如:
DWORD __stdcall threadFunc(LPVOID signal)
{
int* intSignal=reinterpret_cast