2505C++,32位轉64位

原文
假設有個想要將一個32位值傳遞給一個帶64位值的函數的函數.你不關心高32位的內容,因為該值是傳遞給回調函數的直通值,回調函數會把它截斷為32位值.

因此,你都擔心編譯器一般生成的將32位值擴展到64位值的那條指令的性能影響.
我懷疑這條指令不是程序中的性能瓶頸.

我想出的是說:可不執行任何指令從32位值生成64位值"的gcc/clang內聯匯編.

int64_t int32_to_64_garbage(int32_t i32)
{int64_t i64;__asm__("" ://閑著"=r"(i64) ://在`寄存器`中生成結果"0"(i32));//從此最后的輸入return i64;
}

__asm__內聯指令的第一個參數是要生成的代碼.傳遞一個空串,所以實際上未生成任何代碼!想要的所有效果都在輸入和輸出的聲明中.

接著是只有一個的輸出."=r"(i64)表示內聯匯編會在編譯器選擇的r寄存器中,放入i64的覆蓋(=)值,內聯匯編器按%0引用的.輸出從0開始編號.
最后,有這里只有一個的輸入."0"(i32)表示輸入應在輸出的0數字位置放置.

所有工作都是根據輸入和輸出的約束來完成的.沒有實際的代碼.告訴編譯器,在一個寄存器中放入i32,然后遮住眼睛,睜開時,在同一個寄存器中變成i64!
在3級優化中運行gcc,顯示完全省略了該值.

void somewhere(int64_t);
void sample1(int32_t v)
{somewhere(v);
}
void sample2(int32_t v)
{somewhere(int32_to_64_garbage(v));
}

結果是:

    //x86-64
sample1(int):movsx   rdi, edijmp     somewhere(long)
sample2(int):jmp     somewhere(long)//ARM32
sample1(int):asrs    r1, r0, #31b       somewhere(long long)
sample2(int):b       somewhere(long long)//ARM64
sample1(int):sxtw    x0, w0b       somewhere(long)
sample2(int):b       somewhere(long)

第一個版本在尾調用之前,包含顯式符號擴展指令.第二個版本是直接尾調用,在rdi,寄存器高32位中使用任意垃圾.
另一個支持gcc擴展內聯語法的編譯器是icc,該技巧似乎也有效.

    //x86-64
sample1(int):movsxd    rdi, edijmp       somewhere(long)
sample2(int):jmp       somewhere(long)

clang``編譯器還支持gcc擴展內聯匯編語法.但是,它不僅會生成轉換,而且還會丟失尾調用.

    //x86-64
sample1(int):movsxd  edi, edijmp     somewhere(long)@PLT
sample2(int):push    raxmov     edi, edicall    somewhere(long)@PLTpop     raxret//ARM32
sample1(int):asr     r1, r0, #31b       somewhere(long long)
sample2(int):push    {r11, lr}sub     sp, sp, #8mov     r1, #0bl      somewhere(long long)add     sp, sp, #8pop     {r11, pc}//ARM64
sample1(int):sxtw    x0, w0b       somewhere(long)
sample2(int):sub     sp, sp, #32stp     x29, x30, [sp, #16]add     x29, sp, #16mov     w0, w0bl      somewhere(long)ldp     x29, x30, [sp, #16]add     sp, sp, #32ret

更新:似乎當前版本的clang(當前時)恢復了尾調用,盡管它仍執行32到64的正轉換,因此成本基本相同.

    //x86-64
sample1(int):movsxd  edi, edijmp     somewhere(long)@PLT
sample2(int):mov     edi, edijmp     somewhere(long)@PLT//ARM32
sample1(int):asr     r1, r0, #31b       somewhere(long long)
sample2(int):mov     r1, #0b       somewhere(long long)//ARM64
sample1(int):sxtw    x0, w0b       somewhere(long)
sample2(int):mov     w0, w0b       somewhere(long)

VC++``編譯器不支持gcc擴展內聯語法,因此無法檢查.

因為msvc完全不管用,并且對clang沒有任何好處,因此我只會在使用gcc或icc``編譯時允許此優化,并在其他地方使用額外指令.

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/82440.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/82440.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/82440.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！