2508C++,支持rdma通信的高性能rpc庫

原文

[重磅]支持`rdma`通信的`高性能`的`rpc`庫–`yalantinglibs.coro_rpc`

yalantinglibs的coro_rpc是基于C++20的協程的高性能的rpc庫,提供了簡潔易用的接口,讓用戶幾行代碼就可實現rpc通信,現在coro_rpc除了支持tcp通信之外還支持了rdma通信(ibverbs).
通過簡單示例來感受一下rdma通信的coro_rpc.

`示例`

啟動`rpcserver`

std::string_view echo(std::string str) { return str; }
coro_rpc_server server(/*thread_number*/ std::thread::hardware_concurrency(), /*端口*/ 9000);
server.register_handler<echo>();
server.init_ibv();//初化rdma資源
server.start();

客戶發送rpc請求

Lazy<void> async_request() {coro_rpc_client client{};client.init_ibv();//初化rdma資源co_await client.connect("127.0.0.1:9000");auto result = co_await client.call<echo>("hello rdma");assert(result.value() == "hello rdma");
}
int main() {syncAwait(async_request());
}

幾行代碼就可完成基于rdma通信的rpcserver和客戶了.如果用戶需要設置更多rdma相關的參數,則可在調用init_ibv時傳入配置對象,在該對象中設置ibverbs相關的各種參數.詳見文檔.

如果要允許tcp通信該怎么做呢?不調用init_ibv()即可,默認就是tcp通信,調用了init_ibv()之后才是rdma通信.

`benchmark`

在180Gbrdma(RoCEV2)帶寬環境,兩臺主機之間對coro_rpc做了一些性能測試,在高并發小包場景下qps可到150w;
發送稍大的數據包時(256K以上)不到10個并發就可輕松打滿帶寬.

請求數據大小	并發數	吞吐`(Gb/s)`	`P90(us)`	`P99(us)`	`qps`
`128B`	1	`0.04`	`24`	`26`	`43394`
-	4	`0.15`	`29`	`44`	`149130`
-	`16`	`0.40`	`48`	`61`	`393404`
-	`64`	`0.81`	`100`	`134`	`841342`
-	`256`	`1.47`	`210`	`256`	`1533744`
`4K`	1	`1.21`	`35`	`39`	`37017`
-	4	`4.50`	`37`	`48`	`137317`
-	`16`	`11.64`	`62`	`74`	`355264`
-	`64`	`24.47`	`112`	`152`	`745242`
-	`256`	`42.36`	`244`	`312`	`1318979`
`32K`	1	`8.41`	`39`	`41`	`32084`
-	4	`29.91`	`42`	`55`	`114081`
-	`16`	`83.73`	`58`	`93`	`319392`
-	`64`	`148.66`	`146`	`186`	`565878`
-	`256`	`182.74`	`568`	`744`	`697849`
`256K`	1	`28.59`	`81`	`90`	`13634`
-	4	`100.07`	`96`	`113`	`47718`
-	`16`	`182.58`	`210`	`242`	`87063`
-	`64`	`181.70`	`776`	`864`	`87030`
-	`256`	`180.98`	`3072`	`3392`	`88359`
`1M`	1	`55.08`	`158`	`172`	`6566`
-	4	`161.90`	`236`	`254`	`19299`
-	`16`	`183.41`	`832`	`888`	`21864`
-	`64`	`184.29`	`2976`	`3104`	`21969`
-	`256`	`184.90`	`11648`	`11776`	`22041`
`8M`	1	`78.64`	`840`	`1488`	`1171`
-	4	`180.88`	`1536`	`1840`	`2695`
-	`16`	`185.01`	`5888`	`6010`	`2756`
-	`64`	`185.01`	`23296`	`23552`	`2756`
-	`256`	`183.47`	`93184`	`94208`	`2733`

具體benchmark的代碼在此.

`RDMA`優化性能

`RDMA`內存池

rdma請求,需要預先注冊內存收發數據.在實際測試中,注冊rdma內存的成本遠大于內存拷貝.相比每次發送或接收數據時注冊rdma內存.

最好是,用已注冊好內存池緩存的rdma內存.每次發起請求時,將數據分成多片來接收/發送,每一片數據的最大長度恰好是預先注冊好的內存長度,并從內存池中取出注冊好的內存,并在內存塊和實際數據地址之間做一次拷貝.

`RNR`與接收緩沖隊列

RDMA直接操作遠端內存,當遠端內存未準備好時,就會觸發一次RNR錯誤,對RNR錯誤,或斷開,或休息一段時間.
顯然避免RNR錯誤是提高RDMA傳輸性能和穩定度的關鍵.

coro_rpc用如下策略解決RNR問題:對每個連接,都準備一個接收緩沖隊列.隊列中含若干塊內存(默認8塊*256KB),每當收到一塊數據傳輸完成的通知時,在緩沖隊列中,立即補充一塊新的內存,并把該塊內存提交到RDMA的接收隊列中.

發送`緩沖隊列`

在發送鏈路中,最天真思路是,先在RDMA緩沖中拷貝數據,再把它提交到RDMA的發送隊列.當數據寫入到對端后,再重復上述步驟發送下一塊數據.

上述步驟有兩個瓶頸,第一個是如何并行化內存拷貝和網絡傳輸,第二個是,網卡發送完一塊數據,再到CPU提交下一塊數據的這段時間,網卡實際上是空閑狀態,未能最大化利用帶寬.

為了提高發送數據,需要引入發送緩沖的概念.每次讀寫,不等待對端完成寫入,而是在將內存提交到RDMA的發送隊列后就立即完成發送,讓上層代碼發送下個請求/數據塊,直到未完成發送的數據達到發送緩沖隊列的上限.

此時才等待發送請求完成,隨后在RDMA發送隊列中提交新的內存塊.

對大數據包,使用上述算法可同時內存拷貝和網絡傳輸,同時因為同時發送多塊數據,網卡發送完一片數據到應用層提交新數據塊的這段時間,網卡可發送另外一塊待發送的數據,從而最大化利用了帶寬.

小包寫入合并

rdma在發送小數據包時吞吐量相對較低.對小包請求,一個既能提高吞吐又不引入額外延遲的思路是按大數據包合并多個小包.

假如應用層提交了一個發送請求,且此時發送隊列已滿,則數據不會立即發送到遠端,而是臨時在緩沖中.此時假如應用層又提交了下個請求,則可將這次請求的數據合并寫入到上次數據臨時的緩沖中,從而實現數據的合并發送.

`內聯數據`

某些rdma網卡對小數據包,可通過內聯數據的方式發送數據,它不需要注冊rdma內存,同時可取得更好的傳輸性能.

coro_rpc在數據包小于256字節并且網卡支持內聯數據時,會用該方式發送數據.

內存消費控制

RDMA通信需要自己管理內存緩沖.當前,coro_rpc默認使用的內存片大小是256KB.接收緩沖初始大小為8,發送緩沖上限為2,因此單連接的內存消費為10*256KB約為2.5MB.

用戶可通過調整緩沖的大小和緩沖大小來控制內存的消費.

此外,RDMA內存池同樣提供水位配置,來控制內存消費上限.當RDMA內存池的水位過高時,試從該內存池中取新內存的連接會失敗并關閉.

使用連接池

高并發場景下,可通過coro_rpc提供的連接池復用連接,這可避免重復創建連接.此外,因為coro_rpc支持連接復用,可將多個小數據包請求提交到同一個連接中,實現pipeline發送,并利用底層的小包寫入合并技術提高吞吐.

static auto pool = coro_io::client_pool<coro_rpc::coro_rpc_client>::create(conf.url, pool_conf);
auto ret = co_await pool->send_request([&](coro_io::client_reuse_hint, coro_rpc::coro_rpc_client& client) {return client.send_request<echo>("hello");});
if (ret.has_value()) {auto result = co_await std::move(ret.value());if (result.has_value()) {assert(result.value()=="hello");}
}

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/93610.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/93610.shtml
英文地址，請注明出處：http://en.pswp.cn/web/93610.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！