是什么讓.NET7的Min和Max方法性能暴增了45倍?

簡介

在之前的一篇文章.NET性能系列文章一:.NET7的性能改進中我們聊到Linq中的Min()Max()方法.NET7比.NET6有高達45倍的性能提升,當時Benchmark代碼和結果如下所示:

[Params(1000)]
public?int?Length?{?get;?set;?}private?int[]?arr;[GlobalSetup]
public?void?GlobalSetup()?=>?arr?=?Enumerable.Range(0,?Length).ToArray();[Benchmark]
public?int?Min()?=>?arr.Min();[Benchmark]
public?int?Max()?=>?arr.Max();
方法運行時數組長度平均值比率分配
Minoutside_default.png10003,494.08 ns53.2432 B
Minoutside_default.png100065.64 ns1.00-
Maxoutside_default.png10003,025.41 ns45.9232 B
Maxoutside_default.png100065.93 ns1.00-
6eac8bb15e222896bcd82b9f69bb51c3.png

可以看到有高達45倍的性能提升,那就有小伙伴比較疑惑,在.NET7中到底是做了什么讓它有如此大的性能提升?所以本文就通過.NET7中的一些pr帶大家一起探索下.NET7的Min()Max()方法是如何變快的。

探索

首先我們打開.NET Runtime的倉庫,應該沒有人不會知道倉庫的地址吧?里面包含了.NET運行時所有的代碼,包括CLR和BCL庫。地址如下所示:https://github.com/dotnet/runtime4f36a28dfbfadcfe5b9416ba1200a474.png然后我們熟練的根據命名空間System.Linq找到Linq所在的文件夾位置,如下所示:34033cb2be2cbb509f2c13a0c9c83ba4.png可以看到很多Linq相關的方法都在這個文件夾內,讓我們先來找一找Max()方法所對應的類。就是下方所示,我們可以看到剛好異步小王子Stephen Toub大佬提交了一個優化代碼。34ec0b3f4348763de6dc6459ebd20c93.png然后我們點擊History查看這個類的提交歷史,我們發現Stephen大佬在今年多次提交代碼,都是優化其性能。740d9e49427d06b9d9eda27ce1061432.png找到Stephen大佬的第一個提交,我們發現在Max的代碼中,多了一個特殊的路徑,如果數據類型為int[],那么就走單獨的一個方法重載,并在這個重載中啟用了SIMD向量化,代碼如下所示:339b3f8fb32900005370e3b1271dfa0a.pngSIMD向量化在我之前的多篇文章中都有提到(如:.NET如何快速比較兩個byte數組是否相等[1]),它是CPU的特殊指令,使用它可以大幅度的增強運算性能,我猜這就是性能提升的原因。

我們可以看到在上面只為int[]做了優化,然后繼續瀏覽了Stephen大佬的其它幾個PR,Stephen大佬將代碼抽象了一下,使用了泛型的特性,然后順便為其它的基本值類型都做了優化。能享受到性能提升的有byte sbyte ushort short uint int ulong long nuint nintef3296c58a5e420c140d5c5018847c74.png

所以我們以最后一個提交為例,看看到底是用了什么SIMD指令,什么樣的方法來提升的性能。抽取出來的核心代碼如下所示:

private?static?T?MinMaxInteger<T,?TMinMax>(this?IEnumerable<T>?source)where?T?:?struct,?IBinaryInteger<T>where?TMinMax?:?IMinMaxCalc<T>
{T?value;if?(source.TryGetSpan(out?ReadOnlySpan<T>?span)){if?(span.IsEmpty){ThrowHelper.ThrowNoElementsException();}//?判斷當前平臺是否支持使用Vector-128?或者?總數據長度是否小于128位//?Vector128是指硬件支持同時計算128位二進制數據if?(!Vector128.IsHardwareAccelerated?||?span.Length?<?Vector128<T>.Count){//?進入到此路徑,說明最基礎的Vector128都不支持,那么直接使用for循環來比較value?=?span[0];for?(int?i?=?1;?i?<?span.Length;?i++){if?(TMinMax.Compare(span[i],?value)){value?=?span[i];}}}//?判斷當前平臺是否支持使用Vector-256?或者?總數據長度是否小于256位//?Vector256是指硬件支持同時計算256位二進制數據else?if?(!Vector256.IsHardwareAccelerated?||?span.Length?<?Vector256<T>.Count){//?進入到此路徑,說明支持Vector128但不支持Vector256//?那么進入128位的向量化的比較//?獲取當前數組的首地址,也就是指向第0個元素ref?T?current?=?ref?MemoryMarshal.GetReference(span);//?獲取Vector128能使用的最后地址,因為整個數組占用的bit位有可能不能被128整除//?也就是說最后的尾巴不夠128位讓CPU跑一次,那么就直接最后往前數128位,讓CPU能完整的跑完ref?T?lastVectorStart?=?ref?Unsafe.Add(ref?current,?span.Length?-?Vector128<T>.Count);//?從內存首地址加載0-127bit數據,作為最大值的基準Vector128<T>?best?=?Vector128.LoadUnsafe(ref?current);//?計算下一個的位置,也就是偏移128位current?=?ref?Unsafe.Add(ref?current,?Vector128<T>.Count);//?循環比較?確保地址小于最后地址while?(Unsafe.IsAddressLessThan(ref?current,?ref?lastVectorStart)){//?此時TMinMax.Compare重載代碼?=>?Vector128.Max(left,?right);//?Vector128.Max?會根據類型一一比較,每x位最大的返回,//?比如int就是每32位比較,詳情可以看我后文的解析best?=?TMinMax.Compare(best,?Vector128.LoadUnsafe(ref?current));current?=?ref?Unsafe.Add(ref?current,?Vector128<T>.Count);}//?最后一組Vector128進行比較best?=?TMinMax.Compare(best,?Vector128.LoadUnsafe(ref?lastVectorStart));//?由于Vector128最后的結果是128位,比如我們類型是int32,那么最后的結果就有//?4個int32元素,我們還需要從這4個int32元素中找到最大的value?=?best[0];for?(int?i?=?1;?i?<?Vector128<T>.Count;?i++){//?這里?TMinMax.Compare就是簡單的大小于比較//?left?>?rightif?(TMinMax.Compare(best[i],?value)){value?=?best[i];}}}else{//?Vector256執行流程和Vector128一致//?只是它能一次性判斷256位,舉個例子就是一個指令8個int32ref?T?current?=?ref?MemoryMarshal.GetReference(span);ref?T?lastVectorStart?=?ref?Unsafe.Add(ref?current,?span.Length?-?Vector256<T>.Count);Vector256<T>?best?=?Vector256.LoadUnsafe(ref?current);current?=?ref?Unsafe.Add(ref?current,?Vector256<T>.Count);while?(Unsafe.IsAddressLessThan(ref?current,?ref?lastVectorStart)){best?=?TMinMax.Compare(best,?Vector256.LoadUnsafe(ref?current));current?=?ref?Unsafe.Add(ref?current,?Vector256<T>.Count);}best?=?TMinMax.Compare(best,?Vector256.LoadUnsafe(ref?lastVectorStart));value?=?best[0];for?(int?i?=?1;?i?<?Vector256<T>.Count;?i++){if?(TMinMax.Compare(best[i],?value)){value?=?best[i];}}}}else{//?如果不是基本類型的數組,那么進入迭代器,使用原始方法比較using?(IEnumerator<T>?e?=?source.GetEnumerator()){if?(!e.MoveNext()){ThrowHelper.ThrowNoElementsException();}value?=?e.Current;while?(e.MoveNext()){T?x?=?e.Current;if?(TMinMax.Compare(x,?value)){value?=?x;}}}}return?value;
}

以上就是代碼的解析,相信很多人疑惑的地方就是Vector128.Max做了什么,我們可以構造一個代碼,讓大家簡單的看出來發生了什么。代碼和運行結果如下所示:

//?定義一個數組
var?array?=?new?int[]?{?4,?3,?2,?1,?1,?2,?3,?4?};//?拿到數組首地址指針
ref?int?current?=?ref?MemoryMarshal.GetReference(array.AsSpan());//?從首地址加載128位數據,上面是int32
//?所以x?=?4,?3,?2,?1
var?x?=?Vector128.LoadUnsafe(ref?current);//?偏移128位以后,繼續加載128位數據
//?所以y?=?1,?2,?3,?4
var?y?=?Vector128.LoadUnsafe(ref?Unsafe.Add(ref?current,?Vector128<int>.Count));//?使用Vector128.Max進行計算
var?result?=?Vector128.Max(x,?y);//?打印輸出結果
x.Dump();
y.Dump();
result.Dump();

ea03c41e1f0ce3898728c7d5d6b89ba8.png從運行的結果可以看到,result中保存的是xy對應位置的最大值,這樣是不是就覺得清晰明了,Stephe大佬上文的代碼就是做了這樣一個操作。

同樣,如果我們把int32換成int64,也就是long類型,由于一個元素占用64位,所以一次只能加載2個int64元素比較最大值,得出對應位置的最大值:c4170f42230a2c9168e4d297e2b5e4e9.png

最后使用下面的for循環代碼,從result中找到最大的那個int32元素,從我們上文的案例中就是4,結果和代碼如下所示:

var?value?=?result[0];
for?(int?i?=?1;?i?<?Vector128<int>.Count;?i++)
{if?(value?<?result[i]){value?=?result[i];}
}

c048b700af2b701b8adfcee517a88957.png要注意的是,為了演示方便我這里數組bit長度剛好是128倍數,實際情況中需要考慮不是128倍數的場景。

總結

答案顯而易見,試.NET7中Min()Max()方法性能暴增45倍的原因就是Stephe大佬對基本幾個連續的值類型比較做了SIMD優化,而這樣的優化在本次的.NET7版本中有非常多,后面有時間帶大家一起看看SIMD又是如何提升其它方面的性能的。

參考資料

[1]

.NET如何快速比較兩個byte數組是否相等: https://www.cnblogs.com/InCerry/p/dotnet-compare-two-byte-arrays.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/281556.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/281556.shtml
英文地址,請注明出處:http://en.pswp.cn/news/281556.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

html標記語言 --框架

html標記語言 --框架六、框架1、什么是框架 框架將瀏覽器劃分成不同的部分&#xff0c;每一部分加載不同的網頁 實現同一瀏覽器窗口中加載多個頁面的效果。 語法格式<frameset>.......</frameset>2. 屬性2.1 cols使用“像素數”和%分割左右窗口&#xff0c;“*” 表…

c語言兔子洞,數據結構水題選講 - osc_y08db3kb的個人空間 - OSCHINA - 中文開源技術交流社區...

[Ynoi2011]ODT\(O(nlog^2n)\) 的做法非常顯然直接把樹重鏈剖分一下&#xff0c;每個點維護輕兒子的平衡樹就行但是這題 \(1e6\) 的數據范圍使得 \(O(nlog^2n)\) 沒那么容易卡過去(當然很多人卡過去了考慮給一個點很多重兒子那么若一個點有 \(k\) 個重兒子&#xff0c;修改復雜度…

centos 7.x systemd service 配置方法整理

一、存放路徑/etc/systemd/system二、service配置整理2.1 zookeeper.service[Unit]DescriptionZooKeeper ServiceAftersyslog.targetAfternetwork.target[Service]#使用shell腳本啟動的要用forking模式TypeforkingUserzookeeperGroupzookeeper#腳本啟動ExecStart/usr/local/zoo…

MAVEN集成測試環境搭建

1. MAVEN SVN HUDSON SONAR集成測試環境搭建、1.1 軟件準備 Hudson、Jenkins、Sonar1.2 軟件安裝 說明&#xff1a;本例均使用將應用程序部署至web容器下&#xff0c;Hudson和Sonar有其他部署啟動方式&#xff0c;如有需要請自行使用&#xff0c;本文不做贅述。1.2.1 安裝hu…

ubus c語言例子,openwrt之ubus例子

好一個icrootLEDE:/# ubus call test_ubus helloworld {"id":1,"msg":"hi","array":["a","b"]}{"id": 1,"msg": "hi","shuzu": ["a","b"]}文件目…

使用Spring訪問Mongodb的方法大全——Spring Data MongoDB查詢指南

1.概述 Spring Data MongoDB 是Spring框架訪問mongodb的神器&#xff0c;借助它可以非常方便的讀寫mongo庫。本文介紹使用Spring Data MongoDB來訪問mongodb數據庫的幾種方法&#xff1a; 使用Query和Criteria類JPA自動生成的查詢方法使用Query 注解基于JSON查詢在開始前&#…

mysqldump導出備份數據庫報Table ‘performance_schema.session_variables‘ doesn‘t exist

今天在bash進行本地數據庫往云端數據庫導數據的時候&#xff0c;在本地導出.sql文件這第一步就出現了錯誤問題&#xff0c;導出sql文件的命令&#xff1a; 1 mysqldump -u 用戶名 -p 數據庫名 > xxx.sql 在做這一步將數據導出的時候報了這么一個錯誤&#xff0c; 1 mysqldu…

在Identity框架中使用RoleBasedAuthorization

本文將介紹在 Identity 框架中如何使用 Sang.AspNetCore.RoleBasedAuthorization[1] 庫。核心介紹Identity 和 jwt 的基本配置我們在這里不再贅述&#xff0c;可以參考最后的項目樣例。核心的代碼主要為 IRolePermission 的實現。internal class MyRolePermission : IRolePermi…

2016年印度公有云服務市場將達13億美元

根據IT咨詢公司Gartner最新調查數據顯示&#xff0c;2016年印度公有云服務市場預計將增長35.9%&#xff0c;達到13億美元。 增長最快的是云系統基礎設施即服務&#xff08;IaaS&#xff09;&#xff0c;2016年預計將增長45.5%&#xff1b;其次是平臺即服務&#xff08;PaaS&…

PAT 1042. 字符統計

1042. 字符統計 請編寫程序&#xff0c;找出一段給定文字中出現最頻繁的那個英文字母。 輸入格式&#xff1a; 輸入在一行中給出一個長度不超過1000的字符串。字符串由ASCII碼表中任意可見字符及空格組成&#xff0c;至少包含1個英文字母&#xff0c;以回車結束&#xff08;回車…

Magicodes.IE 2.7.0-beta發布

2.7.0-beta2022.10.27使用SixLabors.ImageSharp替代System.Drawing&#xff0c;感謝linch90 &#xff08;見pr#454&#xff09;2.6.92022.10.26fix: 動態數據源導出到多個sheet的問題 &#xff08;見#449&#xff09;2.6.82022.10.18Excel模板導出添加API&#xff0c;以支持通過…

光伏逆變器“領跑”:不止于技術

從無到有&#xff0c;從效率比拼到突破99%&#xff0c;在跟進速度上沒話說的國內光伏逆變器企業難免深陷“價格戰”、同質化的泥潭。隨著“領跑者”計劃躍居光伏主流&#xff0c;嗅到市場紅利的企業再次蜂擁而至。 目前&#xff0c;鑒衡認證發布的第一批光伏并網逆變器“領跑者…

Ubuntu 18.04上Qmmp安裝教程

Qmmp&#xff0c;一個開源的基于Qt的多媒體播放器。它具有多種音頻文件格式支持&#xff0c;DSP效果&#xff0c;視覺效果;輸出系統支持&#xff08;OSS4&#xff08;FreeBSD&#xff09;&#xff0c;ALSA&#xff08;Linux&#xff09;&#xff0c;Pulse Audio&#xff0c;JAC…

android自動跑馬燈,Android-最強跑馬燈

Android--最強跑馬燈Android 跑馬燈已經有很多版本&#xff0c;從最基本的TextView&#xff0c;到重寫TextView使TextView取消焦點限制&#xff0c;還有重寫TextView利用ScrollTo方法寫的&#xff0c;基本都能滿足一般需要。然而在使用過程中&#xff0c;發現一些意外---有時會…

python:軟件目錄結構規范

為什么要設計好目錄結構&#xff1f; “設計項目目錄結構”&#xff0c;就和“代碼編碼風格”一樣&#xff0c;屬于個人風格問題。對于這種風格上的規范&#xff0c;一直都存在兩種態度&#xff1a; 1.一種認為&#xff0c;這種個人風格問題“無關緊要”。理由是能讓程序work就…

開啟智能生活新時代 河北省智慧社區建設從各個擊破

智慧社區作為智慧城市的重要組成部分&#xff0c;是城市智慧落地的觸點&#xff0c;是城市管理、政務服務和市場服務的載體。隨著智慧城市的推廣以及新一代技術的普及&#xff0c;智慧社區的項目必將迎來新一輪的快速發展。2016年智慧社區成為企業業務落地的承載點&#xff0c;…

C# WPF 表格控件的前后臺數據交互?

概述GridControl控件使用我們已經進行了實例講解&#xff0c;這節內容我們列舉一個特殊的應用場景&#xff1a;表格中有一列CheckBox&#xff0c;默認都處于勾選狀態&#xff0c;當用戶通過界面操作后&#xff0c;我們要確保用戶至少選擇了一項&#xff0c;相當于一次數據驗證&…

Java(C#)基礎差異-語法

1、long類型 Java long類型&#xff0c;若賦值大于int型的最大值&#xff0c;或小于int型的最小值&#xff0c;則需要在數字后加L或者l&#xff0c;表示該數值為長整數&#xff0c;如long num2147483650L。 舉例如下&#xff1a; public static void main(String[] args) {/** …

android防止左向右滑出程序,Android——ViewPager禁止左右滑動的實現

目錄1 背景用ViewPagerBottomNavigationView多個Fragment快速搭建的頁面切換架構&#xff0c;一個有四個頁面&#xff0c;因為測試需要&#xff0c;需要屏蔽掉中間的兩個&#xff0c;做法是&#xff1a;設置不可點擊選擇&#xff1a;xml布局文件中&#xff0c;BottomNavigation…

Yii2 的快速配置 api 服務 yii2-fast-api

yii2-fast-api yii2-fast-api是一個Yii2框架的擴展&#xff0c;用于配置完善Yii2&#xff0c;以實現api的快速開發。 此擴展默認的場景是APP的后端接口開發&#xff0c;因此偏向于實用主義&#xff0c;并未完全采用restfull的標準&#xff0c;方便前端開發處理接口數據以及各種…