提到計算機視覺(CV),大多數人腦海中會立馬浮現出一個字:“卷”。卷到什么程度呢?2022年秋招CV工程師崗位數下降了16%,但求職人數增加了23%,求職人數與招聘崗位的比例達到了恐怖的15:1,大部分CV領域的求職者都轉向了開發或者產品運營崗位。
為什么這么卷呢?因為2D視覺的算法大部分都開源了,并且深度學習的理論沒有門檻,經典的YOLO等物體檢測算法基本人人都了解,差異化不大。但是,與2D視覺形成明顯對比的是,3D視覺領域依然處于供需平衡的狀態,尤其是三維重建方向,更是供不應求。當下三維重建快速發展,在自動駕駛高精地圖、AR、娛樂等產業落地廣泛。但三維重建方向融合了計算機視覺、計算機圖形學、圖像處理等多門學科的知識,是一套非常復雜的工程系統,涉及知識點甚多,入門門檻較高,并且國內并沒有完整的書籍、教程作為學習資料,使得大部分同學入門即放棄。
圖1 三維重建效果圖
經典三維重建系統的整個pipeline從相機標定、基礎矩陣與本質矩陣估計、特征匹配到運動恢復結構(SFM),從SFM到稠密點云重建、表面重建、紋理貼圖。熟悉SFM的工程師已經是行業內的佼佼者,能掌握稠密點云重建與表面重建的工程師更是鳳毛麟角。
圖2 經典三維重建系統pipeline
三維重建是當下計算機視覺的一個研究熱點,雖然從業者們會給新人提供很多意見和建議,但三維重建的學習路線還是會因人而異,這要取決于個人的背景知識、興趣和職業目標。對于初學者,三維重建基礎的學習路線大概包括以下幾個方面:
- 數學基礎知識:線性代數、微積分、優化理論等是三維重建的基礎知識,建議入門者先花時間學好這些數學基礎知識。
- 計算機圖形學:三維重建需要理解計算機圖形學中的基本概念和技術,例如多邊形網格、曲面擬合和光照模型等。
- 多視圖幾何:學習多視圖幾何是三維重建的核心。了解基礎的三維幾何知識以及相機模型、基本矩陣、本質矩陣和三維重建中的三角化等概念。
- 點云處理和重建:點云是三維重建中最基本的表示形式之一,需要學習點云的采集、去噪、配準和重建等技術。
- 深度學習:近年來,深度學習技術在三維重建中的應用越來越廣泛。學習深度學習的基本原理和常用模型,如CNN、PointNet和GAN等,可以讓你在三維重建領域有更好的表現。
最后,基于圖像的三維模型重建是非常偏重工程實踐的研究任務,它涉及到多個學科,知識分散不系統,因此會給初學者帶來極大挑戰。大家可以嘗試在現有的三維重建數據集上進行實驗和調試,或自己創建一些數據集,以便更好地理解和應用三維重建技術。
現也將深藍學院開設的『基于圖像的三維重建』在線課程的推薦資料分享給大家,希望有所幫助。資料主要包括:
針對初學者
書籍I Multiple View Geometry in Computer Vision (Second Edition)
書籍II Computer Vision Algorithms and Applications
針對具備一定基礎的同學
三維重建的每個基礎模塊挑選了1-2篇代表性文獻,強烈建議閱讀以下相關的原著文獻, 這些文獻是經過時間檢驗非常經典的文獻,這將大大提升你們的科研和工程能力。 這些文章包括:
運動恢復結構SFM
Hierarchical SFM
- 《Structure-and-Motion Pipeline on a Hierarchical Cluster Tree》
這篇論文提出了一種基于分層聚類樹的結構和運動恢復方法,用于從多張圖像中估計場景中的點和相機的3D位置和姿態。
在這個方法中,首先使用特征點檢測和匹配算法來確定相鄰圖像之間的點對,然后使用這些點對來計算相機之間的運動和點的3D位置。然后,通過對點進行聚類并構建分層聚類樹來對場景進行建模,從而可以更準確地估計點的3D位置和姿態。
這篇論文的主要貢獻在于將分層聚類樹引入到三維重建中,提出了一種新的方法來估計點的3D位置和姿態。該方法具有較高的精度和魯棒性,適用于從大量圖像中重建復雜的三維場景。該論文的方法和思想在三維重建領域中得到廣泛應用,成為了多視圖幾何和三維重建的基礎方法之一。
Incremental SFM
- 《Photo Tourism:Exploring Photo Collections in 3D》
這篇論文介紹了一種基于計算機視覺和計算機圖形學技術的方法,利用從互聯網上獲取的大量圖片,生成高質量的三維重建模型,從而實現對不同場景的瀏覽和探索。
具體來說,該方法通過將大量的圖片投影到三維場景中,自動識別圖片之間的相同特征點,并利用這些特征點計算相機位置和姿態,進而估計每張圖片的三維位置。通過將所有圖片的三維位置進行優化和整合,最終生成一個高質量的三維重建模型。
這篇論文對三維重建領域產生了深遠的影響。它提出的方法不僅能夠生成高質量的三維重建模型,而且可以在大規模的圖片集上運行,并且不需要人工干預。這使得人們可以利用互聯網上的大量圖片,快速地生成三維場景,并在其中進行虛擬探索和導航。此外,該方法還啟發了許多后續的研究,如結合深度學習的三維重建方法、多視角圖像合成等,推動了三維重建領域的發展。
- 《Towards Linear-time Incremental Structure from Motion》
這篇論文提出了一種新的算法來加速三維重建的過程。該算法稱為“Linear-time Incremental Structure from Motion”(簡稱LIMO)。
在傳統的三維重建算法中,通常需要先對所有圖像進行特征提取、匹配、三角化等操作,然后再進行優化,以得到最終的三維重建結果。這個過程往往十分耗時,尤其是當圖像數量較大時,計算量會呈指數級增長。
LIMO算法通過將這個過程分解成多個步驟,并通過一些技巧來減少計算量,從而實現了線性時間的增量三維重建。具體來說,它采用了基于幾何約束的兩步法來處理每個新的圖像,從而避免了對所有圖像進行處理的開銷,并且可以在新的圖像到來時,快速更新整個三維重建結果。
該論文的算法在性能上優于許多傳統的三維重建算法,能夠在更短的時間內處理更多的圖像,并且能夠處理非常大的數據集。因此,它對于三維重建領域的研究和實際應用都有著重要的影響。
稠密重建
- 《Accurate Multiple View 3D Reconstruction Using Pathch-Based Stereo for Large-Scale Scenes》
這篇論文主要介紹了一種用于大規模場景的準確多視角三維重建方法。該方法基于基于圖像的漸進三角測量(Incremental Triangulation),使用基于路徑的立體匹配(Patch-Based Stereo)來提高幾何約束的準確性。與傳統方法相比,該方法能夠減少估計誤差,并在具有大量圖像的情況下提高效率。
該論文的主要貢獻在于提出了一種有效的多視角三維重建方法,可以處理大規模的場景,并能夠更準確地恢復物體的幾何形狀。該方法還具有高效的計算能力,因此可以應用于實際的應用中,例如建筑物重建、虛擬現實、醫學影像學等。許多后續的研究工作基于該論文提出的方法進行了改進和拓展,使得多視角三維重建的準確性和效率得到了進一步的提高。
- 《Accurate, Dense, and Robust Multiview Stereopsis》
該論文提出了一種多視角的立體視覺算法,用于從多個圖像中恢復場景的三維結構。該算法首先通過特征點匹配建立多個視角之間的對應關系,然后使用基礎矩陣估計技術來計算每個視角之間的相對姿態。接著,通過三角測量技術將多個視角的二維圖像坐標轉化為三維點云,最終通過密集匹配算法得到稠密的深度圖。
該算法相對于以往的三維重建算法具有更高的精度、更高的密度和更強的魯棒性,因此被廣泛應用于計算機視覺、機器人、虛擬現實等領域,并成為了當前三維重建領域的基礎算法之一。
這篇論文對于三維重建領域的發展產生了深遠的影響,推動了三維重建算法從傳統的基于單個圖像的方法向基于多個圖像的方法發展,并開創了多視角立體視覺的新時代。同時,該算法的核心思想也被廣泛應用于其他領域,如圖像匹配、視覺SLAM等。
- 《Multi-View Stereo for Community Photo Collections》
這篇論文的主要內容是提出了一種基于社區照片集合的多視角立體重建方法。該方法可以從一個大規模的非結構化圖像集合中,自動地恢復三維場景的形狀和外觀,同時還能夠重建出高質量的紋理和表面細節。該方法基于多視角幾何的原理,通過匹配多個視角的圖像來估計場景的深度和表面法向量,最終生成高質量的三維模型。
這篇論文對三維重建領域的影響非常大,它的方法為處理大規模非結構化圖像集合提供了一種全新的思路,也為三維重建的自動化和高效性提供了重要的基礎。該方法在實踐中已被廣泛應用于各種領域,例如建筑、文化遺產保護、虛擬現實等等。此外,該論文還為三維重建領域的后續研究提供了重要的參考和啟示。
表面重建
- 《High Accuracy and Visibility-Consistent Dense Multiview Stereo》
這篇論文是一篇關于多視角立體視覺的論文,旨在提出一種高精度和可見性一致性的密集多視角立體視覺方法。具體來說,它提出了一種新的深度圖優化方法,該方法考慮了三個方面的約束:像素亮度一致性、相鄰像素深度一致性和視圖可見性一致性。該方法可以在充分利用多視角信息的同時,克服傳統立體視覺方法中由于光照、紋理等因素引起的錯誤匹配問題。
這篇論文對三維重建領域的影響非常大,因為它提出了一種新的方法來解決立體視覺中的問題,該方法可以提高三維重建的精度和可靠性。它的創新之處在于它考慮了多個約束條件,這些約束條件可以幫助減少錯誤匹配和噪聲,從而提高重建的準確性。此外,該方法還可以處理復雜的場景,包括多個不同角度的光照和紋理,從而使其在實際應用中更加具有實用性。因此,這篇論文被廣泛引用和應用于計算機視覺和機器人領域,為三維重建和虛擬現實等領域的研究和應用提供了重要的參考。
- 《Poisson Surface Reconstruction》
該論文介紹了一種基于點云數據的三維重建算法,可以將離散的、不規則的點云數據轉換為光滑的三維曲面模型。
具體而言,該算法使用泊松方程來重建曲面模型。它首先將點云數據轉換為密集的體網格表示形式,然后通過求解泊松方程來計算一個標量場,并在此基礎上計算法向量和曲率。最后,通過等值面提取技術來生成三維曲面模型。
該算法有許多優點,包括能夠處理大規模點云數據、具有高質量的輸出結果、能夠保持細節信息和形狀特征等。因此,它已被廣泛應用于三維重建、計算機圖形學、計算機視覺和機器人等領域。
這篇論文在三維重建領域產生了很大的影響,并被認為是三維重建領域的經典論文之一。許多后續的研究工作都建立在這篇論文的基礎上,包括改進算法的速度和精度、擴展到多種類型的輸入數據、應用于更廣泛的應用場景等。
紋理貼圖
- 《Let There Be Color! - Large-Scale Texturing of 3D Reconstructions》
是一篇關于三維重建和紋理映射的論文。該論文提出了一種新的方法,能夠在大規模三維重建中對模型進行自動紋理貼圖,從而提高重建模型的視覺效果。
該論文的主要貢獻在于:將傳統的紋理映射方法與現代計算機視覺技術相結合,通過對大規模重建數據集的分析和學習,自動地將高質量的紋理貼圖應用到三維模型中。
具體而言,該方法使用了大規模圖像檢索技術來尋找與三維模型相匹配的圖像,并利用這些圖像來進行紋理映射。該方法還能夠自動檢測和修復紋理貼圖中的缺陷,從而獲得更加真實的紋理映射結果。
該論文的方法已經在許多實際的應用中得到了驗證,例如在建筑重建、文物保護和虛擬現實等領域中。該方法不僅能夠提高重建模型的視覺效果,還能夠為更高級別的三維分析和應用奠定基礎。
總之,這篇論文對三維重建領域產生了積極的影響,為三維重建的高效紋理映射提供了新的思路和方法。