1.關于稀疏卷積的解釋:https://zhuanlan.zhihu.com/p/382365889
2.
答案:
在深度學習領域,尤其是計算機視覺任務中,遮蔽圖像建模(Masked Image Modeling, MIM)是一種自監督學習策略,其基本思想是遮蔽(或隱藏)圖像中的部分信息,然后訓練模型去預測這些遮蔽的部分。這種方法的一個關鍵點是,遮蔽的圖像可以被視為一個稀疏的2D像素數組。
這是因為當圖像中的某些像素被遮蔽時,這些像素的值在數組中就被標記為缺失或零。因此,相對于一個完整的、密集的圖像,遮蔽圖像包含的信息更少,這就構成了一個稀疏的2D數組。稀疏性意味著數組中大部分元素為零,只有少數元素包含有效信息。
基于這個觀察,引入稀疏卷積是合理的。稀疏卷積是一種特殊的卷積操作,它專門設計來處理這種稀疏數據。在標準的卷積操作中,濾波器(或卷積核)會在整個圖像上滑動,對每個像素進行計算。但是,在遮蔽圖像中,大部分像素是未知的(即遮蔽的),因此對它們進行卷積是沒有意義的。
稀疏卷積操作只關注圖像中可見的、未遮蔽的像素點,忽略遮蔽的像素點。這樣,它能夠更有效地處理遮蔽圖像,并且可以減少計算量,因為不需要在遮蔽的像素上執行卷積操作。通過在編碼器中使用子流形稀疏卷積來替代標準的卷積層,模型能夠更加專注于可見數據點,從而在預測遮蔽部分時獲得更好的性能。
總之,遮蔽圖像的2D稀疏數組表示為稀疏卷積的使用提供了理論基礎,這種卷積操作更符合遮蔽圖像的特性,并且可以提高模型在自監督學習任務中的性能。
3、“Patch-wise normalized image”
"Patch-wise normalized image"這一概念涉及到了圖像處理中的幾個層級:像素級(pixel-wise)、塊級(patch-wise)以及圖像級(image-wise)。在理解這一概念之前,我們首先需要明確這些層級的區別。
Pixel-wise:指的是對圖像中的每個像素進行操作。例如,對像素的亮度、顏色或者位置進行個別調整。
Patch-wise:涉及到圖像中的局部區域,即由多個像素組成的塊。在圖像處理中,一個圖像可以被分割成多個塊,每個塊包含了一定數量的像素。對這些塊進行處理,而不是單個像素,可以幫助捕捉局部特征,常用于計算機視覺任務中。
Image-wise:指的是對整個圖像進行操作,比如對整張圖片的標簽進行分類,或者對整張圖片的亮度進行調整。
那么,patch-wise normalized image 是指對圖像進行了塊級標準化處理的圖像。具體來說,就是對圖像的每個塊進行標準化處理,使得每個塊的像素值在一定范圍內具有相似的統計特性,比如使得每個塊的像素均值接近零,標準差接近1。這樣的處理可以使得每個塊都基于自身的局部信息進行了調整,有助于在某些計算機視覺任務中改善性能,例如圖像分割、物體檢測等。
進行塊級標準化處理的原因是,不同的圖像塊可能具有不同的局部特征和統計特性,這種差異可能會對某些模型的學習造成困擾。通過標準化,可以使得每個塊都基于其自身的局部信息進行適應,從而有助于模型更好地學習圖像的結構和內容。
總結起來,patch-wise normalized image 是指對圖像的每個塊分別進行了標準化處理的圖像,這有助于改善某些計算機視覺任務的性能。