PaperNotes(1)-Modeling the World from Internet Photo Collections

從網絡圖片集對世界進行建模

  • Abstract
  • Introduction
  • 2 Previous Work
    • 2.1特征匹配
    • 2.2 稀疏重建
    • 2.3 基于圖像建模
    • 2.4 基于圖像的渲染
    • 2.5 圖像瀏覽,檢索和注釋
  • 3 Overview概述
  • 4 Reconstructing Cameras and Sparse Geometry(相機標定與稀疏重建)
    • 4.1Keypoint Detection and Matching(關鍵點檢測和匹配)
    • 4.2 Structure from Motion(稀疏重建)
    • 4.3 Geo-Registration
    • 4.4 Scene Representation
  • 5 Photo Explorer Rendering
    • 5.1 User Interface Layout
    • 5.2 Rendering the Scene
    • 5.3 Transitions between Photographs
  • 6 Photo Explorer Navigation
  • 7 Enhancing Scenes
  • 8 Results
  • 9 Research Challenges

如有需要, 本人整理的PPT在個人中心中可以下載。

Abstract

互聯網上有大量的圖片,構成了最大和最多樣的照片集合。計算機視覺研究者們該如何利用這些圖片進行研究呢?本文從3維場景建模和可視化的角度探索這個問題。我們展示了一個structure-from-motion and image-based rendering 的算法,這個算法可以對由關鍵詞搜索得到的圖片進行操作。我們叫這個方法為** Photo Tourism**,此方法已經促進了許多世界著名遺址景點的重構工作。這篇文章展示的算法和結果是對擁有良好照片(來自互聯網)的世界遺址、城市、風景等進行三維場景重建的第一步。最后,我們還討論了研究團隊遇到的困難和關鍵開放性問題。

Introduction

世界上大部分的地點的圖片在網上都能被找到,而且角度時間齊全,例如谷歌地圖的街景級別的城市圖像。

網絡圖像為世界上的地點建模( shape modeling research)提供了豐富的資料,由于其豐富的視角和多樣性,使得設計的算法具有魯棒性,能夠適應與多變的環境。

網絡圖像由于其無序、未校準、變化多、亮度不受控制、分辨率和質量等問題,而 很難被傳統計算機視覺所應用。將這些圖片應用在計算機視覺領域的一個主要挑戰是:兩張圖片對應3D坐標的匹配問題。

本文的行文思路:首先回顧最新技術,然后介紹解決此問題的一些第一步,以及我們稱之為Photo Tourism的可視化前端。然后,我們為本領域提出了一組開放的研究問題,包括為超大圖像數據集創建更有效的對應和重建技術。本文的研究是在2006年文章的基礎上發展而來的,發展了新的算法,更多詳細內容詳見:,http://phototour.cs.washington.edu.

2 Previous Work

過去20年,3D計算機視覺算法在性能上取得飛速發展。這些算法涵括:特征對應、稀疏重建、基于圖像建模、基于圖像繪制技術、圖像搜索技術。以下小節分別介紹各個算法的內容。

2.1特征匹配

介紹了近20年的特征匹配技術,最后說明本文采用SIFT特征( Scale Invariant Feature Transform (SIFT),尺度不變特征變換)

2.2 稀疏重建

**稀疏重建技術:**從匹配特征集合中同時重構三維場景和估計相機位置姿態。近20年來,有大量的工作,本文的工作與前人的工作有相似之處,但是 有相比于前人有更顯著的貢獻:將SfM技術應用與來自網絡的真實世界圖片。在應用SfM方法時,我們做了4點改變:(1)用姿態估計來初始化相機參數;(2)啟發式的規則選擇兩幅初始化圖像;(3)檢驗每一重構點的優良性后,在決定是否將其加入重構場景;(4)從圖像的EXIF信息中計算相機焦距。

2.3 基于圖像建模

近些年來,諸如稀疏重建、基于模型重建等計算機視覺技術在計算機圖形領域獲得了巨大的吸引力,這些方法又被稱為基于圖像的建模方法。有很多人已經做過許多優秀的工作了,在這個方面,相比與前人,我們工作強調的是開創圖片與三維模型之間的光滑轉換,而不是交互的可視化三維模型;因為這個工作前人是做過的。

2.4 基于圖像的渲染

Image-Based Rendering 領域開創性的工作是 Aspen MovieMap project (Lippman 1980)。該項目從移動的車上獲取了 Aspen Colorado 城中的成千上萬張圖片,重構了該地城區圖的精確三維場景地圖,并且,提供了交互式的用戶接口。本文工作與該工程類似,但是,花費的人力時間少。且重建建筑物的表面不如IBR相關工作的逼真,但是,這并不是一個問題,因為,我們的初始目標就不是重構的逼真度。因此,我們避開了IBR領域的一些挑戰性問題:完整表面模型重建、光照問題、像素精確插值問題。這使得我們能夠不受IBM與IBR方法的限制,更隨心所欲地操作輸入圖片。

2.5 圖像瀏覽,檢索和注釋

最近,使用位置信息來瀏覽圖片的方法越來越流行。現有的系統,都是通過GPS或者手手動的方式來設置位置信息。我們的方法利用現有的圖片數據庫和網上搜索得到的圖片,我們還利用稀疏三維幾何和圖像特征匹配來構成導航信息。
我們使用的檢索技術是: Video Google ,但是為原來技術的三維擴展版本。
我們注釋技術能夠使的特定目標或者區域的技術在不同圖片間移。可自己開發一套注釋技術;也可以從Flickr中直接導入現有的注釋;還可以進行注釋遷移。
2002年有一個傳照片返回拍照位置的系統,我們的系統能夠完成同樣的功能,而且,還附加了:可視化,導航,注釋等功能。

3 Overview概述

(此部分為文章脈絡概述)
本文主要目標:Our objective is to geometrically register large photo collections from the Internet and other sources。
主要困難:網絡圖形對于建模的不友好性:質量問題。
主要解決方法:特征匹配和稀疏重建
第四部分:詳細敘述本文方法
第五部分:如何得到一個吸引人的表面
第六部分:photo explorer接口,用于用戶輸入圖片后三維重建場景
第七部分:標注在多張圖片中轉移的技術
第八部分:11個場景的建模效果展示
第九部分:研究團隊遇到的挑戰性問題。

4 Reconstructing Cameras and Sparse Geometry(相機標定與稀疏重建)

稀疏重建需要相機的內參數,位置,姿態,或者絕對坐標等信息。但是,網絡圖片不具備這些信息,焦距可以通過EXIF信息讀取計算為初值后,進行優化求解。其他參數需要經過相機標定技術進行計算。
**計算過程:**每張圖片特征點標注->圖片之間的特征點匹配->迭代SFM過程優化相機參數。最后,我們使用交互式技術,將恢復的相機信息存儲在構造的地圖上空。

4.1Keypoint Detection and Matching(關鍵點檢測和匹配)

本文使用SIFT特征來檢測和表示每一張圖片中的特征點。因為SIFT良好的尺度不變性,和給每一個特征點賦予的局部描述子。一張圖片可能會包含幾千個SIFT特征點。
每對(I,J)圖片中的特征點匹配:從J的描述子中構造kd-tree。不是通過設置最近鄰的距離閾值選匹配點,而是通過I中某一特征點在J中的兩個最近鄰的距離比值確定d1d2<0.6\frac{d_1}{d_2}<0.6d2?d1??<0.6.確定該特征點的匹配點。(如果兩張圖片中的特征出現一對多的情況,則去除這些匹配,因為其中必有一些是錯誤的)
特征點匹配后,利用RANSAC算法計算兩視圖幾何中的基本矩陣。在每次迭代中,我們利用八點法計算基本矩陣的候選集合。RANSAC outlier threshold= 0.6% of the maximum image dimension。RANSAC算法返回的F矩陣的8個參數由 Levenberg-Marquardt algorithm進行精細化優化。通過上述設置的閾值,移除不符合條件的匹配點。如果總體匹配點數少于20個,則這兩張圖片的匹配將被全部移除。
找到每張圖片的幾何一致性匹配后,將多張圖片中的特征點連接構成一個圖片軌道,每條軌道包含同一張圖上的兩個關鍵點的話,就將該關鍵點剔除。一條軌道至少要包含兩張圖片上的關鍵點。
連接多張圖片之間的匹配點,構成圖像連通軌,由圖像連通軌道構成圖像連通集合
在這里插入圖片描述
在這里插入圖片描述

4.2 Structure from Motion(稀疏重建)

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

4.3 Geo-Registration

在這里插入圖片描述

4.4 Scene Representation

在這里插入圖片描述

5 Photo Explorer Rendering

5.1 User Interface Layout

在這里插入圖片描述

5.2 Rendering the Scene

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述

5.3 Transitions between Photographs

在這里插入圖片描述

6 Photo Explorer Navigation

在這里插入圖片描述
在這里插入圖片描述

7 Enhancing Scenes

在這里插入圖片描述

8 Results

在這里插入圖片描述

9 Research Challenges

在這里插入圖片描述

百度文庫的全文翻譯現場:https://wenku.baidu.com/view/0736a232866fb84ae45c8d6d.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445314.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445314.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445314.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深度學習(04)-- 典型CNN結構(LeNet5 ,AlexNet)

LeNet5 LeNet5可以說是最早的卷積神經網絡了&#xff0c;它發表于1998年&#xff0c;論文原文Gradient-Based Learning Applied to Doucment Recognition作者是Yann Le Cun等。下面對LeNet5網絡架構進行簡單的說明&#xff0c;有興趣的同學可以去參考原文&#xff0c;論文原文…

Arrays工具類常見方法

Arrays類的常見操作 排序 : sort()查找 : binarySearch()比較: equals()填充 : fill()轉列表: asList()轉字符串 : toString()復制: copyOf() 排序 : sort() // *************排序 sort****************int a[] { 1, 3, 2, 7, 6, 5, 4, 9 };// sort(int[] a)方法按照數字順序…

Python(12)-while語句+賦值運算符號+轉義字符

while循環語句1.while基本語法2.break continue3.轉義字符4.賦值運算符5.Print函數輸出換行符號1.while基本語法 循環語句的程序三大流程之一&#xff1a; 順序 --從上到下以順序的方式執行代碼 分支流程–依據條件判斷&#xff0c;決定要執行的代碼分支–豐富代碼形式 循環–…

CNN的幾種經典模型

本文主要介紹一下CNN的幾種經典模型比較。之前自己也用過AlexNet和GoogleNet&#xff0c;網絡上關于各種模型的介紹更是形形色色&#xff0c;自己就想著整理一下&#xff0c;以備自己以后查閱方便 LeNet5 先放一張圖&#xff0c;我感覺凡是對深度學習有涉獵的人&#xff0c;對…

阿里Java編程規約(命名風格、常量定義、代碼格式)

命名風格 1、【強制】代碼中的命名均不能以下劃線或美元符號開始&#xff0c;也不能以下劃線或美元符號結束。 反例&#xff1a;_name / __name / $name / name_ / name$ / name__ 2、【強制】代碼中的命名嚴禁使用拼音與英文混合的方式&#xff0c;更不允許直接使用中文的方…

PaperNotes(2)-Generative Adversarial Net-代碼實現資料

Generative Adversarial Nets-生成對抗網絡Abstract1.Introduction2.Related work3.Adversarial nets4.Theoretical Results4.1全局最優 pgpdatap_gp_{data}pg?pdata?4.2算法1的收斂性質5.Experiments6.Advantagesa and disadvantages7.Conclusions and future work8.GAN-代碼…

深度學習(05)--典型CNN結構(VGG13,16,19)

文章目錄目錄1.VGG結構2.VGG結構解釋3.3*3卷積核的優點4.VGG的muti-scale方法5.VGG的應用目錄 1.VGG結構 ? LeNet5用大的卷積核來獲取圖像的相似特征 ? AlexNet用99、1111的濾波器 ? VGG 巨大的進展是通過依次采用多個 33 卷積&#xff0c;模仿出更大的感受野&#xff08;r…

redis——發布和訂閱

頻道的訂閱和退訂 當一個客戶端執行 SUBSCRIBE 命令&#xff0c; 訂閱某個或某些頻道的時候&#xff0c; 這個客戶端與被訂閱頻道之間就建立起了一種訂閱關系。 Redis 將所有頻道的訂閱關系都保存在服務器狀態的 pubsub_channels 字典里面&#xff0c; 這個字典的鍵是某個被訂…

Pytorch(1)-內置/自己設計的損失函數使用

內置/自己設計的損失函數使用對比1.內置損失函數2.自己設計損失函數Pytorch內置了許多常用的損失函數&#xff0c;但是&#xff0c;實際應用中&#xff0c;往往需要依據不同的需求設計不同的損失函數。本篇博文對比總結了使用 內置和 自己設計損失函數的語法規則流程。1.內置損…

redis——事務

Redis 事務可以一次執行多個命令&#xff0c; 并且帶有以下三個重要的保證&#xff1a; 批量操作在發送 EXEC 命令前被放入隊列緩存。收到 EXEC 命令后進入事務執行&#xff0c;事務中任意命令執行失敗&#xff0c;其余的命令依然被執行。在事務執行過程&#xff0c;其他客戶端…

深度學習(06)-- Network in Network(NIN)

文章目錄目錄1.NIN 結構2.MLP卷積3.全局均值池化4.總體網絡架構5.NIN補充5.1 廣義線性模型&#xff08;GLM&#xff09;的局限性5.2 CCCP層5.3 1*1卷積核作用&#xff08;補充&#xff09;6.手勢識別RGB圖像--NIN結構目錄 1.NIN 結構 2.MLP卷積 傳統CNN的局部感受野窗口的運算…

Pytorch(2)-tensor常用操作

tensor常用數學操作1. 隨機數1.1 torch.rand() - 均勻分布數字1.2 torch.randn() - 正態分布數字2. 求和2.1 torch.sum(data, dim)2.2 numpy.sum(data, axis)3. 求積3.1 點乘--對應位置相乘3.2 矩陣乘法4. 均值、方差4.1 torch tensor.mean() .std()4.2 numpy array.mean() .st…

Java編程規約(OOP)

1、【強制】避免通過一個類的對象引用訪問此類的靜態變量或靜態方法&#xff0c;無謂增加編譯器解析 成本&#xff0c;直接用類名來訪問即可。 2、【強制】所有的覆寫方法&#xff0c;必須加Override 注解。 說明&#xff1a;getObject()與 get0bject()的問題。一個是字母的…

深度學習(07)-- 經典CNN網絡結構(Inception (v1-v4))

文章目錄目錄1.Inception介紹1.1 Inception結構1.2 Inception V1(GoogleNet)1.3 Inception V2(Batch Norm)1.4 Inception V3&#xff08;Factorization&#xff09;1.5 Inception V4&#xff08;ResNet&#xff09;1.5 Inception v1~v4 總結1.6 Inception進階2.Inception實現目…

Python(13)-函數,lambda語句

函數1 函數定義2 函數調用3 函數注釋文檔4 函數參數4.1 參數列表,默認參數,任意參數4.1.1 無缺省值參數4.1.2&#xff08;部分&#xff09;缺省值參數4.1.3 數量不定形參數4.2 可變對象和不可變對象4.3 作用域4.3.1 globals()函數4.3.2 global 聲明變量為全局變量5 函數返回值5…

深度學習(08)-- Residual Network (ResNet)

文章目錄目錄1.殘差網絡基礎1.1基本概念1.2VGG19、ResNet34結構圖1.3 梯度彌散和網絡退化1.4 殘差塊變體1.5 ResNet模型變體1.6 Residual Network補充1.7 1*1卷積核&#xff08;補充&#xff09;2.殘差網絡介紹&#xff08;何凱明&#xff09;3.ResNet-50(Ng)3.1 非常深的神經網…

Python(14)-模塊

模塊Python標準庫&#xff0c;第三方庫都是一個個模塊&#xff0c;我們還可以編寫自己的模塊。模塊python程序架構的核心模塊&#xff0c;模塊是一個工具包。 每一個以.py為擴展名的源代碼文件都是一個模塊。 想要使用工具包中的工具&#xff0c;可以使用Import的方式導入。 …

redis——命令請求的執行過程

發送命令請求 當用戶在客戶端中鍵入一個命令請求時&#xff0c; 客戶端會將這個命令請求轉換成協議格式&#xff0c; 然后通過連接到服務器的套接字&#xff0c; 將協議格式的命令請求發送給服務器。 讀取命令請求 當客戶端與服務器之間的連接套接字因為客戶端的寫入而變得可…

深度學習(09)-- DenseNet

文章目錄目錄1.DenseNet網絡結構2.稠密連接及其優點3.代碼實現4.補充說明目錄 1.DenseNet網絡結構 2.稠密連接及其優點 每層以之前層的輸出為輸入&#xff0c;對于有L層的傳統網絡&#xff0c;一共有L個連接&#xff0c;對于DenseNet&#xff0c;則有L*(L1)/2。 這篇論文主要…

redis——緩存擊穿/穿透/雪崩

緩存穿透 一般的緩存系統&#xff0c;都是按照key去緩存查詢&#xff0c;如果不存在對應的value&#xff0c;就去后端系統查找&#xff08;比如DB&#xff09;。 一些惡意的請求會故意查詢不存在的key,請求量很大&#xff0c;就會對后端系統造成很大的壓力。這就叫做緩存穿透…