從網絡圖片集對世界進行建模

Abstract
Introduction
2 Previous Work
- 2.1特征匹配
- 2.2 稀疏重建
- 2.3 基于圖像建模
- 2.4 基于圖像的渲染
- 2.5 圖像瀏覽，檢索和注釋
3 Overview概述
4 Reconstructing Cameras and Sparse Geometry（相機標定與稀疏重建）
- 4.1Keypoint Detection and Matching（關鍵點檢測和匹配）
- 4.2 Structure from Motion（稀疏重建）
- 4.3 Geo-Registration
- 4.4 Scene Representation
5 Photo Explorer Rendering
- 5.1 User Interface Layout
- 5.2 Rendering the Scene
- 5.3 Transitions between Photographs
6 Photo Explorer Navigation
7 Enhancing Scenes
8 Results
9 Research Challenges

如有需要，本人整理的PPT在個人中心中可以下載。

Abstract

互聯網上有大量的圖片，構成了最大和最多樣的照片集合。計算機視覺研究者們該如何利用這些圖片進行研究呢?本文從3維場景建模和可視化的角度探索這個問題。我們展示了一個structure-from-motion and image-based rendering 的算法，這個算法可以對由關鍵詞搜索得到的圖片進行操作。我們叫這個方法為** Photo Tourism**，此方法已經促進了許多世界著名遺址景點的重構工作。這篇文章展示的算法和結果是對擁有良好照片（來自互聯網）的世界遺址、城市、風景等進行三維場景重建的第一步。最后，我們還討論了研究團隊遇到的困難和關鍵開放性問題。

Introduction

世界上大部分的地點的圖片在網上都能被找到，而且角度時間齊全，例如谷歌地圖的街景級別的城市圖像。

網絡圖像為世界上的地點建模（ shape modeling research）提供了豐富的資料，由于其豐富的視角和多樣性，使得設計的算法具有魯棒性，能夠適應與多變的環境。

網絡圖像由于其無序、未校準、變化多、亮度不受控制、分辨率和質量等問題，而很難被傳統計算機視覺所應用。將這些圖片應用在計算機視覺領域的一個主要挑戰是：兩張圖片對應3D坐標的匹配問題。

本文的行文思路：首先回顧最新技術，然后介紹解決此問題的一些第一步，以及我們稱之為Photo Tourism的可視化前端。然后，我們為本領域提出了一組開放的研究問題，包括為超大圖像數據集創建更有效的對應和重建技術。本文的研究是在2006年文章的基礎上發展而來的，發展了新的算法，更多詳細內容詳見：,http://phototour.cs.washington.edu.

2 Previous Work

過去20年，3D計算機視覺算法在性能上取得飛速發展。這些算法涵括：特征對應、稀疏重建、基于圖像建模、基于圖像繪制技術、圖像搜索技術。以下小節分別介紹各個算法的內容。

2.1特征匹配

介紹了近20年的特征匹配技術，最后說明本文采用SIFT特征（ Scale Invariant Feature Transform (SIFT)，尺度不變特征變換）

2.2 稀疏重建

**稀疏重建技術：**從匹配特征集合中同時重構三維場景和估計相機位置姿態。近20年來，有大量的工作，本文的工作與前人的工作有相似之處，但是有相比于前人有更顯著的貢獻：將SfM技術應用與來自網絡的真實世界圖片。在應用SfM方法時，我們做了4點改變：(1)用姿態估計來初始化相機參數；(2)啟發式的規則選擇兩幅初始化圖像；(3)檢驗每一重構點的優良性后，在決定是否將其加入重構場景；(4)從圖像的EXIF信息中計算相機焦距。

2.3 基于圖像建模

近些年來，諸如稀疏重建、基于模型重建等計算機視覺技術在計算機圖形領域獲得了巨大的吸引力，這些方法又被稱為基于圖像的建模方法。有很多人已經做過許多優秀的工作了，在這個方面，相比與前人，我們工作強調的是開創圖片與三維模型之間的光滑轉換，而不是交互的可視化三維模型；因為這個工作前人是做過的。

2.4 基于圖像的渲染

Image-Based Rendering 領域開創性的工作是 Aspen MovieMap project (Lippman 1980)。該項目從移動的車上獲取了 Aspen Colorado 城中的成千上萬張圖片，重構了該地城區圖的精確三維場景地圖，并且，提供了交互式的用戶接口。本文工作與該工程類似，但是，花費的人力時間少。且重建建筑物的表面不如IBR相關工作的逼真，但是，這并不是一個問題，因為，我們的初始目標就不是重構的逼真度。因此，我們避開了IBR領域的一些挑戰性問題：完整表面模型重建、光照問題、像素精確插值問題。這使得我們能夠不受IBM與IBR方法的限制，更隨心所欲地操作輸入圖片。

2.5 圖像瀏覽，檢索和注釋

最近，使用位置信息來瀏覽圖片的方法越來越流行。現有的系統，都是通過GPS或者手手動的方式來設置位置信息。我們的方法利用現有的圖片數據庫和網上搜索得到的圖片，我們還利用稀疏三維幾何和圖像特征匹配來構成導航信息。
我們使用的檢索技術是： Video Google ，但是為原來技術的三維擴展版本。
我們注釋技術能夠使的特定目標或者區域的技術在不同圖片間移。可自己開發一套注釋技術；也可以從Flickr中直接導入現有的注釋；還可以進行注釋遷移。
2002年有一個傳照片返回拍照位置的系統，我們的系統能夠完成同樣的功能，而且，還附加了：可視化，導航，注釋等功能。

3 Overview概述

（此部分為文章脈絡概述）
本文主要目標：Our objective is to geometrically register large photo collections from the Internet and other sources。
主要困難：網絡圖形對于建模的不友好性：質量問題。
主要解決方法：特征匹配和稀疏重建
第四部分：詳細敘述本文方法
第五部分：如何得到一個吸引人的表面
第六部分：photo explorer接口，用于用戶輸入圖片后三維重建場景
第七部分：標注在多張圖片中轉移的技術
第八部分：11個場景的建模效果展示
第九部分：研究團隊遇到的挑戰性問題。

4 Reconstructing Cameras and Sparse Geometry（相機標定與稀疏重建）

稀疏重建需要相機的內參數，位置，姿態，或者絕對坐標等信息。但是，網絡圖片不具備這些信息，焦距可以通過EXIF信息讀取計算為初值后，進行優化求解。其他參數需要經過相機標定技術進行計算。
**計算過程：**每張圖片特征點標注->圖片之間的特征點匹配->迭代SFM過程優化相機參數。最后，我們使用交互式技術，將恢復的相機信息存儲在構造的地圖上空。

4.1Keypoint Detection and Matching（關鍵點檢測和匹配）

本文使用SIFT特征來檢測和表示每一張圖片中的特征點。因為SIFT良好的尺度不變性，和給每一個特征點賦予的局部描述子。一張圖片可能會包含幾千個SIFT特征點。
每對（I,J）圖片中的特征點匹配：從J的描述子中構造kd-tree。不是通過設置最近鄰的距離閾值選匹配點，而是通過I中某一特征點在J中的兩個最近鄰的距離比值確定 $d1d2<0.6\frac{d_1}{d_2}<0.6$ .確定該特征點的匹配點。（如果兩張圖片中的特征出現一對多的情況，則去除這些匹配，因為其中必有一些是錯誤的）
特征點匹配后，利用RANSAC算法計算兩視圖幾何中的基本矩陣。在每次迭代中，我們利用八點法計算基本矩陣的候選集合。RANSAC outlier threshold= 0.6% of the maximum image dimension。RANSAC算法返回的F矩陣的8個參數由 Levenberg-Marquardt algorithm進行精細化優化。通過上述設置的閾值，移除不符合條件的匹配點。如果總體匹配點數少于20個，則這兩張圖片的匹配將被全部移除。
找到每張圖片的幾何一致性匹配后，將多張圖片中的特征點連接構成一個圖片軌道，每條軌道包含同一張圖上的兩個關鍵點的話，就將該關鍵點剔除。一條軌道至少要包含兩張圖片上的關鍵點。
連接多張圖片之間的匹配點，構成圖像連通軌，由圖像連通軌道構成圖像連通集合
在這里插入圖片描述