首先解釋一下什么是Docker鏡像?
?
Docker鏡像它其實是一個模板,擁有這個模板我們才能創建我們的Docker容器,鏡像里含有啟動 docker 容器所需的文件系統結構及其內容,因此是啟動一個 docker 容器的基礎。docker 鏡像的文件內容以及一些運行 docker 容器的配置文件組成了 docker 容器的靜態文件系統運行環境:rootfs。可以這么理解,docker 鏡像是 docker 容器的靜態視角,docker 容器是 docker 鏡像的運行狀態。我們可以通過下圖來理解 docker daemon、docker 鏡像以及 docker 容器三者的關系(此圖來自互聯網):
從上圖中我們可以看到,當由 ubuntu:14.04 鏡像啟動容器時,ubuntu:14.04 鏡像的鏡像層內容將作為容器的 rootfs;而 ubuntu:14.04 鏡像的 json 文件,會由 docker daemon 解析,并提取出其中的容器執行入口 CMD 信息,以及容器進程的環境變量 ENV 信息,最終初始化容器進程。當然,容器進程的執行入口來源于鏡像提供的 rootfs。
?
rootfs解釋
rootfs 是 docker 容器在啟動時內部進程可見的文件系統,即 docker 容器的根目錄。rootfs 通常包含一個操作系統運行所需的文件系統,例如可能包含典型的類 Unix 操作系統中的目錄系統,如 /dev、/proc、/bin、/etc、/lib、/usr、/tmp 及運行 docker 容器所需的配置文件、工具等。
在傳統的 Linux 操作系統內核啟動時,首先掛載一個只讀的 rootfs,當系統檢測其完整性之后,再將其切換為讀寫模式。而在 docker 架構中,當 docker daemon 為 docker 容器掛載 rootfs 時,沿用了 Linux 內核啟動時的做法,即將 rootfs 設為只讀模式。在掛載完畢之后,利用聯合掛載(union mount)技術在已有的只讀 rootfs 上再掛載一個讀寫層。這樣,可讀寫的層處于 docker 容器文件系統的最頂層,其下可能聯合掛載了多個只讀的層,只有在 docker 容器運行過程中文件系統發生變化時,才會把變化的文件內容寫到可讀寫層,并隱藏只讀層中的舊版本文件。
Docker 鏡像的主要特征
為了更好的理解 docker 鏡像的結構,下面介紹一下 docker 鏡像設計上的關鍵技術。
1、分層
docker 鏡像是采用分層的方式構建的,每個鏡像都由一系列的 "鏡像層" 組成。分層結構是 docker 鏡像如此輕量的重要原因。當需要修改容器鏡像內的某個文件時,只對處于最上方的讀寫層進行變動,不覆寫下層已有文件系統的內容,已有文件在只讀層中的原始版本仍然存在,但會被讀寫層中的新版本所隱藏。當使用 docker commit 提交這個修改過的容器文件系統為一個新的鏡像時,保存的內容僅為最上層讀寫文件系統中被更新過的文件。分層達到了在不的容器同鏡像之間共享鏡像層的效果。
2、寫時復制(copy-on-write)docker 鏡像使用了寫時復制(copy-on-write)的策略,在多個容器之間共享鏡像,每個容器在啟動的時候并不需要單獨復制一份鏡像文件,而是將所有鏡像層以只讀的方式掛載到一個掛載點,再在上面覆蓋一個可讀寫的容器層。在未更改文件內容時,所有容器共享同一份數據,只有在 docker 容器運行過程中文件系統發生變化時,才會把變化的文件內容寫到可讀寫層,并隱藏只讀層中的老版本文件。寫時復制配合分層機制減少了鏡像對磁盤空間的占用和容器啟動時間。
3、內容尋址(content-addressable storage)
在 docker 1.10 版本后,docker 鏡像改動較大,其中最重要的特性便是引入了內容尋址存儲(content-addressable storage) 的機制,根據文件的內容來索引鏡像和鏡像層。與之前版本對每個鏡像層隨機生成一個 UUID 不同,新模型對鏡像層的內容計算校驗和,生成一個內容哈希值,并以此哈希值代替之前的 UUID 作為鏡像層的唯一標識。該機制主要提高了鏡像的安全性,并在 pull、push、load 和 save 操作后檢測數據的完整性。另外,基于內容哈希來索引鏡像層,在一定程度上減少了 ID 的沖突并且增強了鏡像層的共享。對于來自不同構建的鏡像層,主要擁有相同的內容哈希,也能被不同的鏡像共享。
4、UnionFS聯合掛載文件系統
聯合掛載技術可以在一個掛載點同時掛載多個文件系統,將掛載點的原目錄與被掛載內容進行整合,使得最終可見的文件系統將會包含整合之后的各層的文件和目錄。實現這種聯合掛載技術的文件系統通常被稱為聯合文件系統(union filesystem)。以下圖所示的運行 Ubuntu:14.04 鏡像后的容器中的 aufs 文件系統為例:
由于初始掛載時讀寫層為空,所以從用戶的角度看,該容器的文件系統與底層的 rootfs 沒有差別;然而從內核的角度看,則是顯式區分開來的兩個層次。當需要修改鏡像內的某個文件時,只對處于最上方的讀寫層進行了變動,不復寫下層已有文件系統的內容,已有文件在只讀層中的原始版本仍然存在,但會被讀寫層中的新版本文件所隱藏,當 docker commit 這個修改過的容器文件系統為一個新的鏡像時,保存的內容僅為最上層讀寫文件系統中被更新過的文件。聯合掛載是用于將多個鏡像層的文件系統掛載到一個掛載點來實現一個統一文件系統視圖的途徑,是下層存儲驅動(aufs、overlay等) 實現分層合并的方式。所以嚴格來說,聯合掛載并不是 docker 鏡像的必需技術,比如在使用 device mapper 存儲驅動時,其實是使用了快照技術來達到分層的效果。
Docker 鏡像的存儲組織方式
綜合考慮鏡像的層級結構,以及 volume、init-layer、可讀寫層這些概念,一個完整的、在運行的容器的所有文件系統結構可以用下圖來描述:
從圖中我們不難看到,除了 echo hello 進程所在的 cgroups 和 namespace 環境之外,容器文件系統其實是一個相對獨立的組織。可讀寫部分(read-write layer 以及 volumes)、init-layer、只讀層(read-only layer) 這 3 部分結構共同組成了一個容器所需的下層文件系統,它們通過聯合掛載的方式巧妙地表現為一層,使得容器進程對這些層的存在一無所知。