一文讀懂 Linux mmap

文章目錄

1.簡介
2.實現原理
3.相關函數
4.mmap和常規文件操作的區別
5.作用
參考文獻

1.簡介

mmap（memory map）即內存映射，用于將一個文件或設備映射到進程的地址空間。

實現這樣的映射關系后，進程虛擬地址空間中一段內存地址將與文件磁盤地址一一對應，進程就可以采用指針的方式讀寫操作這段內存，系統會自動回寫臟頁面到對應的文件磁盤上。
在這里插入圖片描述
上圖表示進程虛擬地址空間布局。從上圖可以看出，進程的虛擬地址空間分為多個區域，每個區域存放不同類型的數據。內存映射區域處在堆與棧之間。

Linux 內核使用 vm_area_struct 結構來表示一個獨立的虛擬內存區域，由于每個不同質的虛擬內存區域功能和內部機制都不同，因此一個進程使用多個 vm_area_struct 結構來分別表示不同類型的虛擬內存區域。各個 vm_area_struct 結構使用鏈表或者樹形結構鏈接，方便進程快速訪問，如下圖所示：

在這里插入圖片描述
vm_area_struct 結構中包含區域起始和終止地址以及其他相關信息，同時也包含一個 vm_ops 指針，其內部可引出所有針對這個區域可以使用的系統調用函數。這樣，進程對某一虛擬內存區域的任何操作需要用要的信息，都可以從 vm_area_struct 中獲得。mmap 函數就是要創建一個新的 vm_area_struct 結構，并將其與文件的物理磁盤地址相連。

2.實現原理

mmap 實現內存映射，總的來說可以分為三個階段：

（1）進程啟動映射過程，并在虛擬地址空間中為映射創建虛擬映射區域。

進程在用戶空間調用庫函數 mmap(2)。
在當前進程的虛擬地址空間中，尋找一段空閑的滿足要求的連續的虛擬地址。
為此虛擬區分配一個vm_area_struct結構，接著對這個結構的各個域進行了初始化。
將新建的虛擬區結構（vm_area_struct）插入進程的虛擬地址區域鏈表或樹中。

（2）調用內核空間的系統調用函數 mmap（不同于用戶空間函數），實現文件物理地址和進程虛擬地址的一一映射關系。

為映射分配了新的虛擬地址區域后，通過待映射的文件指針，在文件描述符表中找到對應的文件描述符，通過文件描述符，鏈接到內核“已打開文件集”中該文件的文件結構體（struct file），每個文件結構體維護著和這個已打開文件相關各項信息。
通過該文件的文件結構體，鏈接到file_operations模塊，調用內核函數 mmap，其原型為 int mmap(struct file *filp, struct vm_area_struct *vma)，不同于用戶空間庫函數。
內核 mmap 函數通過虛擬文件系統 inode 模塊定位到文件磁盤物理地址。
通過 remap_pfn_range 函數建立頁表，即實現了文件地址和虛擬地址區域的映射關系。此時，這片虛擬地址并沒有任何數據關聯到主存中。

（3）進程發起對這片映射空間的訪問，引發缺頁異常，實現文件內容到物理內存的拷貝。

前兩個階段僅在于創建虛擬區間并完成地址映射，但是并沒有將任何文件數據的拷貝至主存。真正的文件讀取是當進程發起讀或寫操作時。

進程的讀或寫操作訪問虛擬地址空間這一段映射地址，通過查詢頁表，發現這一段地址并不在物理頁面上。因為目前只建立了地址映射，真正的硬盤數據還沒有拷貝到內存中，因此引發缺頁異常。
缺頁異常進行一系列判斷，確定無非法操作后，內核發起請求調頁過程。
調頁過程先在交換緩存空間（swap cache）中尋找需要訪問的內存頁，如果沒有則調用 nopage 函數把所缺的頁從磁盤載入主存。
之后進程即可對這片主存進行讀寫，如果寫操作改變了其內容，一定時間后系統會自動回寫臟頁面到對應磁盤地址，也即完成了寫入到文件的過程。

注：修改過的臟頁面并不會立即更新回文件中，而是有一段時間的延遲，可以調用 msync(2) 來強制同步，這樣所寫的內容就能立即保存到文件里了。

3.相關函數

創建映射函數：

#include <sys/mman.h>void *mmap(void *addr, size_t length, int prot, int flags, int fd, off_t offset);

成功執行時，mmap() 返回被映射區的指針。失敗時，mmap() 返回 MAP_FAILED，其值為 (void *)-1，errno 被設為以下的某個值：

EACCES	訪問出錯
EAGAIN	文件已被鎖定，或者太多的內存已被鎖定
EBADF	不是有效的文件描述詞
EINVAL	一個或者多個參數無效
ENFILE	已達到系統對打開文件的限制
ENODEV	指定文件所在的文件系統不支持內存映射
ENOMEM	內存不足，或者進程已超出最大內存映射數量
EPERM	權能不足，操作不允許
ETXTBSY	已寫的方式打開文件，同時指定MAP_DENYWRITE標志
SIGSEGV	試著向只讀區寫入
SIGBUS	試著訪問不屬于進程的內存區

入參 addr 表示要映射到的內存區域的起始地址，通常用 NULL，表示由內核指定該內存地址。

length 表示映射區的長度，單位字節。

prot 參數描述了映射所需的內存保護（并且不得與文件的打開模式沖突）。它是 PROT_NONE 或以下多個標志的按位或組合：

PROT_EXEC 頁面可以被執行
PROT_READ 頁面可以被讀取
PROT_WRITE 頁面可以被寫入
PROT_NONE 頁面不能被訪問

flags 指定映射對象的類型，映射選項和映射頁是否可以共享。它的值可以是一個或多個以下位的組合體：

MAP_FIXED //使用指定的映射起始地址，如果由start和len參數指定的內存區重疊于現存的映射空間，重疊部分將會被丟棄。如果指定的起始地址不可用，操作將會失敗。并且起始地址必須落在頁的邊界上。
MAP_SHARED //與其它所有映射這個對象的進程共享映射空間。對共享區的寫入，相當于輸出到文件。直到msync()或者munmap()被調用，文件實際上不會被更新。
MAP_PRIVATE //建立一個寫入時拷貝的私有映射。內存區域的寫入不會影響到原文件。這個標志和以上標志是互斥的，只能使用其中一個。
MAP_DENYWRITE //這個標志被忽略。
MAP_EXECUTABLE //同上
MAP_NORESERVE //不要為這個映射保留交換空間。當交換空間被保留，對映射區修改的可能會得到保證。當交換空間不被保留，同時內存不足，對映射區的修改會引起段違例信號。
MAP_LOCKED //鎖定映射區的頁面，從而防止頁面被交換出內存。
MAP_GROWSDOWN //用于堆棧，告訴內核VM系統，映射區可以向下擴展。
MAP_ANONYMOUS //匿名映射，映射區不與任何文件關聯。
MAP_ANON //MAP_ANONYMOUS 的別稱，不再被使用。
MAP_FILE //兼容標志，被忽略。
MAP_32BIT //將映射區放在進程地址空間的低2GB，MAP_FIXED指定時會被忽略。當前這個標志只在x86-64平臺上得到支持。
MAP_POPULATE //為文件映射通過預讀的方式準備好頁表。隨后對映射區的訪問不會被頁違例阻塞。
MAP_NONBLOCK //僅和MAP_POPULATE一起使用時才有意義。不執行預讀，只為已存在于內存中的頁面建立頁表入口。

fd 有效的文件描述詞。如果 MAP_ANONYMOUS 被設定，為了兼容問題，其值應為 -1。

offset 被映射對象內容的偏移。

解除映射函數：

#include <sys/mman.h>int munmap(void *addr, size_t length);

成功執行時，munmap()返回0。失敗時，munmap返回-1，errno 返回標志和 mmap 一致。

該調用在進程地址空間中解除一個映射關系，addr是調用mmap()時返回的地址，len是映射區的大小。

當映射關系解除后，對原來映射地址的訪問將導致段錯誤發生。

同步函數：

int msync(void *addr, size_t len, int flags)

一般說來，進程在映射空間的對共享內容的改變并不直接寫回到磁盤文件中，往往在調用 munmap() 后才執行該操作。

可以通過調用msync()實現磁盤上文件內容與共享內存區的內容一致。

4.mmap和常規文件操作的區別

我們首先簡單回顧一下常規文件系統操作（調用read/fread等類函數）中，函數的調用過程：

1.進程發起讀文件請求。

2.內核通過查找進程文件符表，定位到內核已打開文件集上的文件信息，從而找到此文件的 inode。

3.inode在address_space上查找要請求的文件頁是否已經緩存在頁緩存中。如果存在，則直接返回這片文件頁的內容。

4.如果不存在，則通過inode定位到文件磁盤地址，將數據從磁盤復制到頁緩存。之后再次發起讀頁面過程，進而將頁緩存中的數據發給用戶進程。

總結來說，常規文件操作為了提高讀寫效率和保護磁盤，使用了頁緩存機制。這樣造成讀文件時需要先將文件頁從磁盤拷貝到頁緩存中，由于頁緩存處在內核空間，不能被用戶進程直接尋址，所以還需要將頁緩存中數據頁再次拷貝到用戶空間內存。這樣，通過了兩次數據拷貝，才能完成進程對文件內容的獲取任務。寫操作也是一樣，待寫入的buffer在內核空間不能直接訪問，必須要先拷貝至內核空間內存，再寫回磁盤中（延遲寫回），也是需要兩次數據拷貝。

而使用 mmap 操作文件，創建新的虛擬內存區域和建立文件磁盤地址和虛擬內存區域映射這兩步，沒有任何文件拷貝操作。而之后訪問數據時發現內存中并無數據而發起的缺頁異常過程，可以通過已經建立好的映射關系，只使用一次數據拷貝，就從磁盤中將數據傳入內存的用戶空間中，供進程使用。

總而言之，常規文件操作需要從磁盤到頁緩存再到用戶主存的兩次數據拷貝。而 mmap 操作文件，只需要從磁盤到用戶主存的一次數據拷貝，效率更高。