頁高速緩存和頁回寫
- 1 頁高速緩存
- 2 基樹
- 3 緩沖區高速緩存
- 4 pdflush后臺例程
- 膝上型電腦模式
- bdflush和kupdated
- 避免擁塞的方法:使用多線程
頁高速緩存(cache)是Linux內核實現的一種主要磁盤緩存,通過把磁盤中的數據緩存到物理內存中,把對磁盤的訪問變成對物理內存的訪問,主要用來減少對磁盤的I/O操作。它由RAM中的物理頁組成,緩存中每一項對應著磁盤中的多個塊,每當內核開始執行一個頁I/O操作時,首先會檢查需要的數據是否在高速緩存中,如果在,那么內核就直接使用高速緩存中的數據,從而避免訪問磁盤。
高速緩存的價值在于兩個方面:第一,訪問磁盤的速度要遠遠低于訪問內存的速度,因為,在內存訪問數據比從磁盤訪問速度更快。第二,數據一旦被訪問,就很有可能在短期內再次被訪問到。如果在第一次訪問數據時緩存它,那就極有可能在短期內再次被高速緩存命中。
1 頁高速緩存
頁高速緩存緩存的是頁。Linux頁高速緩存的目標是緩存任何基于頁的對象,這包含各種類型的文件和各種類型的內存映射。為了滿足普遍性的要求,Linux頁高速緩存使用address_space結構體描述頁高速緩存中的頁面。該結構體定義在文件linux/fs.h中。
struct address_space {struct inode *host; /* owner: inode, block_device */struct radix_tree_root page_tree; /* radix tree of all pages */spinlock_t tree_lock; /* and spinlock protecting it */unsigned int i_mmap_writable;/* count VM_SHARED mappings */struct prio_tree_root i_mmap; /* tree of private and shared mappings */struct list_head i_mmap_nonlinear;/*list VM_NONLINEAR mappings */spinlock_t i_mmap_lock; /* protect tree, count, list */atomic_t truncate_count; /* Cover race condition with truncate */unsigned long nrpages; /* number of total pages */pgoff_t writeback_index;/* writeback starts here */struct address_space_operations *a_ops; /* methods */unsigned long flags; /* error bits/gfp mask */struct backing_dev_info *backing_dev_info; /* device readahead, etc */spinlock_t private_lock; /* for use by the address_space */struct list_head private_list; /* ditto */struct address_space *assoc_mapping; /* ditto */
} __attribute__((aligned(sizeof(long))));
i_mmap字段是一個優先搜索樹,它的搜索范圍包含了在address_space中所有共享的與私有的映射頁面。優先搜索樹是一種將堆與radix樹結合的快速檢索樹。address space空間大小由nrpages字段描述,表示共有多少頁。
address_space結構往往會和某些內核對象關聯,通常情況下會與一個索引節點關聯,這時host域就會指向該索引節點,如果關聯對象不是一個索引節點的話,host就被設置為NULL。
a_ops域指向地址空間對象中的操作函數表,操作函數表定義在linux/fs.h文件中,由address_space_operations結構體表示:
struct address_space_operations {int (*writepage)(struct page *page, struct writeback_control *wbc);int (*readpage)(struct file *, struct page *);int (*sync_page)(struct page *);/* Write back some dirty pages from this mapping. */int (*writepages)(struct address_space *, struct writeback_control *);/* Set a page dirty */int (*set_page_dirty)(struct page *page);int (*readpages)(struct file *filp, struct address_space *mapping,struct list_head *pages, unsigned nr_pages);/** ext3 requires that a successful prepare_write() call be followed* by a commit_write() call - they must be balanced*/int (*prepare_write)(struct file *, struct page *, unsigned, unsigned);int (*commit_write)(struct file *, struct page *, unsigned, unsigned);/* Unfortunately this kludge is needed for FIBMAP. Don't use it */sector_t (*bmap)(struct address_space *, sector_t);int (*invalidatepage) (struct page *, unsigned long);int (*releasepage) (struct page *, int);ssize_t (*direct_IO)(int, struct kiocb *, const struct iovec *iov,loff_t offset, unsigned long nr_segs);
};
2 基樹
每個address_space對象都有唯一的基樹(radix tree),它保存在page_tree結構體中。基樹是一個二叉樹,只要指定了文件偏移量,就可以在基樹中迅速檢索到希望的數據,頁高速緩存的搜索函數find_get_page()要調用函數radix_tree_loopup(),該函數會在指定基樹中搜索指定頁面。
基樹核心代碼的通用形式可以在文件lib/radix-tree.c中找到,要想使用基樹,需要包含頭文件linux/radix_tree.h
3 緩沖區高速緩存
現在的Linux系統中已經不再有獨立的緩沖區高速緩存了。但在2.2版本的內核中,存在兩個獨立的磁盤緩存:頁高速緩存和緩沖區高速緩存。前者緩存頁,后者緩存緩沖。兩種緩存并不同一:一個磁盤塊可以在兩種緩存中同時存在,因此需要對緩存中的同一拷貝進行很麻煩的同步操作。
在2.4版本的內核開始,統一了這兩種緩存,現在Linux只有唯一的頁高速緩存。
4 pdflush后臺例程
由于頁高速緩存的緩存作用,寫操作實際上會被延遲,當頁高速緩存中的數據比磁盤存儲的數據更新時,這時候頁高速緩存中的數據被稱為臟數據,臟數據所在的頁被稱為臟頁,這些臟頁最終必須被寫回磁盤。在以下兩種情況發送時,臟頁被寫回磁盤:
- 當空閑內存低于一個特定的閾值時,內核必須將臟頁寫回磁盤,以便釋放內存。
- 當臟頁在內存中駐留時間超過一個特定的閾值時,內核必須將超時的臟頁寫回磁盤,以確保臟頁不會無限期地駐留在內存中。
上面兩種工作的目的完全不同。在老內核中,這是由兩個獨立的內核線程分別完成(bdflush和kupdated兩個線程)的,但是在2.6內核中,由一群內核線程,pdflush后臺回寫線程同一執行兩種工作。首先,pdflush線程在系統中的空閑內存低于一個特定的閾值時,將臟頁刷新回磁盤。此目的是在可用物理內存過低時,釋放臟頁以重新獲得內存。特定的內存閾值可以通過dirty_backgriud_radio sysctl系統調用設置。當空閑內存比閾值dirty_background_ratio低時,內核便會調用wakeup_bdflush()喚醒一個pdflush線程。隨后pdflush線程進一步調用函數background_writeout()開始將臟頁回寫磁盤。函數background_writeout()需要一個長整型參數,該參數指定試圖寫回的頁面數目。函數background_writeout會連續寫出數據,直到滿足以下兩個條件:
- 已經有指定的最小數目的頁被寫出到磁盤
- 空閑內存數已經回升,超過了閾值dirty_background_ratio
上述條件確保了pdflush操作可以減輕系統中內存不足的壓力,回寫操作不會在達到這兩個條件前停止,除非pdflush寫回了所有的臟頁,沒有剩下的臟頁可以寫回了。
為了滿足第二個目標,pdflush后臺例程會被周期性喚醒,將那些在內存駐留時間過長的臟頁寫出,確保內存中不會有長期存在的臟頁。在系統啟動時,內核初始化一個定時器,讓它周期地喚醒pdflush線程,隨后使其運行函數wb_kupdate()。該函數將把所有駐留時間超過百分之drity_expire_centisece秒的臟頁寫回。然后定時器將再次被初始化為百分之drity_expire_centisece秒后喚醒pdflush線程。
pdflush線程的實現代碼在文件mm/pdflush.c中,回寫機制的實現代碼在文件mm/page-writebacke.c和fs/fs-writeback.c中。
膝上型電腦模式
膝上型電腦模式是一種特殊的頁回寫策略,該策略主要目的是將磁盤轉動的機械行為最小化,允許磁盤盡可能長時間停滯,以此延長電池供電時間。該模式可通過/proc/sys/vm/laptop_mode文件進行配置,通常,該文件內容為0,膝上電腦模式關閉,如果需要啟動,則向配置文件寫入1.
bdflush和kupdated
在2.6內核版本前,pdflush線程的工作是分別由bdflush和kupdated兩個線程共同完成。當可用內存過低時,bdflush內核線程在后臺執行臟頁回寫操作,與pdflush一樣,它也有一組閾值參數,當系統中空閑內存消耗到特定內存閾值以下時,bdflush線程就被wakeup_bdflush函數喚醒。
bdflush和pdflush之間主要有兩個區別。第一個是系統中只有一個bdflush線程,而pdflush線程的數目可以動態改變;第二個是bdflush線程基于緩沖,它將臟緩沖寫回磁盤,pdflush基于頁,它將整個臟頁寫回磁盤。
因為只有在內存過低和緩沖數量過大時,bdflush才刷新緩沖,所以kupdate線程被引入,以便周期性地寫回臟頁。
bdflush和kupdate內核線程現在完全被pdflush線程取代了。
避免擁塞的方法:使用多線程
bdflush僅僅只有一個線程,因此很有可能在頁回寫任務很重時,造成阻塞,這是因為單一的線程很可能堵塞在某個設備的已阻塞請求隊列上,而其他設備的請求隊列卻沒法得到處理。
2.6內核通過使用多個pdflush線程來解決上述問題。每個線程可以相互獨立地將臟頁刷新回磁盤,而且不同的pdflush線程處理不同的設備隊列。
通過一個簡單的算法,pdflush線程的數目可以根據系統的運行時間進行調整,如果所有已存在的pdflush線程都已經持續工作1秒以上,內核就會創建一個新的pdflush線程。線程數量最多不能超過MAX_PDFLUSH_THREADS,默認值是8.如果一個pdflush線程睡眠超過1秒,內核就會終止該線程,線程的數量最少不得小于MIN_PDFLUSH_THREADS,默認值是2.pdflush線程數量取決于頁回寫的數量和阻塞情況,動態調整。
這種方式看起來很理想,但是如果每一個pdflush線程都掛起在同一個阻塞的隊列上會怎么樣?在這種情況下,多個pdflush線程的性能并不會比單個線程提高多少,反而會造成嚴重的內存浪費。為了克服這種負面影響,pdflush線程利用阻塞避免策略,它們會積極地試圖寫回那些不屬于阻塞隊列的頁面。這樣一來,pdflush通過分派回寫工作,阻止多個線程在同一個忙設備糾纏。所以pdflush線程很忙,此時會有一個新的pdflush線程被創建,它們才是真正的繁忙。