目錄
一、文件基礎認識
二、C語言操作文件的接口
1.> 和 >>
2.理解“當前路徑”
三、相關系統調用
1.open
2.文件描述符
3.一切皆文件
4.再次理解重定向
一、文件基礎認識
- 文件 = 內容 + 屬性。換句話說,如果在電腦上新建了一個空白文檔,它雖然沒有內容,但也是占據磁盤空間的。
- 想要修改一個文件的內容,比如用WPS這樣的軟件操作文件內容,本質上都需要CPU完成相關的指令,而CPU又只與內存交互,所以,打開文件的含義其實就是把文件加載到內存中。
- 在我們眼里,我們雙擊了一個文件就是打開了文件,但是在操作系統看來,并不是我們打開了文件,而是某一個正在運行的進程,文件是由進程打開的。
- 一個進程可以打開多個文件。
- 操作系統管理多個被打開文件,必然也會像操作系統管理多個進程一樣,利用面向對象和數據結構,因此,內核中必然定義了結構體來描述被打開的文件。
- 從操作系統管理文件的角度看,文件被區分為被打開的文件(在內存中)和沒有打開的文件(在磁盤中)。
二、C語言操作文件的接口
? ? ? ? fopen以"w"方法打開一個文件。
#include <stdio.h>
#include <stdlib.h>
int main()
{FILE* pf = fopen("aaa.txt","w");if(pf == NULL){perror("fopen:");return 1;}const char* str = "aaaaaaaaaaaaaaaaaaaaaa\n";fputs(str,pf);fclose(pf);return 0;
}
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ ./a.out
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
aaaaaaaaaaaaaaaaaaaaaa
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$
? ? ? ? 結果顯示,文件aaa.txt中已經寫入了一段字符串。修改源代碼,將寫入字符串的代碼刪除后,再執行編譯運行一次。
#include <stdio.h>
#include <stdlib.h>
int main()
{FILE* pf = fopen("aaa.txt","w");if(pf == NULL){perror("fopen:");return 1;}
// const char* str = "aaaaaaaaaaaaaaaaaaaaaa\n";
// fputs(str,pf);fclose(pf);return 0;
}
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
aaaaaaaaaaaaaaaaaaaaaa
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ gcc file.c
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ ./a.out
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$
? ? ? ? 結果表明,aaa.txt文件中的內容都消失了。原因在于fopen打開文件的方式"w",使用man手冊查看fopen打開文件方式的說明。
? ? ? ? "w"方式打開文件時,會先清空文件中的所有內容。如果想保留文件中原來的內容做寫入操作,就應該使用"a"的方式打開文件。
1.> 和 >>
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ echo aaaaaaaaaaaa > aaa.txt
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
aaaaaaaaaaaa
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ echo bbbbbbbbb > aaa.txt
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
bbbbbbbbb
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$
? ? ? ? 通過echo做重定向操作向aaa.txt文件中先后寫入兩次,最終效果并不是有兩段字符串,說明重定向操作符">"打開文件的方式本質上也是"w"的方式。(需要一提的是,echo重定向到文件中,本質上也要修改文件的內容,所以一定會打開文件)。
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ echo aaaaaaaaaaaaaaaa >> aaa.txt
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
aaaaaaaaaaaaaaaa
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ echo bbbbbbbbbbbbbbbb >> aaa.txt
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$ cat aaa.txt
aaaaaaaaaaaaaaaa
bbbbbbbbbbbbbbbb
utocoo@utocoo-virtual-machine:~/Desktop/linux/241121$
? ? ? ? 而追加重定向操作符" >> "先后向aaa.txt文件寫入兩次后,最終效果是兩段字符串都被保留了下來,說明 " >> "其實和"a"方式類似,是一種追加的形式。
2.理解“當前路徑”
? ? ? ? 在使用C接口操作文件的時候,經常會聽到說,“如果沒有這個文件,則在當前路徑下新建這個文件”,如何理解這個“當前路徑”?
? ? ? ? 最簡單直接的理解,就是我們當前程序的路徑。
//file.c
#include <stdio.h>
#include <stdlib.h>
int main()
{FILE* pf = fopen("aaa.txt","w");if(pf == NULL){perror("fopen:");return 1;}fclose(pf);return 0;
}
? ? ? ? 當前路徑就是file.c文件所在路徑,編譯運行前,該路徑下沒有aaa.txt文件,編譯運行后,該路徑下存在名為aaa.txt的文件。
utocoo@utocoo-virtual-machine:~/Desktop/linux/241122$ ll
總計 16
drwxrwxr-x 2 utocoo utocoo 4096 11月 22 12:22 ./
drwxrwxr-x 16 utocoo utocoo 4096 11月 22 12:19 ../
-rw-rw-r-- 1 utocoo utocoo 233 11月 22 12:19 file.c
-rw-rw-r-- 1 utocoo utocoo 64 11月 22 12:21 Makefile
utocoo@utocoo-virtual-machine:~/Desktop/linux/241122$ make
gcc -o file file.c
utocoo@utocoo-virtual-machine:~/Desktop/linux/241122$ ./file
utocoo@utocoo-virtual-machine:~/Desktop/linux/241122$ ll
總計 32
drwxrwxr-x 2 utocoo utocoo 4096 11月 22 12:23 ./
drwxrwxr-x 16 utocoo utocoo 4096 11月 22 12:19 ../
-rw-rw-r-- 1 utocoo utocoo 0 11月 22 12:23 aaa.txt
-rwxrwxr-x 1 utocoo utocoo 16048 11月 22 12:23 file*
-rw-rw-r-- 1 utocoo utocoo 233 11月 22 12:19 file.c
-rw-rw-r-- 1 utocoo utocoo 64 11月 22 12:21 Makefile
? ? ? ? ?在文件基礎認識部分,已經提到過,文件是由進程打開的,那么新建一個文件也是由進程完成,進程是如何知道在哪條路徑下新建一個文件呢。
? ? ? ? 在源代碼中打印出進程的PID,運行后,再在/proc路徑下找到對應進程的所在目錄。
while(1)
{printf("PID:%d\n",getpid());sleep(2);
}
PID:2930
PID:2930
PID:2930
PID:2930
PID:2930
PID:2930
PID:2930
? ? ? ? 當前路徑在進程的屬性中其實已經保存好了,是cwd這條信息。因此新建一個文件要被存放到哪里也是確定的。但是進程的工作路徑是可以修改的,雖然進程的前身是一個可執行程序,可執行程序的路徑是確定,但是當可執行程序被操作系統管理起來后變成進程,進程的工作路徑是可以通過chdir指令修改的,那么修改路徑后,再新建一個文件,這個文件的所在路徑不再是修改前的路徑了,而是修改后的路徑。
? ? ? ? 這就表明,所謂的當前路徑,其實是進程在運行的時候的工作路徑,這個路徑是由進程自己記錄的,就是那條cwd信息。
三、相關系統調用
? ? ? ? 系統默認打開三個流,stdin,stdout,stderr,這三個流對應的外設分別為鍵盤、顯示器、顯示器。而Linux管理外設,是以文件的方式,即必然存在系統調用system call。因此,C語言的fopen、fclose、fwrite等函數本質是調用了system call。
? ? ? ? 下面就來認識Linux下文件相關的system call。
1.open
?
- pathname就是路徑,傳參方法和C語言的fopen的參數差不多。
- flags類型為int,傳參的可選項如下所示
? ? ? ? 這些值都是C語言定義的宏,目的是為了實現,只定義一個函數,卻可以同時“傳兩個參數”。比如
#include <stdio.h> #define ONE 1 #define TWO (1<<1) #define THREE (1<<2) #define FOUR (1<<3) #define FIVE (1<<4)void Print(int flags) {if(flags & ONE)printf("1\n");if(flags & TWO)printf("2\n");if(flags & THREE)printf("3\n");if(flags & FOUR)printf("4\n");if(flags & FIVE)printf("5\n"); } int main() {Print(ONE);printf("-----------------\n");Print(TWO);printf("-----------------\n");Print(ONE|TWO);printf("-----------------\n");Print(ONE|FOUR|FIVE);return 0; }
? ? ? ? 如果使用兩個形參的open接口,一般是操作已經存在了的文件,比如bbb.txt文件必須存在,否則會報錯。
int main()
{int fd = open("bbb.txt",O_WRONLY);if(fd == -1){perror("open\n");return 1;}close(fd);return 0;
}

? ? ? ? ?用open接口實現fopen的"w"方式,文件如果不存在,則新建。而新建一個文件會有權限的初始化,一般普通用戶新建一個文件的權限是0666(-rw-rw-rw-),而普通用戶的權限掩碼umask為0002,實際權限等于初始化權限減去權限掩碼,即(-rw-rw-r--)
? ? ? ? mode即初始化權限碼,一般傳0666,只有flags帶O_CREAT時,mode傳參才有效。
? ? ? ? 一般新建一個文件,在open的第二個參數上,應該傳新建、可寫、寫入時清零,等同于fopen的"w"方式。
int main()
{int fd = open("bbb.txt",O_WRONLY|O_CREAT|O_TRUNC,0666);if(fd == -1){perror("open\n");return 1;}const char* msg = "this is open to w\n";write(fd,msg,strlen(msg));close(fd);return 0;
}
? ? ? ? 原來不存在的文件bbb.txt被創建了出來,并且o的權限少了w,符合預期。
2.文件描述符
????????再來理解open的返回值——文件描述符(int fd)——Linux用整型值描述被打開的文件。
? ? ? ? 這些整型值其實是數組下標,我們知道系統默認打開三個流,其實是三個文件,stdin、stdout、stderr,它們的下標對應為0、1、2,如果先后有序的打開1.txt、2.txt、3.txt,則它們的下標也是有序的為3、4、5。
? ? ? ? 這段話似乎讓你很懵,不過我馬上就要闡述具體的內容。
? ? ? ? 在此之前,要明確,操作文件只能由操作系統來做,因此有C語言的fopen封裝open接口,有C語言定義的FILE指針的流封裝文件描述符fd。
? ? ? ? 實際上,FILE類型是結構體類型,也是封裝了文件描述符int fd。
? ? ? ? ?對int fd的理解。
? ? ? ? 文件描述符的本質,就是數組下標。
- OS管理進程,這一板塊叫做進程管理,有PCB,Linux下被定義為task_struct。
- OS管理文件,這一板塊叫做文件管理,在之前介紹了,文件區分為內存中的文件和磁盤中的文件,被加載到內存中的文件,OS要對它們做管理,就必然做“面向對象”和“數據結構”的工作,“面向對象”就是定義結構體,“數據結構”就是把對象存儲到鏈表或者其他數據結構里面。Linux下把這個結構體類型定義為file,結構體內容大致有屬性、方法集、緩沖區、mode(權限碼)、flag、pos以及指向下一個結點的next等。
- 進程管理和文件管理是兩個獨立的板塊,但是又有關聯。進程可以打開多個文件,那么一個進程打開了哪些文件,該進程必然要做記錄。于是Linux下,task_struct結構體中有一個結構體指針,指向的結構體類型為files_struct,而這個結構體中,有一個數組,數組的每個元素類型為結構體指針,指針指向的結構體類型為file,這個數組被稱為文件描述符表。
? ? ? ? 一個進程打開文件后,進程在這個數組中保存指向這個文件的指針,默認這個數組的前三個位置已經被stdin、stdout、stderr這三個文件占用了。?
? ? ? ? 而數組下標,就是文件描述符,為什么close、write等這些接口都用int類型的文件描述符來操作文件,原因很簡單,數組下標式訪問,僅僅是O(1)復雜度。
3.一切皆文件
? ? ? ? 硬件一層,由于各種原因,設備的操作方法各不相同,因此每臺計算機都需要裝載相應的驅動。而對于每臺設備的操作函數,它們的函數類型相同,函數內容各不相同。
? ? ? ? file結構體定義了方法集,本質就是函數指針。
- 每一臺設備被視為一個結構體,方法集指向了該設備的操作方法。
- 當系統調用read讀取某個外設的內容,實際上就是函數回調的形式,用函數指針調用外設的讀函數。
4.再次理解重定向
? ? ? ? 文件描述符的分配規則:一定會把最小的數組下標利用起來,如果存在沒有被利用的較小下標,則會分配給最新打開的文件,比如打開b文件前,將已經打開的a文件關閉,則打開b文件后,a文件的較小fd會分配給b文件。
? ? ? ? 上面這段話,其實就是重定向的實現原理。
? ? ? ? 輸出重定向:本該輸出到屏幕的語句卻輸出到了bbb.txt。?
int main()
{close(1);int fd = open("bbb.txt",O_WRONLY);printf("這段話本該輸出到屏幕\n");return 0;
}
? ? ? ? 原因就是在執行完close(1)語句后,當前進程的文件描述符表中數組下標為1的位置不再是指向屏幕文件的指針,而又打開了bbb.txt文件,則1號下標的指針指向了bbb.txt文件,printf底層封裝的write傳參的fd值還是1,因此,這句字符串被寫進了1位置指向的bbb.txt文件的緩沖區。
? ? ? ? 所以,重定向的本質,就是文件指針在文件描述符表中的位置發生了變化,文件描述符表是一個數組,即數組下標發生了改變,比如原來4號下標指向A.txt文件,通過重定向讓1號下標指向了A.txt,這樣一來,上層向顯示器打印的內容其實都被輸出到了A.txt。
?????????有一個專門用來拷貝文件描述符的系統調用——dup
? ? ? ? ?想把打印到屏幕的內容重定向到bbb.txt,可以用dup2來實現。
? ? ? ? 大致意思是用oldfd的值覆蓋到newfd。
int main()
{int fd = open("bbb.txt",O_WRONLY);dup2(fd,1);printf("----\n");return 0;
}