1、元組(有序 不可變 可重復)
管道工程中pipeline類接收的是一個包含多個小元組的列表作為輸入。可以這樣理解這個結構:
(1) 列表 []: 定義了步驟執行的先后順序。Pipeline 會按照列表中的順序依次處理數據。之所以用列表,是未來可以對這個列表進行修改。
(2)元組 (): 用于將每個步驟的名稱和處理對象捆綁在一起。名稱用于在后續訪問或設置參數時引用該步驟,而對象則是實際執行數據轉換或模型訓練的工具。固定了操作名+操作
不用字典因為字典是無序的。
2、可迭代對象
可迭代對象 (Iterable) 是 Python 中一個非常核心的概念。簡單來說,一個可迭代對象就是指那些能夠一次返回其成員(元素)的對象,可以在一個循環(比如 for 循環)中遍歷它們。
Python 中有很多內置的可迭代對象,目前我們見過的類型包括:
序列類型 (Sequence Types):list(列表)、tuple(元組)、str(字符串)、range(范圍)
集合類型 (Set Types):set(集合)
字典類型 (Mapping Types):dict(字典) - 迭代時返回鍵 (keys)
文件對象(File objects)
生成器(Generators)
迭代器(Iterators) 本身
3、os模塊
os.chdir('D:\python_learning') # 切換工作目錄到指定路徑
os.getcwd() # 再次查看當前工作目錄,確認已切換
目錄樹
os.walk() 是 Python os 模塊中一個非常有用的函數,它用于遍歷(或稱“行走”)一個目錄樹。
核心功能:
os.walk(top, topdown=True, οnerrοr=None, followlinks=False) 會為一個目錄樹生成文件名。對于樹中的每個目錄(包括 top 目錄本身),它會 yield(產生)一個包含三個元素的元組 (tuple):
深度優先搜索(DFS):
os.walk() 函數默認使用深度優先搜索(DFS)的方式遍歷目錄樹。這意味著它會先遍歷目錄的子目錄,然后再遍歷子目錄的子目錄,以此類推。
yield 關鍵字:
(dirpath, dirnames, filenames)
dirpath: 一個字符串,表示當前正在訪問的目錄的路徑。
dirnames: 一個列表(list),包含了 dirpath 目錄下所有子目錄的名稱(不包括 . 和 ..)。
filenames: 一個列表(list),包含了 dirpath 目錄下所有非目錄文件的名稱。
@浙大疏錦行