使用 Python 實現 ETL 流程：從文本文件提取到數據處理的全面指南

文章大綱：

引言：什么是 ETL 以及其重要性

ETL（提取-轉換-加載）是數據處理領域中的核心概念，代表了從源數據到目標系統的三個關鍵步驟：**提取（Extract）**數據、**轉換（Transform）數據以符合業務需求，以及加載（Load）**數據到最終存儲位置。ETL 流程在數據集成、數據倉庫構建和業務分析中扮演著重要角色，它確保數據從分散、異構的來源被整理為統一、可用的形式，從而支持決策和洞察生成。在現代數據驅動的環境中，ETL 的高效實現直接影響企業的數據質量和運營效率。

本文將聚焦于使用 Python 這一強大且靈活的編程語言來實現 ETL 流程，特別關注從文本文件提取數據的技巧和實踐。無論是處理簡單的日志文件還是復雜的非結構化文本，Python 提供了豐富的工具和庫來應對挑戰。我們將從基礎的文本讀取開始，逐步深入到編碼問題、數據清洗和結構化解析，幫助讀者掌握構建高效 ETL 流程的關鍵技能。無論是數據分析師還是開發者，本文都將為你提供實用指導。

ETL 流程概述：提取、轉換與加載的三個階段

ETL 流程是數據處理的核心框架，包含三個關鍵階段：提取（Extract）、轉換（Transform）和加載（Load）。在提取階段，數據從各種來源（如文本文件、數據庫或 API）被讀取到處理環境中。這一階段的挑戰包括處理異構數據格式、確保數據完整性以及優化讀取效率，例如避免一次性加載大文件導致的內存問題。轉換階段是對提取的數據進行清洗、格式化或重組，以滿足目標系統的需求。這一過程可能涉及去除重復值、標準化文本、轉換數據類型或應用業務規則，旨在提高數據質量和一致性。加載階段則是將處理后的數據存儲到目標位置，如數據倉庫、數據庫或文件系統，需確保數據準確無誤地寫入，并考慮性能和存儲結構的優化。

每個階段在數據處理中都有獨特作用：提取決定了數據獲取的可靠性，轉換直接影響數據可用性，而加載則關乎數據最終的可訪問性。挑戰在于如何平衡效率與準確性，例如在轉換階段處理缺失值或異常值時需謹慎，以免引入偏差。通過 Python 實現 ETL 流程，可以利用其豐富的庫和靈活性應對這些挑戰，為數據分析和業務決策奠定堅實基礎。

文本文件讀取的基礎：提取階段的起點

在 ETL 流程的提取階段，讀取源數據是整個過程的起點，而文本文件作為常見的數據載體，廣泛應用于日志記錄、數據交換和存儲等領域。使用 Python 讀取文本文件非常簡單，但對于大規模數據或復雜文件，內存管理和讀取效率成為關鍵問題。Python 提供了多種方法來處理文本文件，既適用于小型文件，也能應對大文件挑戰。

最基本的方法是使用 open() 函數以只讀模式（'r'）打開文件，并通過 read() 方法一次性讀取全部內容。例如：

with open('example.txt', 'r') as file:content = file.read()print(content)

然而，對于大文件，這種一次性讀取的方式可能導致內存溢出，因為所有數據都會被加載到內存中。為了解決這一問題，逐行讀取是一個更高效的選擇。使用 for 循環或 readline() 方法，可以每次僅讀取一行數據，顯著降低內存占用：

with open('large_file.txt', 'r') as file:for line in file:print(line.strip())

這里的 strip() 方法用于去除每行末尾的換行符（\n），以便于后續處理。逐行讀取不僅節省內存，還允許在讀取過程中即時處理數據，非常適合 ETL 流程中的提取階段。此外，with 語句確保文件在操作完成后自動關閉，避免資源泄漏。

在處理大文件時，還需注意文件路徑的正確性以及異常處理。例如，若文件不存在，程序會拋出 FileNotFoundError，因此建議使用 try-except 結構來捕獲潛在錯誤：

try:with open('data.txt', 'r') as file:for line in file:print(line.strip())
except FileNotFoundError:print("文件未找到，請檢查路徑。")

通過上述方法，Python 為文本文件的讀取提供了靈活且高效的解決方案，為 ETL 流程的提取階段奠定了基礎。在后續處理中，如何應對編碼問題和文件結構差異將成為關注的重點，但掌握逐行讀取和異常處理是邁向更復雜數據提取的第一步。

文本編碼問題：ASCII、Unicode 和 UTF-8 的處理

在 ETL 流程的提取階段，文本編碼問題是不可忽視的挑戰。文本文件通常以特定編碼格式存儲，如 ASCII、Unicode 或 UTF-8，而不同編碼之間的差異可能導致數據讀取錯誤或亂碼。理解并正確處理編碼問題，是確保數據完整性和準確性的關鍵。

ASCII（American Standard Code for Information Interchange）是最早的編碼標準，使用 7 位二進制數表示 128 個字符，主要涵蓋英文字符和基本符號。雖然 ASCII 簡單且高效，但其局限性在于無法表示非英文字符，如中文、日文或其他語言的特殊符號。為了解決這一問題，Unicode 應運而生，它是一個通用的字符編碼標準，旨在覆蓋全球所有語言的字符。UTF-8 作為 Unicode 的實現方式之一，使用變長編碼（1 到 4 個字節）表示字符，既兼容 ASCII（單字節表示常用字符），又能表示復雜字符，是目前互聯網和數據存儲中最廣泛使用的編碼格式。相比之下，ASCII 的局限性在于字符集過小，而 UTF-8 的優勢在于其靈活性和兼容性，但處理復雜字符時可能增加存儲和計算開銷。

在 Python 中，讀取文本文件時需要指定正確的編碼，否則可能導致 UnicodeDecodeError。默認情況下，open() 函數會嘗試以系統默認編碼讀取文件，但這往往不適用于所有情況。通過指定 encoding 參數，可以明確文件編碼，例如：

with open('text.txt', 'r', encoding='utf-8') as file:content = file.read()print(content)

然而，即使指定了編碼，仍可能遇到編碼錯誤，例如文件中包含不支持的字符或編碼聲明與實際不符。為此，Python 提供了 errors 參數來處理錯誤，常見的選項包括 ignore（忽略錯誤字符）、replace（用占位符替換錯誤字符）和 strict（默認值，拋出異常）。以下示例展示了不同選項的效果：

# 忽略編碼錯誤
with open('text.txt', 'r', encoding='ascii', errors='ignore') as file:content = file.read()print("忽略錯誤：", content)# 替換編碼錯誤字符
with open('text.txt', 'r', encoding='ascii', errors='replace') as file:content = file.read()print("替換錯誤：", content)

使用 errors='ignore' 時，Python 會跳過無法解碼的字符，這可能導致數據丟失；而 errors='replace' 會用 � 符號替換錯誤字符，保留數據結構但丟失原始內容。開發者需根據具體場景選擇合適的處理方式，例如在數據分析中可能更傾向于記錄錯誤而不是忽略。

此外，檢測文件編碼也是一個實用技巧。Python 的第三方庫 chardet 可以幫助識別文件的實際編碼，避免手動嘗試多種編碼：

import chardetwith open('text.txt', 'rb') as file:raw_data = file.read()result = chardet.detect(raw_data)print("檢測到的編碼：", result['encoding'])

通過理解 ASCII、Unicode 和 UTF-8 的差異，并掌握 Python 中編碼處理的工具和參數，開發者可以在 ETL 流程的提取階段有效避免數據損壞或讀取失敗的問題。正確的編碼處理不僅是技術要求，也是確保數據質量的重要環節。

非結構化文本處理：挑戰與方法

非結構化文本，如小說、新聞文章或社交媒體內容，通常缺乏固定的格式或分隔符，這為 ETL 流程中的提取和轉換階段帶來了顯著挑戰。與結構化數據（如 CSV 文件）不同，非結構化文本的數據邊界不明確，內容可能包含噪聲（如無關符號或格式不一致），且邏輯單元（如段落或句子）的分割往往依賴上下文而非固定規則。這些特性使得直接解析和處理變得困難，容易導致數據丟失或誤解。

在處理非結構化文本時，一個常見的任務是根據邏輯單元分割文本，例如將小說按段落劃分。段落通常由空行分隔，但不同文件可能有不同的分隔方式（如多個空行或特定符號）。Python 提供了靈活的工具來應對這一挑戰，例如使用 split() 方法結合特定的分隔符來分割文本。以經典小說《白鯨記》（Moby-Dick）為例，假設其文本文件使用雙空行（\n\n）分隔段落，可以通過以下代碼實現分割：

with open('moby_dick.txt', 'r', encoding='utf-8') as file:text = file.read()paragraphs = text.split('\n\n')for i, para in enumerate(paragraphs[:3], 1):  # 僅顯示前三個段落print(f"段落 {i}: {para.strip()[:100]}...")  # 限制每個段落顯示前100個字符

在上述代碼中，split('\n\n') 將文本按雙空行分割為段落列表，strip() 方法去除每段開頭和結尾的空白字符，確保數據整潔。然而，這種方法存在局限性：如果文本的分隔規則不一致（如部分段落僅用單空行分隔），分割結果可能不準確。為此，可以結合正則表達式（re 模塊）進一步優化處理，匹配更復雜的分隔模式：

import rewith open('moby_dick.txt', 'r', encoding='utf-8') as file:text = file.read()paragraphs = re.split(r'\n\s*\n', text)  # 匹配一個或多個空行for i, para in enumerate(paragraphs[:3], 1):print(f"段落 {i}: {para.strip()[:100]}...")

使用 re.split(r'\n\s*\n', text) 可以處理空行中可能夾雜空格或制表符的情況，提高分割的魯棒性。此外，非結構化文本處理還需考慮其他挑戰，如去除無關內容（頁眉、頁腳或注釋）或處理特殊字符，這些通常需要在轉換階段進一步清洗。

非結構化文本的處理不僅是技術問題，也是數據理解問題。開發者需結合具體文本的特點設計分割和清洗邏輯，避免盲目應用通用方法。例如，《白鯨記》中可能包含對話引號或章節標題，這些內容是否需要單獨提取取決于 ETL 流程的目標。通過靈活運用 Python 的字符串方法和正則表達式，可以有效應對非結構化文本的復雜性，為后續數據分析或存儲奠定基礎。

文本數據規范化：為后續處理做準備

在 ETL 流程的轉換階段，文本數據規范化是確保數據一致性和可用性的重要步驟。未經處理的原始文本往往包含不一致的大小寫、冗余的標點符號或特殊字符，這些都可能影響后續分析或機器學習模型的準確性。規范化旨在將文本轉換為統一格式，減少噪聲，為進一步處理（如分詞、特征提取或存儲）奠定基礎。常見規范化操作包括統一大小寫、移除標點符號、處理多余空格以及標準化特殊字符。

Python 提供了多種內置方法來實現文本規范化，最基礎的操作是將文本轉換為小寫或大寫，以消除大小寫差異對文本匹配或比較的影響。例如，使用 lower() 方法可以將所有字符轉換為小寫：

text = "Hello, World! This Is A Test."
normalized_text = text.lower()
print(normalized_text)  # 輸出: hello, world! this is a test.

這一操作在處理用戶輸入或搜索功能時尤為重要，因為它確保“HELLO”和“hello”被視為相同內容。類似地，upper() 方法可用于轉換為大寫，具體選擇取決于應用場景。

另一個常見的規范化任務是移除標點符號和特殊字符，這些字符通常對文本分析無意義，但可能干擾分詞或模式匹配。Python 的 replace() 方法可以逐個替換特定字符，但對于大量不同字符，這種方式效率較低。例如：

text = "Hello, World! How are you?"
cleaned_text = text.replace(',', '').replace('!', '').replace('?', '')
print(cleaned_text)  # 輸出: Hello World How are you

更高效的方法是使用 translate() 方法結合 str.maketrans()，可以一次性移除或替換多個字符。以下示例展示了如何移除所有標點符號：

import stringtext = "Hello, World! How are you?"
# 創建一個映射表，將所有標點符號映射為空字符
translator = str.maketrans('', '', string.punctuation)
cleaned_text = text.translate(translator)
print(cleaned_text)  # 輸出: Hello World How are you

這里，string.punctuation 提供了所有常見標點符號的集合，translate() 方法通過映射表一次性處理所有匹配字符，性能遠優于多次調用 replace()。此外，translate() 還可用于更復雜的替換操作，例如將特定字符標準化（如將“é”替換為“e”），適用于處理多語言文本。

多余空格的處理也是規范化的一部分，文本中可能包含多個連續空格或制表符，使用 strip() 方法可以去除首尾空格，而正則表達式（re 模塊）可將多個空格替換為單個空格：

import retext = "Hello    World   !   How   are   you?"
cleaned_text = re.sub(r'\s+', ' ', text.strip())
print(cleaned_text)  # 輸出: Hello World ! How are you?

通過上述方法，文本數據規范化可以顯著提高數據質量，確保后續 ETL 階段（如加載到數據庫或用于分析）的一致性和可靠性。開發者應根據具體需求選擇合適的規范化策略，例如在情感分析中可能保留標點符號以捕捉語氣，而在關鍵詞提取中則需徹底移除無關字符。掌握 Python 的字符串處理工具和正則表達式，是實現高效文本規范化的關鍵。

結構化文本文件：分隔符文件的基礎

結構化文本文件是一種以固定格式組織數據的數據存儲方式，通常使用分隔符來區分不同的字段或記錄。相比于非結構化文本，結構化文本文件（如 CSV、TSV 或其他平面文件）具有清晰的字段邊界和記錄分隔，使得數據提取和解析更加簡單和可靠。這類文件廣泛應用于數據交換、日志存儲和簡單的數據庫替代場景，是 ETL 流程中常見的源數據格式。在提取階段，理解和處理分隔符文件的基礎知識至關重要。

分隔符是結構化文本文件的核心元素，用于分隔字段或列。常見的分隔符包括逗號（,，如 CSV 文件）、制表符（\t，如 TSV 文件）以及管道符（|）等。選擇分隔符通常取決于數據的特性和應用場景，例如逗號適用于簡單數據，但如果字段中本身包含逗號，則可能導致解析錯誤，此時制表符或管道符可能是更好的選擇。分隔符文件的每一行通常代表一條記錄，而每條記錄中的字段則由分隔符分隔，形成類似于表格的結構。例如，一個簡單的 CSV 文件可能如下：

name,age,city
Alice,25,New York
Bob,30,Los Angeles

在 Python 中，解析分隔符文件可以通過手動使用 split() 方法實現。split() 方法將字符串按指定分隔符分割為列表，非常適合處理簡單的結構化文本文件。以下是一個示例，展示如何讀取并解析一個逗號分隔的文本文件：

with open('data.csv', 'r', encoding='utf-8') as file:for line in file:fields = line.strip().split(',')print(fields)

在上述代碼中，strip() 方法用于去除每行末尾的換行符，split(',') 則將每行按逗號分割為字段列表。輸出可能是 ['Alice', '25', 'New York'] 這樣的列表，代表一條記錄的各個字段。然而，手動解析存在局限性：如果字段中本身包含分隔符（如 New York, NY 中的逗號），split() 會錯誤地將字段進一步分割，導致數據不完整。此外，字段中可能包含引號或換行符，這些復雜情況也難以通過簡單的 split() 處理。

因此，盡管 split() 方法適用于簡單的分隔符文件，但對于更復雜的數據，建議使用 Python 的標準庫模塊（如 csv）來處理。這些模塊能夠正確處理引號包圍的字段、嵌入的分隔符和其他邊界情況，確保數據解析的準確性。在 ETL 流程中，選擇合適的解析方法不僅影響提取階段的效率，還直接關系到后續轉換和加載階段的數據質量。掌握分隔符文件的基礎知識和手動解析方法，是進一步學習高級工具的前提。

使用 CSV 模塊處理分隔符文件：高效與可靠

在 ETL 流程的提取階段，處理結構化文本文件（如 CSV 文件）時，Python 的標準庫 csv 模塊是一個強大且可靠的工具。雖然手動使用 split() 方法可以解析簡單的分隔符文件，但它無法有效處理復雜情況，例如字段中嵌入了分隔符、包含引號的文本或換行符等邊界問題。csv 模塊專門為處理此類問題而設計，支持多種分隔符和格式選項，確保數據解析的準確性和效率，特別適合在 ETL 流程中處理大規模或格式復雜的數據文件。

csv 模塊提供了 csv.reader 對象，用于逐行讀取 CSV 文件并將其解析為字段列表。默認情況下，csv.reader 假設文件使用逗號作為分隔符，但可以通過參數自定義分隔符、引號字符等設置。以下是一個使用 csv.reader 解析 CSV 文件的基本示例：

import csvwith open('data.csv', 'r', encoding='utf-8') as file:reader = csv.reader(file)for row in reader:print(row)

假設 data.csv 文件內容如下：

name,age,city
Alice,25,"New York, NY"
Bob,30,"Los Angeles"

運行上述代碼，輸出將是：

['name', 'age', 'city']
['Alice', '25', 'New York, NY']
['Bob', '30', 'Los Angeles']

與手動使用 split(',') 相比，csv.reader 的優勢在于它能夠正確處理字段中嵌入的逗號（如 New York, NY），因為它會識別引號（"）包圍的字段并保留其中的內容完整性。此外，csv.reader 還可以處理字段中的換行符、引號轉義（如 "" 表示單個引號）等復雜情況，避免了手動解析可能導致的數據錯誤。

csv 模塊還支持自定義參數以適應不同格式的文件。例如，如果文件使用制表符（\t）作為分隔符，可以通過 delimiter 參數指定：

import csvwith open('data.tsv', 'r', encoding='utf-8') as file:reader = csv.reader(file, delimiter='\t')for row in reader:print(row)

其他常用參數包括 quotechar（指定引號字符，默認是 "）和 quoting（控制引號處理模式），這些參數使得 csv 模塊能夠靈活應對各種非標準 CSV 格式。此外，csv 模塊提供了 Sniffer 類，可以自動檢測文件的格式（如分隔符類型），減少手動配置的工作量：

import csvwith open('data.csv', 'r', encoding='utf-8') as file:sample = file.read(1024)  # 讀取文件前1024個字符用于檢測file.seek(0)  # 重置文件指針到開頭dialect = csv.Sniffer().sniff(sample)reader = csv.reader(file, dialect)for row in reader:print(row)

相比手動解析，csv 模塊不僅提高了代碼的可靠性和可維護性，還顯著降低了出錯風險。手動使用 split() 方法在面對復雜數據時需要編寫大量條件判斷邏輯，而 csv 模塊已經內置了對這些邊緣情況的處理。在 ETL 流程中，數據準確性至關重要，尤其是在提取階段，任何解析錯誤都可能影響后續的轉換和加載操作。因此，使用 csv 模塊是處理分隔符文件的推薦方式，特別是對于格式復雜或數據量較大的文件。

需要注意的是，csv 模塊在處理非常大的文件時可能會有性能開銷，因為它需要逐行解析并處理特殊字符。如果性能成為瓶頸，可以結合逐行讀取和批量處理策略，或者考慮其他工具如 pandas 庫來加速處理。但對于大多數 ETL 場景，csv 模塊提供的平衡性——易用性、準確性和靈活性——使其成為首選工具。通過掌握 csv.reader 的用法，開發者可以構建更健壯的數據提取流程，為后續轉換和加載階段奠定堅實基礎。

高級 CSV 處理：使用 DictReader 提升數據可讀性

在 ETL 流程中，處理 CSV 文件時，數據的可讀性和易用性是提升代碼質量的重要因素。雖然 csv.reader 能夠高效解析 CSV 文件并返回字段列表，但其輸出是以位置索引訪問數據的（例如 row[0] 表示第一列），這在字段較多或代碼復雜時容易導致錯誤，且不直觀。Python 的 csv 模塊提供了 DictReader 類，將 CSV 文件的每一行讀取為字典形式，允許開發者通過字段名而非索引訪問數據，從而顯著提高代碼的可讀性和維護性。

DictReader 的核心優勢在于它會自動將 CSV 文件的第一行（通常是表頭）作為字段名，并將后續每一行的數據映射為字典，鍵是表頭名稱，值是對應字段的內容。假設有一個 CSV 文件 data.csv，內容如下：

name,age,city
Alice,25,New York
Bob,30,Los Angeles

使用 DictReader 讀取該文件，可以通過以下代碼實現：

import csvwith open('data.csv', 'r', encoding='utf-8') as file:reader = csv.DictReader(file)for row in reader:print(f"姓名: {row['name']}, 年齡: {row['age']}, 城市: {row['city']}")

運行上述代碼，輸出將是：

姓名: Alice, 年齡: 25, 城市: New York
姓名: Bob, 年齡: 30, 城市: Los Angeles

通過 row['name'] 而非 row[0] 訪問數據，不僅使代碼更具可讀性，還降低了因字段順序變化導致的錯誤風險。例如，如果 CSV 文件的列順序在未來被調整，使用索引訪問的方式需要修改所有相關代碼，而 DictReader 則不受影響。此外，字典形式的輸出更符合人類思維習慣，特別在 ETL 流程中需要根據字段名進行數據轉換或驗證時，這種方式能顯著減少認知負擔。

DictReader 還支持自定義字段名，如果 CSV 文件沒有表頭行，或者表頭不適合直接使用，可以通過 fieldnames 參數手動指定字段名。例如：

import csvwith open('data_no_header.csv', 'r', encoding='utf-8') as file:reader = csv.DictReader(file, fieldnames=['姓名', '年齡', '城市'])for row in reader:print(f"姓名: {row['姓名']}, 年齡: {row['年齡']}, 城市: {row['城市']}")

這種靈活性使得 DictReader 適用于各種非標準 CSV 文件。此外，DictReader 繼承了 csv.reader 的所有優點，能夠正確處理復雜的 CSV 格式，如字段中嵌入的分隔符或引號，確保數據解析的準確性。

然而，DictReader 也存在一些潛在缺點，主要體現在性能開銷上。由于它需要為每一行構建字典對象，相比 csv.reader 返回的簡單列表，內存和計算成本略高。在處理非常大的 CSV 文件（例如數百萬行數據）時，這種開銷可能變得顯著。如果性能是首要考慮因素，可以選擇 csv.reader 并手動管理字段索引，或者結合批量處理策略減少內存占用。但對于大多數 ETL 場景，尤其是數據量適中或代碼可讀性優先的情況下，DictReader 提供的便利性遠超其性能成本。

在實際應用中，DictReader 特別適合需要頻繁訪問特定字段的場景，例如在轉換階段根據字段名進行數據清洗或格式化。通過將數據組織為字典形式，開發者可以輕松實現條件過濾或字段映射邏輯。例如，提取年齡大于 25 歲的人員信息：

import csvwith open('data.csv', 'r', encoding='utf-8') as file:reader = csv.DictReader(file)filtered_data = [row for row in reader if int(row['age']) > 25]for row in filtered_data:print(f"姓名: {row['name']}, 年齡: {row['age']}")

通過掌握 DictReader 的用法，開發者可以在 ETL 流程中構建更直觀、更健壯的數據處理邏輯。無論是數據分析還是數據集成，按字段名訪問數據的特性都能減少錯誤并提升效率，為后續的轉換和加載階段提供清晰的數據結構支持。

ETL 轉換與加載階段：數據清洗與存儲的初步探討

在 ETL 流程中，轉換（Transform）和加載（Load）階段是數據從原始狀態到最終可用形式的關鍵步驟。轉換階段專注于數據清洗和格式調整，以確保數據符合業務需求或目標系統的要求。數據清洗可能包括去除重復記錄、處理缺失值、標準化數據格式（如日期格式統一為 YYYY-MM-DD）以及糾正錯誤數據（如拼寫錯誤或異常值）。例如，在處理從文本文件提取的數據時，可能需要將文本字段中的多余空格移除，或將數值字符串轉換為整數或浮點數類型。這些操作可以通過 Python 的內置函數或第三方庫（如 pandas）實現，確保數據一致性和質量。此外，轉換階段還可能涉及數據聚合或派生字段的創建，例如從日期字段計算年齡或將多個字段拼接為一個完整地址。

加載階段則是將經過轉換的數據存儲到目標位置的過程，目標可以是文件系統、關系型數據庫（如 MySQL、PostgreSQL）、NoSQL 數據庫（如 MongoDB）或數據倉庫。加載過程需要考慮目標系統的結構和性能要求，例如在寫入數據庫時需確保數據符合表結構和約束條件（如主鍵唯一性）。Python 提供了豐富的庫來支持數據加載，例如 sqlite3 或 SQLAlchemy 可用于數據庫操作，而簡單的文件存儲則可以通過 write() 方法或 csv 模塊實現。加載階段的挑戰在于如何處理大規模數據寫入時的效率問題，以及如何在出錯時實現回滾或錯誤日志記錄，以避免數據丟失或損壞。

在實際應用中，轉換和加載階段往往緊密相關，開發者需根據具體場景設計流程。例如，將清洗后的數據存儲為 CSV 文件可能只需要幾行代碼：

import csvdata = [{"name": "Alice", "age": 25}, {"name": "Bob", "age": 30}]
with open('output.csv', 'w', encoding='utf-8', newline='') as file:writer = csv.DictWriter(file, fieldnames=["name", "age"])writer.writeheader()writer.writerows(data)