Python 列表推導式與生成器表達式

在 Python 中，列表推導式（List Comprehension）和生成器表達式（Generator Expression）是處理序列數據的高效工具。它們不僅能簡化代碼，還能提升數據處理的效率。本文將詳細介紹這兩種表達式的語法、特性、區別及適用場景，并通過豐富的實例幫助你掌握它們的使用技巧。

一、列表推導式：簡潔高效的列表創建

列表推導式是 Python 中創建列表的一種簡潔語法，它將循環、條件判斷等邏輯濃縮成一行代碼，既直觀又高效。

1. 基本語法

?# 基本格式
[表達式 for 變量 in 可迭代對象]# 帶條件判斷的格式
[表達式 for 變量 in 可迭代對象 if 條件]

示例 1：創建簡單列表

?# 傳統方式：使用for循環創建列表
squares = []
for i in range(10):squares.append(i **2)
print(squares)  # [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]# 列表推導式：一行代碼完成
squares = [i** 2 for i in range(10)]
print(squares)  # 結果同上

示例 2：帶條件過濾的列表推導式

?# 篩選偶數的平方
even_squares = [i **2 for i in range(10) if i % 2 == 0]
print(even_squares)  # [0, 4, 16, 36, 64]# 字符串處理：提取單詞首字母大寫
words = ["apple", "banana", "cherry", "date"]
capitalized = [word.capitalize() for word in words if len(word) > 5]
print(capitalized)  # ['Banana', 'Cherry']

2. 嵌套列表推導式

列表推導式支持嵌套，可用于處理二維數據結構（如矩陣）：

?# 二維列表（矩陣）
matrix = [[1, 2, 3],[4, 5, 6],[7, 8, 9]
]# 提取矩陣對角線元素
diagonal = [matrix[i][i] for i in range(len(matrix))]
print(diagonal)  # [1, 5, 9]# 矩陣轉置（行變列）
transposed = [[row[i] for row in matrix] for i in range(3)]
print(transposed)  # [[1, 4, 7], [2, 5, 8], [3, 6, 9]]# 扁平化矩陣（二維轉一維）
flattened = [num for row in matrix for num in row]
print(flattened)  # [1, 2, 3, 4, 5, 6, 7, 8, 9]

3. 列表推導式的優勢

簡潔性：將多行循環邏輯壓縮為一行，代碼更緊湊
可讀性：符合 “聲明式編程” 風格，直接表達 “要什么” 而非 “怎么做”
性能：通常比等效的for循環 +append()更快（內部優化）
功能性：結合條件判斷可實現復雜過濾邏輯

4. 常見誤區與最佳實踐

避免過度復雜：嵌套層級不宜過多（建議不超過 2 層），否則可讀性下降

?# 不推薦：過于復雜的嵌套
complex = [x for x in [y for y in range(20) if y % 2 == 0] if x % 4 == 0]# 推薦：拆分邏輯
even_numbers = [y for y in range(20) if y % 2 == 0]
divisible_by_4 = [x for x in even_numbers if x % 4 == 0]

注意變量泄漏：Python 3 中列表推導式的變量不會泄漏到外部作用域

?x = 10
[x for x in range(5)]
print(x)  # 輸出10（變量x未被修改）

二、生成器表達式：惰性計算的內存優化方案

生成器表達式是一種創建生成器（Generator）的簡潔語法，它與列表推導式類似，但采用惰性計算（Lazy Evaluation）策略，更適合處理大數據集。

1. 基本語法

?# 基本格式（注意使用圓括號）
(表達式 for 變量 in 可迭代對象)# 帶條件判斷的格式
(表達式 for 變量 in 可迭代對象 if 條件)

示例 1：創建生成器

?# 生成器表達式（圓括號可省略，視上下文而定）
squares_gen = (i **2 for i in range(10))
print(squares_gen)  # <generator object <genexpr> at 0x...># 遍歷生成器（每次迭代才計算下一個值）
for num in squares_gen:print(num, end=" ")  # 0 1 4 9 16 25 36 49 64 81

示例 2：與列表推導式的直觀對比

?# 列表推導式：立即生成所有元素并占用內存
list_comp = [i** 2 for i in range(1000000)]
print(type(list_comp))  # <class 'list'>
print(len(list_comp))   # 1000000（已全部生成）# 生成器表達式：僅在迭代時生成元素，內存占用極低
gen_expr = (i **2 for i in range(1000000))
print(type(gen_expr))   # <class 'generator'>
# print(len(gen_expr))  # 報錯：生成器沒有長度（元素未生成）

2. 核心特性：惰性計算

生成器表達式的核心優勢在于惰性計算：

元素僅在被請求時（如next()調用或for循環迭代）才會計算
計算后的值不會被存儲，迭代結束后無法重新訪問（一次性使用）
內存占用固定（與數據規模無關），適合處理超大數據集或無限序列

?# 處理無限序列（列表推導式會直接崩潰）
def infinite_numbers():n = 0while True:yield nn += 1# 生成器表達式篩選偶數
even_infinite = (x for x in infinite_numbers() if x % 2 == 0)# 安全獲取前5個偶數（不會耗盡內存）
for _ in range(5):print(next(even_infinite), end=" ")  # 0 2 4 6 8

3. 適用場景

大數據處理：當數據量超過內存限制時，生成器表達式可逐批處理

?# 處理大文件（無需一次性加載全部內容）
def process_large_file(file_path):with open(file_path, "r") as f:# 生成器表達式逐行處理lines = (line.strip() for line in f)non_empty = (line for line in lines if line)  # 過濾空行for line in non_empty:# 處理邏輯（如數據分析、格式轉換）pass

鏈式處理：與其他迭代器函數（如map、filter）配合，實現流式處理

?# 生成器流水線
numbers = range(100)
squares = (x** 2 for x in numbers)
even_squares = (x for x in squares if x % 2 == 0)
sum_even = sum(even_squares)  # 按需計算，中間結果不存儲

節省內存：替代列表推導式處理臨時數據（如僅需迭代一次的場景）

?# 計算1到100萬的和（生成器表達式內存占用遠低于列表）
total = sum(i for i in range(1000001))

4. 生成器表達式 vs 列表推導式：關鍵區別

特性	列表推導式	生成器表達式
語法標識	方括號?`[]`	圓括號?`()`（可省略）
返回類型	列表?`list`	生成器?`generator`
計算方式	立即計算所有元素（貪婪計算）	按需計算（惰性計算）
內存占用	與數據規模成正比	固定（極低）
可迭代次數	多次（元素已存儲）	一次（元素計算后即丟棄）
支持的操作	所有列表方法（`len`、`index`等）	僅迭代操作（`next`、`for`循環）
適用場景	小數據、需多次訪問、隨機訪問	大數據、單次迭代、內存受限場景

性能對比實驗：

?import memory_profiler
import time@memory_profiler.profile
def list_comprehension():return [i **2 for i in range(10** 7)]  # 1000萬元素@memory_profiler.profile
def generator_expression():return sum(i **2 for i in range(10** 7))  # 同樣1000萬元素# 測試內存占用（列表推導式約占用380MB，生成器表達式約占用0.1MB）
list_comprehension()
generator_expression()# 測試時間（列表推導式耗時更長，因需先創建完整列表）
start = time.time()
list_comprehension()
print(f"列表推導式耗時：{time.time() - start:.2f}s")start = time.time()
generator_expression()
print(f"生成器表達式耗時：{time.time() - start:.2f}s")

三、實戰應用：列表推導式與生成器表達式的協同使用

在實際開發中，兩種表達式并非互斥關系，而是根據場景靈活選擇：

1. 數據轉換與過濾流水線

?# 1. 原始數據（可能很大）
data = range(1, 1000001)  # 1到100萬# 2. 生成器表達式：篩選偶數（惰性計算）
even_numbers = (x for x in data if x % 2 == 0)# 3. 生成器表達式：計算平方（繼續惰性計算）
even_squares = (x **2 for x in even_numbers)# 4. 列表推導式：取前100個結果（轉為列表便于后續復用）
first_100 = [next(even_squares) for _ in range(100)]print(first_100[:5])  # [4, 16, 36, 64, 100]

2. 文本處理場景

?def process_text(file_path):# 生成器表達式：逐行讀取并預處理with open(file_path, "r", encoding="utf-8") as f:lines = (line.strip() for line in f)non_empty = (line for line in lines if line)words = (word.lower() for line in non_empty for word in line.split())# 列表推導式：取前100個單詞（小數據集）sample_words = [next(words) for _ in range(100)]print("樣本單詞：", sample_words[:10])# 生成器表達式：統計詞頻（大數據集）from collections import defaultdictfreq = defaultdict(int)for word in words:freq[word] += 1# 列表推導式：排序并返回前10高頻詞return sorted(freq.items(), key=lambda x: x[1], reverse=True)[:10]

3. 函數參數中的應用

許多內置函數（sum、max、min、any、all等）接受可迭代對象作為參數，此時生成器表達式是更優選擇：

?# 計算1到100的和（生成器表達式更省內存）
total = sum(i for i in range(1, 101))# 檢查是否存在偶數（短路求值，找到第一個即停止）
has_even = any(i % 2 == 0 for i in [1, 3, 5, 7, 8, 9])# 找出最大平方數
max_square = max(x **2 for x in range(1, 10))