迭代器與生成器：Python 中的高效數據遍歷機制

一、迭代器和生成器的基本概念

1. 迭代器的定義和工作原理

（1）迭代器的概念

迭代器（Iterator） 是 Python 中一種支持逐個訪問元素的對象，它遵循 迭代器協議（Iterator Protocol），即實現了兩個特殊方法：

__iter__()：返回迭代器對象本身。
__next__()：返回容器中的下一個元素；當沒有更多元素時，拋出 StopIteration 異常。

迭代器提供了一種統一的方式來遍歷各種可迭代對象（如列表、元組、字典、集合、文件等），而無需關心其內部結構。它實現了“用同一種方式遍歷不同數據結構”的設計思想。

注意：range() 并不是一個迭代器，而是一個 可迭代對象（iterable）。調用 iter(range(5)) 才會得到一個迭代器。

（2）迭代器的特點

單向遍歷：只能向前移動，不能回退或重置（除非重新創建）。
狀態保持：迭代器自身維護當前遍歷位置的狀態。
惰性求值：許多迭代器采用惰性計算策略，按需生成數據，節省內存。
一次性使用：一旦遍歷完成（觸發 StopIteration），該迭代器通常無法再次使用（除非是特殊設計的可重置迭代器）。

（3）迭代器的使用方式

使用 for 循環自動調用 __iter__() 和 __next__()
手動使用 next(iterator) 獲取下一個元素

my_list = [1, 2, 3]
it = iter(my_list)
print(next(it))  # 1
print(next(it))  # 2
print(next(it))  # 3
# print(next(it))  # StopIteration

（4）迭代器的優勢

內存效率高：不一次性加載所有數據到內存。
適用于大數據流：如讀取大文件、網絡流、傳感器數據等。
統一接口：為不同數據結構提供一致的遍歷方式。

2. 生成器的定義和特點

生成器（Generator） 是一種特殊的迭代器，由生成器函數或生成器表達式創建。它自動實現了 __iter__() 和 __next__() 方法，并能“記住”函數執行的狀態。

（1）生成器的核心機制：`yield`

yield 關鍵字使函數暫停并返回一個值，下次調用 next() 時從暫停處繼續執行。
與 return 不同，yield 不終止函數，而是“掛起”函數狀態。

def count_up_to(n):i = 1while i <= n:yield ii += 1gen = count_up_to(3)
print(list(gen))  # [1, 2, 3]

（2）生成器的特點

自動實現迭代器協議：無需手動編寫 __iter__ 和 __next__。
惰性計算：按需生成值，極大節省內存。
狀態保存：函數局部變量在 yield 后仍保留。
簡潔語法：代碼更清晰，易于編寫復雜迭代邏輯。

3. 迭代器與生成器的區別與聯系

特性	迭代器	生成器
創建方式	實現 `__iter__` 和 `__next__` 類	使用 `yield` 函數或 `(expr)` 表達式
編寫復雜度	較高，需手動管理狀態	簡單，函數式風格
內存占用	通常較低	極低（函數棧 + 局部變量）
可重用性	一般不可重用	一般不可重用
是否為迭代器	是	是（生成器是迭代器的子集）
惰性計算	支持	支持
調試難度	相對容易	狀態隱式，調試略難

聯系：
所有生成器都是迭代器，但并非所有迭代器都是生成器。
生成器是對迭代器的高級封裝，簡化了迭代器的創建過程。

二、迭代器的實現和使用

1. 使用 `iter()` 和 `next()` 手動操作

data = [10, 20, 30]
it = iter(data)
while True:try:value = next(it)print(value)except StopIteration:break

2. 自定義迭代器類

class CountDown:def __init__(self, start):self.start = startdef __iter__(self):return selfdef __next__(self):if self.start <= 0:raise StopIterationself.start -= 1return self.start + 1for n in CountDown(3):print(n)  # 3, 2, 1

3. 內置迭代工具的使用

Python 提供了豐富的內置迭代工具，位于 itertools 模塊中：

enumerate(iterable)：返回索引和值
zip(*iterables)：并行遍歷多個序列
itertools.count()：無限計數器
itertools.cycle()：循環遍歷
itertools.chain()：連接多個迭代器

from itertools import countcounter = count(1, 2)  # 1, 3, 5, ...
print(next(counter))  # 1
print(next(counter))  # 3

三、生成器的實現和使用

1. 生成器函數與 `yield`

def fibonacci():a, b = 0, 1while True:yield aa, b = b, a + bfib = fibonacci()
print([next(fib) for _ in range(10)])  # [0, 1, 1, 2, 3, 5, 8, 13, 21, 34]

2. 生成器表達式

語法類似于列表推導式，但使用 () 而非 []，返回生成器對象。

gen = (x**2 for x in range(5))
print(list(gen))  # [0, 1, 4, 9, 16]

優點：內存占用極小，適合大數據集處理。

3. 惰性計算特性

生成器只在需要時才計算下一個值，非常適合處理以下場景：

大文件逐行讀取
數據流處理
無限序列生成

def read_large_file(file_path):with open(file_path, 'r') as f:for line in f:yield line.strip()

四、實際應用場景

1. 處理大數據集時的內存優化

使用生成器避免將整個數據集加載到內存中：

#  危險：可能耗盡內存
lines = [line.strip() for line in open('huge_file.txt')]#  安全：逐行處理
def process_lines(filename):with open(filename) as f:for line in f:yield clean(line)for line in process_lines('huge_file.txt'):print(line)

2. 實現無限序列

def natural_numbers():n = 1while True:yield nn += 1nums = natural_numbers()
print([next(nums) for _ in range(5)])  # [1, 2, 3, 4, 5]

3. 協程與異步編程中的應用

生成器曾是 Python 協程的基礎（@asyncio.coroutine + yield from），雖然后來被 async/await 取代，但理解生成器對掌握異步編程仍有幫助。

def echo():while True:received = yieldprint(f"Received: {received}")e = echo()
next(e)  # 啟動生成器
e.send("Hello")  # Received: Hello

五、性能對比與注意事項

1. 性能對比

場景	推薦方式	原因
小數據、需多次遍歷	列表	支持索引、可重復使用
大數據、單次遍歷	生成器	內存友好
復雜狀態控制	自定義迭代器	更靈活的狀態管理
快速構建簡單迭代	生成器表達式	語法簡潔

2. 何時選擇迭代器或生成器？

選擇生成器：邏輯清晰、函數式風格、一次性遍歷、內存敏感。
選擇自定義迭代器：需要復雜狀態管理、支持重置、多次遍歷、面向對象設計。

3. 常見錯誤與調試技巧

錯誤1：重復使用已耗盡的生成器

gen = (x for x in range(3))
print(list(gen))  # [0, 1, 2]
print(list(gen))  # [] —— 已耗盡！

解決方案：重新創建生成器或轉為列表（犧牲內存）。

錯誤2：忘記啟動協程（使用 send 前未調用 next）

gen = echo()
# gen.send("Hi")  # TypeError: can't send non-None value to a just-started generator
next(gen)  # 或 gen.send(None)
gen.send("Hi")

調試建議：
使用 itertools.tee() 復制迭代器用于調試（注意內存開銷）
將生成器轉為列表進行測試（僅限小數據）

六、進階話題

1. 生成器的 `send`、`throw` 和 `close` 方法

send(value)：向生成器發送值，作為 yield 表達式的返回值
throw(exc)：在生成器內引發異常
close()：關閉生成器，觸發 GeneratorExit

def accumulator():total = 0while True:value = yield totalif value is not None:total += valueacc = accumulator()
print(next(acc))      # 0
print(acc.send(10))   # 10
print(acc.send(5))    # 15
acc.close()

2. 使用 `yield from` 簡化嵌套生成器

yield from 可以將子生成器的值直接“委托”給外層生成器。

def sub_generator():yield "a"yield "b"def main_generator():yield 1yield from sub_generator()yield 2list(main_generator())  # [1, 'a', 'b', 2]

3. 結合 `asyncio` 實現異步生成器

Python 3.6+ 支持異步生成器，可用于異步數據流處理。

import asyncioasync def async_counter():for i in range(3):await asyncio.sleep(1)yield iasync def main():async for num in async_counter():print(num)# asyncio.run(main())