當數據透視表感到“吃力”時,我們該怎么辦:
- 數據量巨大:Excel工作表有104萬行的限制,當有幾十萬行數據時,透視表和公式就會變得非常卡頓。
- 數據來源多樣:數據分散在多個Excel文件、CSV文件、數據庫甚至網頁上,需要手動復制粘貼才能匯總,費時費力且容易出錯。
- 數據清洗復雜:原始數據不規范,有大量合并單元格、空行、錯誤格式等,每次分析前都要花大量時間“打掃戰場”。
面對這些情況,你需要升級你的工具,從“前臺”的Excel單元格和數據透視表,轉向“后臺”的專業數據處理引擎。在Excel生態中,這個引擎就是——Power Query。
Power Query:Excel 內置的“數據瑞士軍刀”
Power Query (簡稱PQ) 是一個內置于Excel(2016及以上版本)和Power BI中的數據獲取與轉換工具。你可以把它想象成一個自動化的數據處理流水線。
它的核心工作流程是“ETL”:
- Extract (提取):從各種數據源(Excel、CSV、文件夾、數據庫、網頁等)連接并獲取數據。
- Transform (轉換):通過一系列可視化的點擊操作(無需寫代碼),對數據進行清洗、整理、合并、拆分、計算等。你做的每一步操作都會被記錄下來。
- Load (加載):將處理干凈的數據加載到Excel工作表、數據透視表,或者一個更高效的“數據模型”中。
與數據透視表的區別:
- 數據透視表:是分析和聚合已經整理好的數據。
- Power Query:是在分析之前,獲取和整理原始、混亂的數據。它是數據透視表的“上游工序”。
如何使用Power Query解決核心痛點
痛點1:處理海量數據(超過Excel限制)
傳統方式:數據超過104萬行,Excel直接打不開或無法處理。
Power Query 解決方案:
- 連接數據,但不加載到工作表:Power Query可以連接到一個幾百萬行甚至上千萬行的CSV或數據庫文件。
- 在PQ編輯器中進行轉換:你可以在Power Query編輯器中對這些海量數據進行篩選、分組、聚合,先將數據量“降維”。例如,你可能只需要按月、按產品的匯總數據,而不是每一條明細。
- 加載到“數據模型”:將處理后的結果加載到數據模型 (Data Model),而不是Excel工作表。數據模型是Excel內部一個基于列式存儲的高效壓縮引擎,可以輕松處理數百萬行的數據,而且文件體積比存到工作表小得多。
- 基于數據模型創建數據透視表:最后,你創建的數據透視表的數據源不再是工作表區域,而是這個強大的“數據模型”。操作起來飛快,完全不卡頓。
操作入口:數據
-> 獲取數據
-> 從文件
/ 從數據庫
-> … -> 在加載時選擇“僅創建連接”
和“將此數據添加到數據模型”
。
痛點2:整合多個數據源
傳統方式:手動打開12個分公司的月度銷售報表,逐個復制粘貼到一個總表中。下個月重復一次。
Power Query 解決方案:從文件夾合并文件。
- 創建一個文件夾,把所有結構相同的Excel文件(例如,12個分公司的月度報表)都放進去。
- 在Excel中,選擇
數據
->獲取數據
->從文件
->從文件夾
。 - 選擇你創建的那個文件夾。
- Power Query會識別出文件夾里的所有文件,點擊“合并和轉換”。
- PQ會讓你選擇一個樣板文件,并自動生成一套查詢步驟,將所有文件的數據縱向追加在一起。它還會自動添加一列來標注數據來自哪個源文件。
- 一勞永逸:下個月,你只需要把新的報表文件扔進那個文件夾,然后回到Excel中,點擊
數據
->全部刷新
,總表和基于它的數據透視表就會自動更新,包含新文件的數據!
痛點3:自動化復雜的數據清洗
傳統方式:每次拿到報表,都要手動刪除前幾行、取消合并單元格、拆分列、替換錯誤值…
Power Query 解決方案:錄制清洗步驟。
你在Power Query編輯器中的每一步操作,都會被右側的“應用的步驟”窗格記錄下來。
常見清洗操作(全部通過點擊按鈕完成):
- 提升標題行:將數據的第一行用作列標題。
- 刪除行/列:刪除頂部的空行、底部的總計行,或不需要的列。
- 篩選數據:像在Excel中一樣篩選掉不需要的行。
- 拆分列:按分隔符(如逗號、空格)或字符數拆分列。
- 合并列:將多列合并成一列。
- 逆透視列 (Unpivot):將交叉表(如每個月一列)轉換成規范的一維表,這是Power Query的超級必殺技之一,對數據分析至關重要。
- 添加自定義列:用公式創建新的計算列。
- 替換值:批量替換錯誤或不規范的數據。
當你設置好這一套清洗流程后,它就變成了一個自動化模板。下次拿到同樣格式的臟數據,只需刷新查詢,所有清洗步驟都會自動重新走一遍。
何時使用 Power Query?
當你的內心出現以下聲音時,就應該毫不猶豫地使用Power Query:
- “天啊,這個表有一百多萬行,Excel要卡死了!” -> 用PQ加載到數據模型。
- “又要合并這幾十個分公司的表,我得加個班了。” -> 用PQ從文件夾合并。
- “這個系統導出的報表格式真爛,每次都要手動調半天。” -> 用PQ錄制清洗步驟。
- “我需要把Excel里的客戶表,和數據庫里的訂單表關聯起來分析。” -> 用PQ分別連接兩個源,然后使用“合并查詢”(類似VLOOKUP)功能。
學習路徑建議:
- 從最簡單的開始:嘗試用Power Query連接一個不規范的Excel表,通過點擊按鈕完成刪除空行、提升標題、更改數據類型這三步。
- 進階:學習從文件夾合并多個Excel文件。這是最有價值的技能之一。
- 掌握核心:學習“逆透視”功能,理解它如何將交叉表“拍扁”成一維表。
- 深入:學習“合并查詢”(左連接、內連接等)和“追加查詢”,實現多表關聯和匯總。
總結:
數據透視表是你的“分析臺”,而Power Query是你的“自動化數據處理工廠”。當你的原材料(數據)變得復雜、龐大、多樣時,先用Power Query這個工廠把它們加工成高質量的半成品,再送到分析臺上去,這樣才能高效、準確地得出你的結論。掌握Power Query,你就從一個Excel用戶,真正邁向了數據分析師的門檻。