從0到1學Pandas（九）：Pandas 高級數據結構與操作

一、探秘多級索引
- 1.1 創建多級索引
- 1.2 多級索引操作
- 1.3 索引轉換
二、探索 Panel 與 xarray
- 2.1 Panel 數據結構
- 2.2 xarray 庫
- 2.3 高維數據操作
三、時間序列高級應用
- 3.1 時區處理
- 3.2 時間序列重采樣與頻率轉換
- 3.3 時間序列分解與預測
四、數據透視與重塑高級技巧
- 4.1 復雜透視表
- 4.2 寬表與長表轉換
- 4.3 數據重構策略

一、探秘多級索引

在數據處理的復雜世界中，我們常常會遇到具有多個維度的數據，多級索引便是 Pandas 提供給我們處理這類數據的強大工具，它能夠讓我們以一種更靈活、高效的方式來組織和分析數據。接下來，我們將深入探索多級索引的創建、操作以及索引轉換的奧秘。

1.1 創建多級索引

在 Pandas 中，創建多級索引主要有以下幾種方式，下面以創建學生成績表為例進行講解：

使用MultiIndex.from_tuples：將元組組成的列表轉換為多級索引。假設我們有學生成績數據，代碼如下：

import pandas as pd
import numpy as np# 行索引元組列表
row_tuples = [('2023', '學期1'), ('2023', '學期2'), ('2024', '學期1'), ('2024', '學期2')]
# 列索引元組列表
col_tuples = [('張三', '語文'), ('張三', '數學'), ('李四', '語文'), ('李四', '數學')]# 創建行多級索引
row_index = pd.MultiIndex.from_tuples(row_tuples, names=['學年', '學期'])
# 創建列多級索引
col_index = pd.MultiIndex.from_tuples(col_tuples, names=['姓名', '科目'])# 隨機生成成績數據
scores = np.random.randint(60, 100, size=(4, 4))# 創建DataFrame
df = pd.DataFrame(scores, index=row_index, columns=col_index)
print(df)

使用MultiIndex.from_arrays：通過數組創建多級索引。以同樣的學生成績數據為例，代碼如下：

import pandas as pd
import numpy as np# 行索引數組
row_levels = [['2023', '2023', '2024', '2024'], ['學期1', '學期2', '學期1', '學期2']]
# 列索引數組
col_levels = [['張三', '張三', '李四', '李四'], ['語文', '數學', '語文', '數學']]# 創建行多級索引
row_index = pd.MultiIndex.from_arrays(row_levels, names=['學年', '學期'])
# 創建列多級索引
col_index = pd.MultiIndex.from_arrays(col_levels, names=['姓名', '科目'])# 隨機生成成績數據
scores = np.random.randint(60, 100, size=(4, 4))# 創建DataFrame
df = pd.DataFrame(scores, index=row_index, columns=col_index)
print(df)

使用MultiIndex.from_product：通過笛卡爾積創建多級索引，這是一種比較常用且簡潔的方式。代碼如下：

import pandas as pd
import numpy as np# 行索引的兩個維度
row_year = ['2023', '2024']
row_term = ['學期1', '學期2']
# 列索引的兩個維度
col_name = ['張三', '李四']
col_subject = ['語文', '數學']# 創建行多級索引
row_index = pd.MultiIndex.from_product([row_year, row_term], names=['學年', '學期'])
# 創建列多級索引
col_index = pd.MultiIndex.from_product([col_name, col_subject], names=['姓名', '科目'])# 隨機生成成績數據
scores = np.random.randint(60, 100, size=(4, 4))# 創建DataFrame
df = pd.DataFrame(scores, index=row_index, columns=col_index)
print(df)

1.2 多級索引操作

基于多級索引，我們可以進行豐富的數據操作，這使得我們能夠從不同角度對數據進行深入分析。

數據選擇：使用loc方法可以基于多級索引進行數據選擇。例如，要選擇 2023 學年第一學期的數據，可以這樣操作：

selected_data = df.loc[('2023', '學期1')]
print(selected_data)

如果要選擇 2023 學年第一學期張三的語文成績，則可以使用以下代碼：

specific_data = df.loc[('2023', '學期1'), ('張三', '語文')]
print(specific_data)

數據切片：利用loc結合切片操作，我們可以選擇某一范圍內的數據。比如，選擇 2023 學年所有學期的數據：

sliced_data = df.loc[('2023', slice(None))]
print(sliced_data)

這里的slice(None)表示選擇 “學期” 這一級索引的所有值。

數據聚合：結合groupby和聚合函數，我們可以對多級索引數據進行聚合操作。例如，計算每個學生所有學期、所有科目的平均成績：

aggregated_data = df.groupby(level='姓名').mean()
print(aggregated_data)

上述代碼通過groupby按照 “姓名” 這一級索引進行分組，然后計算每組的平均值。

1.3 索引轉換

在實際數據處理中，有時需要在多級索引和普通索引之間進行轉換，以滿足不同的分析需求，同時還可能涉及數據結構的重塑。

多級索引轉普通索引：使用reset_index方法可以將多級索引轉換為普通列。例如：

df_reset = df.reset_index()
print(df_reset)

這將把原來的行多級索引 “學年” 和 “學期” 轉換為普通列，DataFrame 的索引變為默認的整數索引。

普通索引轉多級索引：通過set_index方法可以將普通列設置為多級索引。假設我們有一個已經將多級索引轉換為普通索引的 DataFrame，現在想把 “學年” 和 “學期” 列重新設置為行多級索引：

df_set = df_reset.set_index(['學年', '學期'])
print(df_set)

數據結構重塑：stack和unstack方法用于重塑數據結構。stack方法將列索引旋轉為行索引，增加行索引的級別；unstack方法則相反，將行索引旋轉為列索引，增加列索引的級別。例如，對前面的 DataFrame 進行stack操作：

stacked_df = df.stack()
print(stacked_df)

此時，原來的列多級索引中的 “科目” 這一級被旋轉到了行索引，與原有的行多級索引構成了新的行多級索引。若要將其還原，可以使用unstack方法：

unstacked_df = stacked_df.unstack()
print(unstacked_df)

二、探索 Panel 與 xarray

在處理數據時，我們常常會遇到維度超過二維的情況，這就需要借助更強大的數據結構和工具。Pandas 中的 Panel 數據結構以及 xarray 庫為我們處理高維數據提供了有效的解決方案。接下來，我們將深入了解它們的特性和使用方法。

2.1 Panel 數據結構

Panel 是 Pandas 中用于處理三維數據的結構，它有三個軸，分別是 items（0 軸）、major_axis（1 軸）和 minor_axis（2 軸）。其中，items 軸上的每個元素都對應一個 DataFrame，major_axis 描述每個 DataFrame 的行索引，minor_axis 描述每個 DataFrame 的列索引。雖然自 Pandas 0.25 版本后，Panel 結構已被廢棄，但了解它有助于我們理解數據結構的發展和演變。

創建 Panel 對象：
- 使用 ndarray 數組創建：可以通過 numpy 生成的三維數組來創建 Panel。示例代碼如下：

import pandas as pd
import numpy as np# 返回均勻分布的隨機樣本值位于[0,1）之間
data = np.random.rand(2, 4, 5)
p = pd.Panel(data)
print(p)

使用 DataFrame 對象創建：也可以通過包含 DataFrame 的字典來創建 Panel。例如：

import pandas as pd
import numpy as npdata = {'Item1': pd.DataFrame(np.random.randn(4, 3)),'Item2': pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print(p)

從 Panel 對象中選取數據：我們可以使用 Panel 的三個軸來選取數據。比如，使用 items 軸選取數據：

import pandas as pd
import numpy as npdata = {'Item1': pd.DataFrame(np.random.randn(4, 3)),'Item2': pd.DataFrame(np.random.randn(4, 2))}
p = pd.Panel(data)
print(p['Item1'])

上述代碼中，我們選擇了名為 ‘Item1’ 的數據，輸出結果是一個 4 行 3 列的 DataFrame，其行、列索引分別對應 major_axis 和 minor_axis。

2.2 xarray 庫

xarray 是一個基于 NumPy 的庫，專門用于處理帶有維度和坐標的多維數據，它提供了 DataArray 和 Dataset 兩種核心數據結構。

DataArray：類似于 NumPy 數組，但包含了坐標和維度標簽，這使得數據更易于理解和操作。例如，創建一個 DataArray：

import xarray as xr
import numpy as np# 創建一個簡單的DataArray
data = np.random.rand(4, 3)
times = ['2024-12-01', '2024-12-02', '2024-12-03', '2024-12-04']
locations = ['New York', 'London', 'Tokyo']
da = xr.DataArray(data, dims=['time', 'location'],coords={'time': times, 'location': locations},name='temperature')
print(da)

Dataset：可以看作是一個由多個 DataArray 組成的字典，這些 DataArray 共享相同的坐標系，適合存儲和處理多變量的多維數據。例如：

import xarray as xr
import numpy as np# 創建一個簡單的Dataset
data = np.random.rand(4, 3)
times = ['2024-12-01', '2024-12-02', '2024-12-03', '2024-12-04']
locations = ['New York', 'London', 'Tokyo']
ds = xr.Dataset({"temperature": (['time', 'location'], data),"humidity": (['time', 'location'], np.random.rand(4, 3))
},coords={"time": times,"location": locations})
print(ds)

xarray 庫提供了豐富的方法來讀取、處理和分析多維數據，例如使用open_dataset讀取 NetCDF 文件，通過索引和切片操作選取數據等。例如，讀取一個 NetCDF 文件并進行簡單的索引操作：

import xarray as xr# 打開NetCDF文件
ds = xr.open_dataset('example.nc')
# 選擇特定時間和位置的數據
subset = ds.sel(time='2024-12-01', location='New York')
print(subset)

2.3 高維數據操作

結合 xarray 庫，我們可以在高維數據結構上進行各種復雜的數據操作。

數據選擇：通過sel和isel方法，可以基于標簽或位置進行數據選擇。例如，從之前創建的ds中選擇特定時間范圍和位置的數據：

# 選擇時間在2024-12-02之后，位置為London的數據
selected_data = ds.sel(time=slice('2024-12-02', None), location='London')
print(selected_data)

數據計算：xarray 支持各種數學運算和統計計算，并且會自動處理維度對齊。例如，計算溫度的平均值：

mean_temperature = ds['temperature'].mean(dim=['time', 'location'])
print(mean_temperature)

數據可視化：xarray 與 Matplotlib 等可視化庫集成良好，可以方便地對高維數據進行可視化。例如，繪制溫度的時間序列圖：

import matplotlib.pyplot as pltds['temperature'].sel(location='New York').plot()
plt.show()

通過以上操作，我們能夠充分利用 xarray 庫對高維數據進行高效的處理和分析，挖掘數據背后的信息。

三、時間序列高級應用

在時間序列分析中，我們經常會遇到各種復雜的情況，如不同時區的數據處理、更精細的重采樣需求以及對時間序列的深入分解和預測。接下來，我們將深入探討這些高級應用，幫助大家更好地處理時間序列數據。

3.1 時區處理

在實際應用中，時間序列數據可能來自不同的時區，Pandas 提供了強大的工具來處理時區相關的問題。假設我們有一份包含不同時區時間戳的銷售數據，首先，我們可以使用tz_localize方法將無時區信息的數據本地化到指定時區，然后使用tz_convert方法進行時區轉換。示例代碼如下：

import pandas as pd# 創建包含時間戳的銷售數據，假設無時區信息
sales_data = pd.DataFrame({'timestamp': ['2024-12-01 10:00:00', '2024-12-02 15:30:00'],'sales_amount': [1000, 1500]
})
sales_data['timestamp'] = pd.to_datetime(sales_data['timestamp'])# 將時間戳本地化到UTC時區
sales_data['timestamp'] = sales_data['timestamp'].dt.tz_localize('UTC')# 將UTC時區轉換為紐約時區
sales_data['timestamp'] = sales_data['timestamp'].dt.tz_convert('US/Eastern')
print(sales_data)

上述代碼中，我們首先將timestamp列轉換為datetime類型，然后將其本地化到UTC時區，最后轉換為US/Eastern（紐約）時區。通過這樣的操作，我們可以統一處理不同時區的時間序列數據，確保時間計算和分析的準確性。

3.2 時間序列重采樣與頻率轉換

除了基本的重采樣操作，我們還可以進行更高級的基于時間段的聚合和插值。例如，我們有一份每日銷售數據，想要按季度進行聚合，并對缺失值進行線性插值。可以使用resample方法結合聚合函數和interpolate方法來實現。示例代碼如下：

import pandas as pd
import numpy as np# 創建每日銷售數據，包含缺失值
date_rng = pd.date_range(start='2024-01-01', end='2024-12-31', freq='D')
sales_data = pd.DataFrame({'sales': np.random.randint(500, 2000, size=len(date_rng))}, index=date_rng)
# 人為制造一些缺失值
sales_data.iloc[10:20, 0] = np.nan
sales_data.iloc[50:60, 0] = np.nan# 按季度重采樣并求和，對缺失值進行線性插值
quarterly_sales = sales_data.resample('Q').sum().interpolate(method='linear')
print(quarterly_sales)

在上述代碼中，我們使用resample(‘Q’)將每日數據按季度進行重采樣，然后使用sum函數進行聚合，最后通過interpolate(method=‘linear’)對聚合后的數據中可能存在的缺失值進行線性插值，使得數據更加完整，便于后續分析。

3.3 時間序列分解與預測

在時間序列分析中，我們常常希望了解數據的趨勢、季節性和殘差等成分，以便更好地理解數據的內在規律并進行預測。通過statsmodels庫中的seasonal_decompose函數，我們可以實現時間序列的趨勢分解。假設我們有一份每月的商品銷量數據，代碼如下：

import pandas as pd
import numpy as np
from statsmodels.tsa.seasonal import seasonal_decompose
import matplotlib.pyplot as plt# 創建每月商品銷量數據
date_rng = pd.date_range(start='2020-01-01', end='2024-12-01', freq='M')
sales_data = pd.DataFrame({'sales': np.random.randint(1000, 5000, size=len(date_rng))}, index=date_rng)# 進行時間序列分解
result = seasonal_decompose(sales_data['sales'], model='additive', period=12)# 繪制分解結果
result.plot()
plt.show()

上述代碼中，我們使用seasonal_decompose函數對銷量數據進行分解，model='additive’表示使用加法模型進行分解，period=12表示數據的周期為 12 個月（即一年）。通過result.plot()可以直觀地看到數據的趨勢、季節性和殘差成分。

對于簡單的預測，我們可以使用一些基本的方法，如移動平均法。移動平均法是一種簡單的時間序列預測方法，它通過計算過去一段時間內數據的平均值來預測未來的值。以之前的每月商品銷量數據為例，計算 5 個月的移動平均作為預測值，代碼如下：

# 計算5個月的移動平均作為預測值
sales_data['moving_avg_prediction'] = sales_data['sales'].rolling(window=5).mean()
print(sales_data[['sales','moving_avg_prediction']])

上述代碼中，使用rolling(window=5)創建了一個 5 個月的移動窗口，然后使用mean方法計算每個窗口內數據的平均值，得到的結果作為預測值存儲在新的列moving_avg_prediction中。通過這種方式，我們可以根據歷史數據的移動平均來對未來數據進行簡單的預測。

四、數據透視與重塑高級技巧

4.1 復雜透視表

在數據分析中，我們常常需要對數據進行多維度的匯總和分析，復雜透視表就是一個強大的工具。pandas.pivot_table函數可以幫助我們創建包含多個聚合函數和分組條件的復雜透視表。下面通過一個銷售數據的示例來詳細說明：

假設我們有一份銷售數據，包含日期、地區、產品、銷售額和銷售量等信息，我們想要統計每個地區、每個產品在不同月份的銷售額總和以及銷售量的平均值。示例代碼如下：

import pandas as pd
import numpy as np# 創建示例銷售數據
data = {'date': ['2024-01-01', '2024-01-02', '2024-02-01', '2024-02-03'],'region': ['North', 'South', 'North', 'South'],'product': ['A', 'B', 'A', 'B'],'sales_amount': [1000, 1500, 1200, 1800],'quantity': [50, 75, 60, 90]
}
df = pd.DataFrame(data)# 將date列轉換為datetime類型，方便按月份分組
df['date'] = pd.to_datetime(df['date'])# 創建復雜透視表
pivot_table = pd.pivot_table(df, values=['sales_amount', 'quantity'], index=['region', 'product'], columns=df['date'].dt.month, aggfunc={'sales_amount':'sum', 'quantity':'mean'},fill_value=0)
print(pivot_table)

在上述代碼中，我們使用pivot_table函數創建透視表。values參數指定了需要進行聚合操作的列，這里是sales_amount和quantity；index參數設置了用于分組的列，即region和product；columns參數通過df[‘date’].dt.month將日期按月份進行分組；aggfunc參數指定了不同列的聚合函數，sales_amount列使用sum函數求和，quantity列使用mean函數求平均值；fill_value參數用于填補缺失值，這里將缺失值填充為 0。通過這樣的操作，我們可以得到一個復雜的透視表，從多個維度對銷售數據進行了匯總分析。

4.2 寬表與長表轉換

在數據處理過程中，我們經常需要在寬格式和長格式數據之間進行靈活轉換，以滿足不同的分析需求。Pandas 提供了melt和pivot函數來實現這一目的。

melt函數：寬表轉長表
melt函數用于將寬表格式轉換為長表格式，通常用于將多列數據合并到一列中。其基本語法為：pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name=‘value’)。其中，frame是要轉換的 DataFrame；id_vars是不需要被轉換的列，這些列將在轉換后的 DataFrame 中保持不變；value_vars是需要被轉換的列，默認會轉換除id_vars以外的所有列；var_name是在轉換后的 DataFrame 中，新列的列名，表示變量名；value_name是在轉換后的 DataFrame 中，新列的列名，表示變量值。

例如，我們有一個包含學生成績的寬表數據，希望將其轉換為長表格式，以便分析各科成績。示例代碼如下：

import pandas as pd# 創建示例數據
data = {'姓名': ['Alice', 'Bob', 'Charlie'],'數學': [85, 90, 95],'英語': [78, 82, 88],'物理': [92, 87, 94]
}
df = pd.DataFrame(data)# 使用melt將寬表轉換為長表
melted_df = pd.melt(df, id_vars=['姓名'], var_name='科目', value_name='分數')
print(melted_df)

上述代碼中，我們使用melt函數將寬表df轉換為長表melted_df。id_vars=[‘姓名’]指定了姓名列保持不變，var_name='科目’指定新的變量列為科目，用于表示原來的學科列名，value_name='分數’指定新的值列為分數，用于存儲對應的成績值。

pivot函數：長表轉寬表
pivot函數用于將長表格式轉換為寬表格式，通常用于將唯一值展開為多列。其基本語法為：pd.pivot(data, index, columns, values)。其中，data是要轉換的 DataFrame；index用于透視表的行索引；columns用于透視表的列索引；values是需要在透視表中顯示的數據。

假設我們已經將學生成績的數據轉換為長表格式，現在希望將其還原為寬表。示例代碼如下：

# 使用pivot將長表轉換為寬表
pivot_df = melted_df.pivot(index='姓名', columns='科目', values='分數')
print(pivot_df)

這里，我們使用pivot函數將長表melted_df還原為寬表pivot_df。index='姓名’指定姓名列為行索引，columns='科目’指定科目列為列索引，values='分數’指定分數列的值填充到新的寬表中。通過這樣的操作，我們可以在寬表和長表之間靈活轉換數據，以適應不同的數據分析任務。

4.3 數據重構策略

在復雜業務場景中，數據重構是一項關鍵任務，它能夠幫助我們更好地組織和分析數據。以下是一些實用的技巧和策略，并結合具體案例進行講解。

基于業務邏輯拆分與合并表：在處理數據時，根據業務邏輯將大表拆分為多個小表，或者將多個小表合并為一個大表，能夠提高數據處理的效率和靈活性。例如，在電商業務中，我們有訂單表、用戶表和商品表。訂單表記錄了訂單的基本信息，如訂單號、用戶 ID、商品 ID、下單時間等；用戶表記錄了用戶的詳細信息，如用戶 ID、姓名、地址、聯系方式等；商品表記錄了商品的信息，如商品 ID、商品名稱、價格、庫存等。為了分析用戶的購買行為，我們可能需要將這三張表進行合并。示例代碼如下：

import pandas as pd# 創建示例訂單表
orders = pd.DataFrame({'order_id': [1, 2, 3],'user_id': [101, 102, 101],'product_id': [201, 202, 203],'order_time': ['2024-12-01 10:00:00', '2024-12-02 15:30:00', '2024-12-03 09:15:00']
})# 創建示例用戶表
users = pd.DataFrame({'user_id': [101, 102],'user_name': ['Alice', 'Bob'],'user_address': ['Beijing', 'Shanghai'],'user_contact': ['13800138000', '13900139000']
})# 創建示例商品表
products = pd.DataFrame({'product_id': [201, 202, 203],'product_name': ['Product A', 'Product B', 'Product C'],'product_price': [100, 200, 150],'product_stock': [50, 30, 40]
})# 通過user_id合并訂單表和用戶表
merged_orders_users = pd.merge(orders, users, on='user_id')# 再通過product_id合并商品表
final_data = pd.merge(merged_orders_users, products, on='product_id')
print(final_data)

上述代碼中，我們首先通過user_id將orders表和users表進行合并，得到merged_orders_users表，然后再通過product_id將merged_orders_users表和products表進行合并，最終得到包含訂單、用戶和商品信息的final_data表，方便進行綜合分析。

使用stack和unstack重塑數據結構：stack和unstack方法可以在多級索引之間進行轉換，從而重塑數據結構。例如，我們有一個包含不同城市不同月份銷售額的 DataFrame，行索引是城市，列索引是月份，數據是銷售額。現在我們希望將月份這一級索引旋轉到行索引，增加行索引的級別。示例代碼如下：

import pandas as pd
import numpy as np# 創建示例數據
data = {'Jan': [1000, 1500],'Feb': [1200, 1800],'Mar': [900, 1100]
}
cities = ['Beijing', 'Shanghai']
df = pd.DataFrame(data, index=cities)# 使用stack方法重塑數據結構
stacked_df = df.stack()
print(stacked_df)

在上述代碼中，df.stack()將列索引Jan、Feb、Mar旋轉到了行索引，與原有的行索引Beijing、Shanghai構成了新的行多級索引。如果要將其還原，可以使用unstack方法：

# 使用unstack方法還原數據結構
unstacked_df = stacked_df.unstack()
print(unstacked_df)

通過這種方式，我們可以根據具體的業務需求靈活地重塑數據結構，以便更好地進行數據分析和處理。