介紹
本教程描述了一個具有二元分類結果的研究的典型代謝組學數據分析工作流程。主要步驟包括:
- 從Excel表格導入代謝物和實驗數據。
- 基于匯總QC的數據清洗。
- 利用主成分分析可視化來檢查數據質量。
- 兩類單變量統計。
- 使用偏最小二乘判別分析(PLS-DA)進行多變量分析,包括:
- 模型優化(R2 vs Q2)。
- 置換測試,模型預測指標。
- 特征重要性。
- 模型預測數據可視化。
- 將統計表格導出到Excel表格。
本教程中使用的研究已由Chan等人(2016年)作為開放獲取文章發表在《英國癌癥雜志》上,并且已將解析和注釋的數據文件存儲在代謝組學工作臺數據存儲庫(項目ID PR000699)。
導入包/模塊
本教程的第一個代碼單元格(在這段文本框下方)將包和模塊導入到Jupyter環境中。包和模塊提供了額外的函數和工具,這些工具擴展了Python語言的基本功能。我們將需要以下工具來分析本教程中的數據:
- numpy:Python科學計算的基本包,提供處理數組和線性代數的工具
- pandas:提供高性能、易于使用的數據結構和數據分析工具
- sklearn:Python中的機器學習工具
- train_test_split:一種將數組分割成隨機測試/訓練子集的方法,用于交叉驗證
- cimcb_lite:由作者提供的有用函數庫 (https://pypi.org/project/cimcb-lite/)