基本的數據分析工作通常包含以下幾個方面的內容:
- 確定目標(輸入):理解業務,確定指標口徑。
- 獲取數據:數據倉庫(SQL提數)、電子表格、三方接口、網絡爬蟲、開放數據集等。
- 清洗數據:包括對缺失值、重復值、異常值的處理以及相關的預處理(格式化、離散化、二值化等)。
- 數據透視:排序、統計、分組聚合、交叉表、透視表等 。
- 數據呈現(輸出):數據可視化,發布工作成果(數據分析報告)。
- 分析洞察(后續):解釋數據的變化,提出對應的方案。
深入的數據挖掘工作通常包含以下幾個方面的內容:
- 確定目標(輸入):理解業務,明確挖掘目標。
- 數據準備:數據采集、數據描述、數據探索、質量判定等。
- 數據加工:提取數據、清洗數據、數據變換、特殊編碼、降維、特征選擇等。
- 數據建模:模型比較、模型選擇、算法應用。
- 模型評估:交叉檢驗、參數調優、結果評價。
- 模型部署(輸出):模型落地、業務改進、運營監控、報告撰寫。