1.1 什么是數據挖掘
從大量數據中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢,并用這些知識和規則建立用于決策支持的模型,提供預測性決策支持的方法、工具和過程,這就是數據挖掘。
是統計學、數據庫技術、人工智能技術的結合。
1.2 數據挖掘的基本任務
利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智能推薦等方法,幫助企業提取數據中蘊含的商業價值,提高企業的競爭力。
1.3 數據挖掘建模過程
定義挖掘目標
數據取樣
數據探索
數據質量分析
檢查是否存在臟數據——不符合要求,以及不能直接進行相應分析的數據
缺失值、異常值、不一致的值、重復數據、含特殊符號的數據
數據特征分析
分布分析、對比分析、統計量分析、周期性分析、貢獻度分析、相關性分析
統計量分析
集中趨勢:均值、中位數
離中趨勢:方差、四分位間距
貢獻度分析
帕累托法則/28定律:同樣的投入放在不同的地方會產生不同的效益,一個企業80%的利潤通常來自20%最暢銷的產品。
數據預處理
數據清洗:刪除原始數據集中的無關數據、重復數據,平滑噪音數據,篩選掉與挖掘主題無關的數據,
? ??處理缺失值、異常值。缺失值可用拉格朗日插值法和牛頓插值法進行填補;
數據集成:將多個數據源合并存放在一個一致的數據存儲(如數據倉庫)中的過程,在數據集成時,
? ??由于數據源的表達形式不一樣,有可能不匹配,要考慮實體識別問題和屬性冗余問題,從而將源
? ??數據在最低層上加以提煉、轉換和集成。
數據變換:簡單函數變換、規范化、連續屬性離散化、屬性構造、小波變換。
? ??有時簡單的對數變換或者差分運算就可以將非平穩序列轉換成平穩序列。
? ??小波變換在信號處理、圖像處理、語音處理、模式識別、量子物理領域得到廣泛應用。
數據規約:屬性規約—列角度—減少維度、數值規約—行角度—減少數據量。
挖掘建模
分類、聚類、關聯規則、時序模式、智能推薦?
模型評價
?