目錄
- 一、實驗目的
- 二、實驗內容和要求
- 三、實驗步驟
- 1、建立數據表
- 2、建立數據源視圖
- 3、建立挖掘結構Student.dmm
- 4、部署項目并瀏覽結果
- 5、挖掘模型預測
- 四、實驗結果分析
- 五、實驗總結體會
一、實驗目的
??通過本實驗,進一步理解基于劃分的、基于層次的、基于密度的聚類分析方法以及經典的聚類分析算法,并掌握利用 SQL Server 等工具平臺進行聚類分析的方法,掌握挖掘結構、挖掘模型的基本概念,能夠使用數據挖掘向導創建數據挖掘結構和模型,掌握數據挖掘設計器的使用方法,掌握模型查看器方法 ,理解聚類分析算法常用的參數含義和設置方法。
二、實驗內容和要求
??針對實際需求,構建格式規范的數據集,并能夠借助于 SQL Server、Weka、SPSS 等工具平臺,利用 K-means 等聚類分析算法進行聚類分析,正確分析實驗結果,發現知識,完成實驗報告。
三、實驗步驟
??以下是參照示例:以 SQL Server 作為工具,完成數據集的構建和聚類分析。——以下內容,僅供參考!
1、建立數據表
啟動SQL Server,在DM數據庫中建立一個Student表,其結構如下,并輸入示例數據。
2、建立數據源視圖
新建一個 Analysis Services 項目 ClusterMining。建立數據源視圖,它對應DM數據庫中的Student表。
3、建立挖掘結構Student.dmm
新建挖掘結構,在“創建數據挖掘結構”頁面的“您要使用何種數據挖掘技術?”選項下,選中列表中的“Microsoft聚類分析”。
選擇數據源視圖為DM。
在“指定表類型”頁面上,在Student表的對應行中選中“事例”復選框,并單擊下一步按鈕。
在“指定定型數據”頁面中,將“學號”列設為鍵列,把其它所有列設為輸入列。
在“創建測試集”頁面上,“測試數據百分比”選項的默認值為30%,將該選項更改為0.
在完成向導頁面的“挖掘結構名稱”和“挖掘模型名稱”中,都輸入Student。
在“挖掘模型”選項卡中設置算法的參數如下圖所示。
4、部署項目并瀏覽結果
先處理(部署)、再瀏覽。
在挖掘模型查看器中,瀏覽聚類分析的結果。
5、挖掘模型預測
(1)單擊“挖掘模型預測”選項卡,再單擊“選擇輸入表”對話框中的“選擇事例表”命令,指定DM數據源視圖中的Student表。
(2)保持默認的字段連接關系,將Student表中的各個列拖放到下方的列表中,選中最后一行下面的空白行字段前面的“源”,從下拉列表中選擇“預測函數”選項,并設置字段為Cluster。
(3)在任一空白處右擊,并在下拉菜單中選擇“結果”,出現如下所示的分類結果。
四、實驗結果分析
1、分類關系圖
(1)所有鏈接
(2)最強鏈接
2、分類剖面圖
3、分類特征
4、分類對比
(1)“分類1”VS“非分類1”
(2)“分類1”VS“分類2”
五、實驗總結體會
??通過數據挖掘聚類分析實驗,積累了許多寶貴的經驗。首先,我認識到對數據進行深入理解是取得成功的關鍵。在開始實驗之前,我仔細分析了數據的結構、特征和可能存在的異常或缺失值等情況。這樣的數據理解使我能夠更好地選擇合適的分析方法,并取得更好的結果。其次,在進行聚類分析之前,特征選擇和預處理是不可或缺的步驟。通過特征選擇,我能夠提高模型的性能并降低計算復雜性。而預處理則可以使數據更加干凈、一致,從而減少對聚類結果的影響。
??選擇合適的算法是成功實現聚類分析的重要因素。我研究了各種聚類算法,包括K均值、層次聚類和DBSCAN等。每種算法都有其適用的場景和限制,所以我根據實際情況選擇了最合適的算法。這樣做可以確保我的聚類結果更加準確和可靠。然后,我意識到結果的解釋和評估是聚類分析中不可或缺的步驟。聚類分析的結果不僅僅是一組類別標簽,更重要的是對這些類別的解釋和理解。最后,我意識到持續學習和改進是取得優秀成績的關鍵。數據倉庫與數據挖掘是一個不斷發展和變化的領域,需要不斷學習新的方法和算法。通過不斷嘗試新的技術和流程,我能夠不斷優化實驗流程,并取得更好的結果。
??總的來說,進行數據倉庫與數據挖掘的聚類分析實驗是一個充滿挑戰但又充滿樂趣的過程。通過深入理解數據、選擇合適的算法、進行特征選擇和預處理、解釋和評估結果,以及持續學習和改進,我相信我能夠不斷提高我的數據分析技能,并在這個領域取得更出色的成果。