1 數據挖掘基礎

1 數據挖掘基礎

news/2025/7/30 1:34:42/文章來源:https://blog.csdn.net/weixin_37289816/article/details/54695926

1.1 什么是數據挖掘

從大量數據中挖掘出隱含的、未知的、對決策有潛在價值的關系、模式和趨勢，并用這些知識和規則建立用于決策支持的模型，提供預測性決策支持的方法、工具和過程，這就是數據挖掘。

是統計學、數據庫技術、人工智能技術的結合。

1.2 數據挖掘的基本任務

利用分類與預測、聚類分析、關聯規則、時序模式、偏差檢測、智能推薦等方法，幫助企業提取數據中蘊含的商業價值，提高企業的競爭力。

1.3 數據挖掘建模過程

定義挖掘目標

數據取樣

數據探索

數據質量分析

檢查是否存在臟數據——不符合要求，以及不能直接進行相應分析的數據

缺失值、異常值、不一致的值、重復數據、含特殊符號的數據

數據特征分析

分布分析、對比分析、統計量分析、周期性分析、貢獻度分析、相關性分析

統計量分析

集中趨勢：均值、中位數

離中趨勢：方差、四分位間距

貢獻度分析

帕累托法則/28定律：同樣的投入放在不同的地方會產生不同的效益，一個企業80%的利潤通常來自20%最暢銷的產品。

數據預處理

數據清洗：刪除原始數據集中的無關數據、重復數據，平滑噪音數據，篩選掉與挖掘主題無關的數據，

? ??處理缺失值、異常值。缺失值可用拉格朗日插值法和牛頓插值法進行填補；

數據集成：將多個數據源合并存放在一個一致的數據存儲（如數據倉庫）中的過程，在數據集成時，

? ??由于數據源的表達形式不一樣，有可能不匹配，要考慮實體識別問題和屬性冗余問題，從而將源

? ??數據在最低層上加以提煉、轉換和集成。

數據變換：簡單函數變換、規范化、連續屬性離散化、屬性構造、小波變換。

? ??有時簡單的對數變換或者差分運算就可以將非平穩序列轉換成平穩序列。

? ??小波變換在信號處理、圖像處理、語音處理、模式識別、量子物理領域得到廣泛應用。

數據規約：屬性規約—列角度—減少維度、數值規約—行角度—減少數據量。

挖掘建模

分類、聚類、關聯規則、時序模式、智能推薦？

模型評價

?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/387500.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/387500.shtml
英文地址，請注明出處：http://en.pswp.cn/news/387500.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

R文件報錯的原因

R文件報錯的原因

一般R文件報錯，無非是資源文件錯誤，圖片命名錯誤，但是編譯都會報錯，可以很快解決。但是前幾天，引入一個第三方aar包后，項目編譯正確，但是就是R文件報錯，找不到R文件，整個…

閱讀更多...

1.0 算法本機調試方法

1.0 算法本機調試方法

算法的本機調試方法： 從本地文件中讀取測試數據，進行算法調試。例：讀取兩個數，輸出和。 1 2 11 22 111 222 輸出： 3 33 333 #include <fstream> //讀取本地文件需要此頭文件。調試完成后，提…

閱讀更多...

[轉]Excel數據轉化為sql腳本

[轉]Excel數據轉化為sql腳本

在實際項目開發中，有時會遇到客戶讓我們把大量Excel數據導入數據庫的情況。這時我們就可以通過將Excel數據轉化為sql腳本來批量導入數據庫。 1 在數據前插入一列單元格，用來拼寫sql語句。具體寫法："insert into t_student (id,name,age…

閱讀更多...

void Update ( ) 更新 void FixedUpdate ( )

void Update ( ) 更新 void FixedUpdate ( )

void Update ( ) 更新 void FixedUpdate ( ) 固定更新相同點：當MonoBehaviour啟用時，其在每一幀被調用，都是用來更新的。異同點：第一點不同： Update()每一幀的時間不固定，即第一幀與第二幀的時間間隔t…

閱讀更多...

海量數據庫的查詢優化及分頁算法方案(一)

海量數據庫的查詢優化及分頁算法方案(一)

隨著“金盾工程”建設的逐步深入和公安信息化的高速發展，公安計算機應用系統被廣泛應用在各警種、各部門。與此同時，應用系統體系的核心、系統數據的存放地――數據庫也隨著實際應用而急劇膨脹，一些大規模的系統，如人口系統的數據…

閱讀更多...

【點分治】luoguP2664 樹上游戲

【點分治】luoguP2664 樹上游戲

應該是一道中等難度的點分？麻煩在一些細節。題目描述 lrb有一棵樹，樹的每個節點有個顏色。給一個長度為n的顏色序列，定義s(i,j) 為i 到j 的顏色數量。以及現在他想讓你求出所有的sum[i] 輸入輸出格式輸入格式： 第一行為一個整數…

閱讀更多...

EasyJoyStick使用以及兩種操作桿 EasyJoyStick的使用方法，簡單的不能再簡單 Hedgehog Team-》Easy Touch -》Add Easy Touch For C#

EasyJoyStick使用以及兩種操作桿 EasyJoyStick的使用方法，簡單的不能再簡單 Hedgehog Team-》Easy Touch -》Add Easy Touch For C#

EasyJoyStick使用以及兩種操作桿EasyJoyStick的使用方法，簡單的不能再簡單Hedgehog Team-》Easy Touch -》Add Easy Touch For C#Hedgehog Team-》Easy Touch -》Extensions-》Adding A New Joystick配置如圖：然后看一下配置，我喜歡掌控性強一…

閱讀更多...

2.1 vector

2.1 vector

表結構的數組實現隨機訪問快速尾插動態調整所占內存空間#include<vector>從0開始計數創建vector對象的三種方法： 1. vector<int> v;2. vector<int> v(10); //默認值為03. vecotr<double> v(10,8.6); //為每個元素指定初始值尾插&#xff1a…

閱讀更多...

文件系統管理之文件和目錄訪問權限設置

文件系統管理之文件和目錄訪問權限設置

一、文件和目錄權限概述在linux中的每一個文件或目錄都包含有訪問權限，這些訪問權限決定了誰能訪問和如何訪問這些文件和目錄。通過設定權限可以從以下三種訪問方式限制訪問權限：只允許用戶自己訪問；允許一個預先指定的用戶組中的用戶訪問&…

閱讀更多...

Web滲透實驗：基于Weblogic的一系列漏洞

Web滲透實驗：基于Weblogic的一系列漏洞

1. 攻擊機windows10 192.168.2.104 2. 靶機ip: 192.168.2.109(linux Ubantu) 192.168.2.111(windows2008R264位) 第一步：啟動靶機服務分別為linux和windows windows環境搭建： 鏈接：https://pan.baidu.com/s/16KyYb1v1rP9uJ6-5MBotVw 　　提取…

閱讀更多...

9 月 19 日，騰訊云安全中心監測到 ?Apache Tomcat 修復了2個嚴重級別的漏洞，分別為：信息泄露漏洞（CVE-2017-12616）、遠程代碼執行漏洞（CVE-2017-12615

9 月 19 日，騰訊云安全中心監測到 ?Apache Tomcat 修復了2個嚴重級別的漏洞，分別為：信息泄露漏洞（CVE-2017-12616）、遠程代碼執行漏洞（CVE-2017-12615

9 月 19 日，騰訊云安全中心監測到 Apache Tomcat 修復了2個嚴重級別的漏洞， 分別為： 信息泄露漏洞（CVE-2017-12616）、遠程代碼執行漏洞（CVE-2017-12615），在某些場景下，攻…

閱讀更多...

2.0 STL泛型編程

2.0 STL泛型編程

Standard Template Library 在命名空間std中定義了常用的數據結構和算法三種類型的組件： 容器： ——vector、string ——set、multiset、map、multimap ——list ——bitset ——stack ——deque、queue、priority_queue 迭代器算法&…

閱讀更多...

SQL聯合更新

SQL聯合更新

update CCTDB..Area_Infoset ParentStrb.ParentStrfrom CCTDB..Area_Info a inner join TempArea bon a.AreaId b.AreaId轉載于:https://www.cnblogs.com/davidgu/archive/2012/08/10/2631289.html

閱讀更多...

集合之ArrayList（含JDK1.8源碼分析）

集合之ArrayList（含JDK1.8源碼分析）

一、ArrayList的數據結構 ArrayList底層的數據結構就是數組，數組元素類型為Object類型，即可以存放所有類型數據。我們對ArrayList類的實例的所有的操作(增刪改查等)，其底層都是基于數組的。定義底層數據結構：Object[] elementDat…

閱讀更多...

2.2 string

2.2 string

字符數組的封裝基本操作與vector很像，它們內部采用的都是數組結構 #include<string> 創建string對象： string s; 給string對象賦值： 方式一：s"i love coding"; 方式二： char a[256]; scanf(&qu…

閱讀更多...

Unity3D 自動打包整個項目（以AssetBundle實現）

Unity3D 自動打包整個項目（以AssetBundle實現）

需求： 在移動開發中，手動控制資源的加載、釋放和熱更新，是很有必要的。而Unity通過AssetBundle可以實現該需求，但是如果項目資源多起來的話一個個手動打包成AssetBundle則很麻煩。而本文正為此提供一套一鍵打包的方案。資源分…

閱讀更多...

Android復制assets目錄下的圖片到內存

Android復制assets目錄下的圖片到內存

轉自：http://www.chenwg.com/android/android%E5%A4%8D%E5%88%B6assets%E7%9B%AE%E5%BD%95%E4%B8%8B%E7%9A%84%E5%9B%BE%E7%89%87%E5%88%B0%E5%86%85%E5%AD%98.html 有些Android應用需要一些初始化數據，但是考慮到國內這種龜速網絡和高昂的網絡流量費用&…

閱讀更多...

Python 2.7 cython cythonize py 編譯成 pyd 談談那些坑（轉載）

Python 2.7 cython cythonize py 編譯成 pyd 談談那些坑（轉載）

轉自：https://www.cnblogs.com/ibingshan/p/10334471.html Python 2.7 cython cythonize py 編譯成 pyd 談談那些坑前言基于 python27 的 pyc 很容易被反編譯，于是想到了pyd，加速運行，安全保護必要準備安裝cython：…

閱讀更多...

2.3 set

2.3 set

#include<set> 紅黑樹（Red-Black Tree），一種平衡二叉檢索樹。對于插入相同鍵值的情況忽略處理。 set主要用于快速檢索高效的插入和刪除 multiset、map、multimap都是平衡二叉檢索樹。創建set集合： set<int> s…

閱讀更多...

一、創建Assetbundle 在unity3d開發的游戲中，無論模型，音頻，還是圖片等，我們都做成Prefab，然后打包成Assetbundle，方便我們后面的使用，來達到資源的更新。

一、創建Assetbundle 在unity3d開發的游戲中，無論模型，音頻，還是圖片等，我們都做成Prefab，然后打包成Assetbundle，方便我們后面的使用，來達到資源的更新。

一、創建Assetbundle 在unity3d開發的游戲中，無論模型，音頻，還是圖片等，我們都做成Prefab，然后打包成Assetbundle，方便我們后面的使用，來達到資源的更新。一個Assetbundle可以打包一個模型&…

閱讀更多...

最新文章