【數據分析九：Association Rule】關聯分析

【數據分析九：Association Rule】關聯分析

pingmian/2025/6/23 2:41:58/文章來源:https://blog.csdn.net/2301_79853895/article/details/148741998

一、數據挖掘定義

數據挖掘：

從大量的數據中挖掘那些令人感興趣的、有用的、隱含的、先前未知的

和可能有用的模式或知識，并據此更好的服務人們的生活。

二、四類任務

數據分析有哪些任務？

今天我們來講述其中的關聯分析

三、關聯分析

典型例子：啤酒與尿布

常用方法 —— 關聯規則挖掘 (Association Rule Mining)

????????給出事務的集合, 能夠發現一些規則：𝐴 => 𝐵

????????當事務中某些子項出現時，預測其他子項也出現

基本概念：

Association Rule（關聯規則）

????形如X → Y的表達式，X, Y均為項集

????例：{Milk, Diaper} →{Beer}

Confidence (置信度)

????度量包含X的事務中同時出現Y的頻率

????例：對于關聯規則{Milk, Diaper} →{Beer}

????confidence({Milk, Diaper} →{Beer})= 2/3

強關聯規則

????用戶自行設定最小置信度閾值min _conf，置信度大于min _conf的規則稱為強關聯規則

????例：設min _conf = 0.5，則{Milk, Diaper} →{Beer}為強關聯規則

四、APriori算法

生成頻繁項集

核心思想：廣度優先搜索，自底而上遍歷，逐步生成候選集與頻繁項集

反單調性原理：如果一個項集是頻繁的，則它的所有子集一定也是頻繁

成立原因：

?????????X, Y: X ? Y → Support X ≥ Support(Y)

????????依據該性質，對于某k+1項集，只要存在一個k項子集不是頻繁項集，則可以直接判定該項集不是頻繁項集

?

算法步驟

????????連接步：從頻繁 K-1 項集生成候選K項集

????????剪枝步：從候選 K 項集篩選出頻繁K項集

舉個例子：

下圖為某商店的用戶購買記錄，共有9個事務，A-Priori假定事務中的項按字典次序存放。

(1) 在算法的第一次迭代，每個項都是候選1項集的集合 $C_1$ 的成員。算法簡單地掃描所有的事務，對每個項的出現次數計數

(2) 設最小支持度計數=2，可以確定頻繁1項集的集合 $L_1$

(3) 使用L1? L1產生候選2項集的集合 $C_2$

(4) 掃描數據集，計算 $C_2$ 中每個候選項集的支持度

(5)最小支持度計數=2，確定頻繁2項集的集合 $L_2$

(6) 使用L2? L2產生候選3項集的集合 $C_3$

(7) 掃描數據集，計算 $C_3$ 中每個候選項集的支持度

(8)最小支持度計數=2，確定頻繁3項集的集合 $L_3$

(9) 使用L3? L3產生候選4項集的集合C4，盡管連接產生結果 $\{l_1, l_2, l_3, l_5\}$ ?，這個項集被

剪去，因為它的子集 $\{l_2, l_3, l_5\}$ 不是頻繁的。則C4 = ? ,因此算法終止，找出了所有的

頻繁項集如下

五、生成規則

關聯規則挖掘的第二步：如何從頻繁項集中生成規則？

若{A,B,C,D}是頻繁項集, 候選規則有14種:

ABC →D, ABD →C, ACD →B, BCD →A,

A →BCD,B →ACD, C →ABD, D →ABC

AB →CD,AC → BD, AD → BC, BC →AD,BD →AC, CD →AB,

若 $|L| = k$ , 則有 $2^k- 2$ 種候選的關聯規則(忽略L → $\phi$ 和 $\phi$ ?→ L)

關聯規則生成(Rule Generation)—— 計算復雜度

對于d個項目:

候選項集數=? $2^d$

可能規則數R =? $3^d-2^{d+1}+1$

六、辛普森悖論

相關關系≠因果關系，但相關關系的背后可能蘊含著某種因果

例如，公雞打鳴 → 太陽升起，從關聯規則角度來說，是高置信度規則，說明“公雞打鳴 ”與“太陽升起”很相關，但并不是因果關系

第二個實例：

適當的數據分層有助于避免辛普森悖論

下一講，我們將講述分類和預測

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/pingmian/85707.shtml
繁體地址，請注明出處：http://hk.pswp.cn/pingmian/85707.shtml
英文地址，請注明出處：http://en.pswp.cn/pingmian/85707.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

AWS Security Hub郵件告警設置

AWS Security Hub郵件告警設置

問題需要給AWS Security Hub設置郵件告警。前提已經啟用AWS Security Hub。 AWS SNS 創建一個AWS Security Hub告警主題SecurityHub-Topic，如下圖： 創建完成后，訂閱該主題。 AWS EventBridge 設置規則名SecurityHubFindings-Rules…

閱讀更多...

（OSGB轉3DTiles強大工具）ModelSer--強大的實景三維數據分布式管理平臺

（OSGB轉3DTiles強大工具）ModelSer--強大的實景三維數據分布式管理平臺

1. ModelSer 能幫我們做什么 1.1 最快速的 osgb 發布 3dtiles 服務測試的速度大于 10G/分鐘，且速度基本是線性的（100G10分鐘，1T100分鐘）。支持城市級傾斜數據半天內完成服務發布，并支持數據的單塊更新。 1.2 支持所見…

閱讀更多...

《HTTP權威指南》第5-6章 Web服務器和代理

《HTTP權威指南》第5-6章 Web服務器和代理

基本Web服務器請求的步驟 1、建立連接接受一個客戶端連接，或者如果不希望與這個客戶端建立連接，就將其關閉。處理新連接客戶端主機名識別：反向DNS查找，將IP地址轉換為客戶端主機名過ident確定客戶端用戶：客戶端支持…

閱讀更多...

微信二次開發，對接智能客服邏輯

微信二次開發，對接智能客服邏輯

接口友情鏈接，點擊即可訪問。 ## 設備創建與復用機制首次調用/login/getLoginQrCode需傳空appId觸發設備創建，響應返回固定設備ID。后續登錄必須復用此ID以避免風控（同一微信號綁定固定設備）。設備類型可選ipad/mac，當…

閱讀更多...

網站并發訪問量達到1萬以上需要注意哪些事項

網站并發訪問量達到1萬以上需要注意哪些事項

當網站并發訪問量達到1萬以上時，需要注意以下幾個方面?： ?服務器硬件配置?： ?處理器（CPU）?：選擇多核、高頻率的CPU，以確保服務器能夠高效地處理大量的請求。?內存（RAM&#xf…

閱讀更多...

二、OpenCV的第一個程序

二、OpenCV的第一個程序

文章目錄一、第一個程序：顯示圖片1.1 cv::imread1.2 cv::namedWindow1.3 cv::imshow 二、第二個程序：視頻2.1 cv::VideoCapture 三、加入了滑動條的基本瀏覽窗口一、第一個程序：顯示圖片示例：一個簡單的加載并顯示圖像的OpenC…

閱讀更多...

第14次：商品列表、熱銷商品及詳情

第14次：商品列表、熱銷商品及詳情

第1步：定義獲取商品列表的視圖類ListView，本視圖中完成了如下功能： 根據商品類別id獲取商品類別信息，并根據類別信息反向查詢到所有的該類別的商品。根據頁號和排序方式兩個參數，獲取某個頁面的商品列表信息。 #good…

閱讀更多...

基于雙層注意力重加權 LSTM 的中文長文本謠言檢測模型

基于雙層注意力重加權 LSTM 的中文長文本謠言檢測模型

文章目錄 1.摘要2.介紹3.相關工作3.1 假新聞檢測數據集3.2 假新聞檢測方法3.3 長文本假新聞檢測的挑戰與進展3.4 與現有方法的區別 4.方法4.1 模型結構4.2模型代碼4.3 損失函數與優化方法 5. 實驗5.1 數據集與預處理5.2 實驗設置5.3 實驗結果5.4 對比分析5.5 結果分析與討論 6.…

閱讀更多...

在 MyBatis 的xml中，什么時候大于號和小于號可以不用轉義

在 MyBatis 的xml中，什么時候大于號和小于號可以不用轉義

在 MyBatis 中，< 和 > ?在動態 SQL 標簽內部? 無需轉義的功能是在以下版本引入的： 📌 關鍵版本說明版本支持情況注意事項?MyBatis 3.3.0??? 在 <if>、<where>、<set> 等動態 SQL 標簽內部可直接使用 < 和…

閱讀更多...

Redis 的穿透、雪崩、擊穿

Redis 的穿透、雪崩、擊穿

Redis 的穿透、雪崩、擊穿 1、緩存穿透定義緩存穿透是指查詢一個不存在的數據，由于緩存中沒有該數據，每次請求都會直接訪問數據庫，導致數據庫壓力過大產生原因惡意攻擊：攻擊者故意請求大量不存在的key，導致請求直…

閱讀更多...

有道翻譯官手機版：智能翻譯，隨行助手

有道翻譯官手機版：智能翻譯，隨行助手

在當今全球化的時代，語言不再是交流的障礙。無論是學習外語、出國旅游、商務出差還是日常交流，一款高效、準確的翻譯軟件都能成為我們的好幫手。有道翻譯官手機版正是這樣一款功能強大、操作便捷的語言翻譯軟件，它憑借先進的翻譯技術和豐富的…

閱讀更多...

nuxt3 + vue3 分片上傳組件全解析（大文件分片上傳）

nuxt3 + vue3 分片上傳組件全解析（大文件分片上傳）

本文將詳細介紹一個基于 Vue.js 的分片上傳組件的設計與實現，該組件支持大文件分片上傳進度顯示等功能。組件概述這個上傳組件主要包含以下功能：支持大文件分片上傳（默認5MB一個分片）支持文件哈希計算，用于文件唯一標識顯示上傳進度（整體和單個文件）支持自定義UI樣…

閱讀更多...

正則表達式與C++

正則表達式與C++

轉自個人博客 1. 概述 1.1 正則表達式概述正則表達式（Regular Expressions，簡稱 regex）是用于匹配文本模式的一種特殊字符序列，其可以用一系列字符來表示出不同文本的對應模式。正則表達式的應用范圍十分廣泛，包括驗…

閱讀更多...

OpenCV CUDA模塊設備層-----在 GPU上計算反雙曲正切函數atanh()

OpenCV CUDA模塊設備層-----在 GPU上計算反雙曲正切函數atanh()

操作系統：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 編程語言：C11 算法描述對輸入的 uchar1 像素值（范圍 [0, 255]），先歸一化到 [0.0, 1.0] 浮點區間，然后計算其反雙曲正切…

閱讀更多...

搶占西南產業高地:入駐成都芯谷金融中心文化科技產業園的價值

搶占西南產業高地:入駐成都芯谷金融中心文化科技產業園的價值

入駐成都芯谷金融中心文化科技產業園，對企業而言具有顯著的戰略價值，主要體現在以下幾個方面： 產業聚集效應與協同發展產業鏈完善：成都芯谷聚焦集成電路、新型顯示、人工智能等核心產業，入駐企業可享受完善的產業鏈…

閱讀更多...

領域驅動設計(DDD)【2】之項目啟動與DDD基本開發流程

領域驅動設計(DDD)【2】之項目啟動與DDD基本開發流程

文章目錄一項目背景與目標二核心需求分析初步需求詳細分析需求總結表三 DDD核心概念與開發流程領域和領域專家領域驅動設計開發流程四潛在擴展需求一項目背景與目標項目定位開發基于SaaS的企業管理系統，聚焦軟件服務企業的細分市場，功能需求包…

閱讀更多...

深度融合數智化，百勝軟件聯合華為云加速零售行業轉型升級

深度融合數智化，百勝軟件聯合華為云加速零售行業轉型升級

當前，企業數字化轉型縱深推進，滿足企業數智化全階段、全場景的需求變得尤為關鍵。為此，華為云攜手上萬家伙伴共同發起第三屆828 B2B企業節，依托云底座為企業數智化供需“架橋”“鋪路”，加速企業智改數轉，助…

閱讀更多...

《HTTP權威指南》第4章連接管理

《HTTP權威指南》第4章連接管理

帶著問題學習（通常是面試考點） HTTP是如何使用TCP連接的TCP連接的時延、瓶頸及存在的障礙HTTP的優化，包括并行連接、keep-alive（持久連接）和管道化連接管理連接時應該和不應該做的事 TCP連接 TCP的數據通過IP分組&am…

閱讀更多...

StartUML入門級使用教程——畫Class類圖

StartUML入門級使用教程——畫Class類圖

一、破解安裝StartUML StarUML建模工具最新版破解安裝詳細教程https://blog.csdn.net/m0_74146638/article/details/148709643?spm1001.2014.3001.5502 二、類圖實戰 1.主界面 ? 默認打開starUML后，會默認進入類圖模式，各模塊區域功能如下&#x…

閱讀更多...

中科億海微SoM模組——FPGA+DSP核心板

中科億海微SoM模組——FPGA+DSP核心板

FPGADSP核心板是基于中科億海微EQ6HL130型FPGA芯片搭配國產DSP開發的高性能核心板卡。對外接口采取郵票孔連接方式，可以極大提高信號傳輸質量和焊接后的機械強度。核心板卡的系統框圖如下圖所示。圖 FPGADSP核心板系統框圖 FPGA采用中科億海微136K LUT資源EQ6HL130…

閱讀更多...

最新文章