【數據分析九:Association Rule】關聯分析

一、數據挖掘定義

數據挖掘:
從大量的數據中挖掘那些令人感興趣的、有用的、隱含的、先前未知的
和可能有用的 模式或知識 ,并據此更好的服務人們的生活。

二、四類任務

數據分析有哪些任務?

今天我們來講述其中的關聯分析

三、關聯分析

典型例子:啤酒與尿布

常用方法 —— 關聯規則挖掘 (Association Rule Mining)

????????給出事務的集合, 能夠發現一些規則:𝐴 => 𝐵

????????當事務中某些子項出現時,預測其他子項也出現

基本概念:

Association Rule(關聯規則)

????形如X → Y的表達式,X, Y均為項集

????例:{Milk, Diaper} →{Beer}

Confidence (置信度)

????度量包含X的事務中同時出現Y的頻率

????例:對于關聯規則{Milk, Diaper} →{Beer}

????confidence({Milk, Diaper} →{Beer})= 2/3

強關聯規則

????用戶自行設定最小置信度閾值min _conf,置信度大于min _conf的規則稱為強關聯規則

????例:設min _conf = 0.5,則{Milk, Diaper} →{Beer}為強關聯規則

四、APriori算法

生成頻繁項集

核心思想:廣度優先搜索,自底而上遍歷,逐步生成候選集與頻繁項集

反單調性原理:如果一個項集是頻繁的,則它的所有子集一定也是頻繁

成立原因:

?????????X, Y: X ? Y → Support X ≥ Support(Y)

????????依據該性質,對于某k+1項集,只要存在一個k項子集不是頻繁項集, 則可以直接判定該項集不是頻繁項集

?

算法步驟

????????連接步:從頻繁 K-1 項集生成候選K項集

????????剪枝步:從候選 K 項集篩選出頻繁K項集

舉個例子:

下圖為某商店的用戶購買記錄,共有9個事務,A-Priori假定事務中的項按字典次序存放。

(1) 在算法的第一次迭代,每個項都是候選1項集的集合C_1的成員。算法簡單地掃描所有的事務,對每個項的出現次數計數

(2) 設最小支持度計數=2,可以確定頻繁1項集的集合L_1

(3) 使用L1? L1產生候選2項集的集合C_2

(4) 掃描數據集,計算C_2中每個候選項集的支持度

(5)最小支持度計數=2,確定頻繁2項集的集合L_2

(6) 使用L2? L2產生候選3項集的集合C_3

(7) 掃描數據集,計算C_3中每個候選項集的支持度

(8)最小支持度計數=2,確定頻繁3項集的集合L_3

(9) 使用L3? L3產生候選4項集的集合C4,盡管連接產生結果 \{l_1, l_2, l_3, l_5\}?,這個項集被

剪去,因為它的子集 \{l_2, l_3, l_5\}不是頻繁的。則C4 = ? ,因此算法終止,找出了所有的

頻繁項集如下

五、生成規則

關聯規則挖掘的第二步:如何從頻繁項集中生成規則?

若{A,B,C,D}是頻繁項集, 候選規則有14種:

ABC →D, ABD →C, ACD →B, BCD →A,

A →BCD,B →ACD, C →ABD, D →ABC

AB →CD,AC → BD, AD → BC, BC →AD,BD →AC, CD →AB,

|L| = k, 則有2^k- 2 種候選的關聯規則(忽略L → \phi\phi?→ L)

關聯規則生成(Rule Generation)—— 計算復雜度

對于d個項目:

候選項集數=?2^d

可能規則數R =?3^d-2^{d+1}+1

六、辛普森悖論

相關關系≠因果關系,但相關關系的背后可能蘊含著某種因果

例如,公雞打鳴 → 太陽升起,從關聯規則角度來說,是高置信度規則,說明“公雞打鳴 ”與“太陽升起”很相關,但并不是因果關系

第二個實例:

適當的數據分層有助于避免辛普森悖論


下一講,我們將講述分類和預測

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/85707.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/85707.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/85707.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AWS Security Hub郵件告警設置

問題 需要給AWS Security Hub設置郵件告警。 前提 已經啟用AWS Security Hub。 AWS SNS 創建一個AWS Security Hub告警主題SecurityHub-Topic,如下圖: 創建完成后,訂閱該主題。 AWS EventBridge 設置規則名SecurityHubFindings-Rules…

(OSGB轉3DTiles強大工具)ModelSer--強大的實景三維數據分布式管理平臺

1. ModelSer 能幫我們做什么 1.1 最快速的 osgb 發布 3dtiles 服務 測試的速度大于 10G/分鐘,且速度基本是線性的(100G10分鐘,1T100分鐘)。支持城市級傾斜數據半天內完成服務發布,并支持數據的單塊更新。 1.2 支持所見…

《HTTP權威指南》 第5-6章 Web服務器和代理

基本Web服務器請求的步驟 1、建立連接 接受一個客戶端連接,或者如果不希望與這個客戶端建立連接,就將其關閉。 處理新連接客戶端主機名識別:反向DNS查找,將IP地址轉換為客戶端主機名過ident確定客戶端用戶:客戶端支持…

微信二次開發,對接智能客服邏輯

接口友情鏈接,點擊即可訪問。 ## 設備創建與復用機制 首次調用/login/getLoginQrCode需傳空appId觸發設備創建,響應返回固定設備ID。后續登錄必須復用此ID以避免風控(同一微信號綁定固定設備)。設備類型可選ipad/mac,當…

網站并發訪問量達到1萬以上需要注意哪些事項

當網站并發訪問量達到1萬以上時,需要注意以下幾個方面?: ?服務器硬件配置?: ?處理器(CPU)?:選擇多核、高頻率的CPU,以確保服務器能夠高效地處理大量的請求。?內存(RAM&#xf…

二、OpenCV的第一個程序

文章目錄 一、第一個程序:顯示圖片1.1 cv::imread1.2 cv::namedWindow1.3 cv::imshow 二、第二個程序:視頻2.1 cv::VideoCapture 三、加入了滑動條的基本瀏覽窗口 一、第一個程序:顯示圖片 示例:一個簡單的加載并顯示圖像的OpenC…

第14次:商品列表、熱銷商品及詳情

第1步:定義獲取商品列表的視圖類ListView,本視圖中完成了如下功能: 根據商品類別id獲取商品類別信息,并根據類別信息反向查詢到所有的該類別的商品。根據頁號和排序方式兩個參數,獲取某個頁面的商品列表信息。 #good…

基于雙層注意力重加權 LSTM 的中文長文本謠言檢測模型

文章目錄 1.摘要2.介紹3.相關工作3.1 假新聞檢測數據集3.2 假新聞檢測方法3.3 長文本假新聞檢測的挑戰與進展3.4 與現有方法的區別 4.方法4.1 模型結構4.2模型代碼4.3 損失函數與優化方法 5. 實驗5.1 數據集與預處理5.2 實驗設置5.3 實驗結果5.4 對比分析5.5 結果分析與討論 6.…

在 MyBatis 的xml中,什么時候大于號和小于號可以不用轉義

在 MyBatis 中&#xff0c;< 和 > ?在動態 SQL 標簽內部? 無需轉義的功能是在以下版本引入的&#xff1a; &#x1f4cc; 關鍵版本說明 版本支持情況注意事項?MyBatis 3.3.0??? 在 <if>、<where>、<set> 等動態 SQL 標簽內部可直接使用 < 和…

Redis 的穿透、雪崩、擊穿

Redis 的穿透、雪崩、擊穿 1、緩存穿透 定義 緩存穿透是指查詢一個不存在的數據&#xff0c;由于緩存中沒有該數據&#xff0c;每次請求都會直接訪問數據庫&#xff0c;導致數據庫壓力過大 產生原因 惡意攻擊&#xff1a;攻擊者故意請求大量不存在的key&#xff0c;導致請求直…

有道翻譯官手機版:智能翻譯,隨行助手

在當今全球化的時代&#xff0c;語言不再是交流的障礙。無論是學習外語、出國旅游、商務出差還是日常交流&#xff0c;一款高效、準確的翻譯軟件都能成為我們的好幫手。有道翻譯官手機版正是這樣一款功能強大、操作便捷的語言翻譯軟件&#xff0c;它憑借先進的翻譯技術和豐富的…

nuxt3 + vue3 分片上傳組件全解析(大文件分片上傳)

本文將詳細介紹一個基于 Vue.js 的分片上傳組件的設計與實現,該組件支持大文件分片上傳進度顯示等功能。 組件概述 這個上傳組件主要包含以下功能: 支持大文件分片上傳(默認5MB一個分片)支持文件哈希計算,用于文件唯一標識顯示上傳進度(整體和單個文件)支持自定義UI樣…

正則表達式與C++

轉自個人博客 1. 概述 1.1 正則表達式概述 正則表達式&#xff08;Regular Expressions&#xff0c;簡稱 regex&#xff09;是用于匹配文本模式的一種特殊字符序列&#xff0c;其可以用一系列字符來表示出不同文本的對應模式。正則表達式的應用范圍十分廣泛&#xff0c;包括驗…

OpenCV CUDA模塊設備層-----在 GPU上計算反雙曲正切函數atanh()

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 對輸入的 uchar1 像素值&#xff08;范圍 [0, 255]&#xff09;&#xff0c;先歸一化到 [0.0, 1.0] 浮點區間&#xff0c;然后計算其 反雙曲正切…

搶占西南產業高地:入駐成都芯谷金融中心文化科技產業園的價值

入駐成都芯谷金融中心文化科技產業園&#xff0c;對企業而言具有顯著的戰略價值&#xff0c;主要體現在以下幾個方面&#xff1a; 產業聚集效應與協同發展 產業鏈完善&#xff1a;成都芯谷聚焦集成電路、新型顯示、人工智能等核心產業&#xff0c;入駐企業可享受完善的產業鏈…

領域驅動設計(DDD)【2】之項目啟動與DDD基本開發流程

文章目錄 一 項目背景與目標二 核心需求分析初步需求詳細分析需求總結表 三 DDD核心概念與開發流程領域和領域專家領域驅動設計開發流程 四 潛在擴展需求 一 項目背景與目標 項目定位 開發基于SaaS的企業管理系統&#xff0c;聚焦軟件服務企業的細分市場&#xff0c;功能需求包…

深度融合數智化,百勝軟件聯合華為云加速零售行業轉型升級

當前&#xff0c;企業數字化轉型縱深推進&#xff0c;滿足企業數智化全階段、全場景的需求變得尤為關鍵。為此&#xff0c;華為云攜手上萬家伙伴共同發起第三屆828 B2B企業節&#xff0c;依托云底座為企業數智化供需“架橋”“鋪路”&#xff0c;加速企業智改數轉&#xff0c;助…

《HTTP權威指南》 第4章 連接管理

帶著問題學習&#xff08;通常是面試考點&#xff09; HTTP是如何使用TCP連接的TCP連接的時延、瓶頸及存在的障礙HTTP的優化&#xff0c;包括并行連接、keep-alive&#xff08;持久連接&#xff09;和管道化連接管理連接時應該和不應該做的事 TCP連接 TCP的數據通過IP分組&am…

StartUML入門級使用教程——畫Class類圖

一、破解安裝StartUML StarUML建模工具最新版破解安裝詳細教程https://blog.csdn.net/m0_74146638/article/details/148709643?spm1001.2014.3001.5502 二、類圖實戰 1.主界面 ? 默認打開starUML后&#xff0c;會默認進入類圖模式&#xff0c;各模塊區域功能如下&#x…

中科億海微SoM模組——FPGA+DSP核心板

FPGADSP核心板是基于中科億海微EQ6HL130型FPGA芯片搭配國產DSP開發的高性能核心板卡。對外接口采取郵票孔連接方式&#xff0c;可以極大提高信號傳輸質量和焊接后的機械強度。核心板卡的系統框圖如下圖所示。 圖 FPGADSP核心板系統框圖 FPGA采用中科億海微136K LUT資源EQ6HL130…