2023年國賽數學建模思路 - 案例:FPTree-頻繁模式樹算法

文章目錄

    • 算法介紹
    • FP樹表示法
    • 構建FP樹
    • 實現代碼
  • 建模資料

## 賽題思路

(賽題出來以后第一時間在CSDN分享)

https://blog.csdn.net/dc_sinor?type=blog

算法介紹

FP-Tree算法全稱是FrequentPattern Tree算法,就是頻繁模式樹算法,他與Apriori算法一樣也是用來挖掘頻繁項集的,不過不同的是,FP-Tree算法是Apriori算法的優化處理,他解決了Apriori算法在過程中會產生大量的候選集的問題,而FP-Tree算法則是發現頻繁模式而不產生候選集。但是頻繁模式挖掘出來后,產生關聯規則的步驟還是和Apriori是一樣的。

常見的挖掘頻繁項集算法有兩類,一類是Apriori算法,另一類是FP-growth。Apriori通過不斷的構造候選集、篩選候選集挖掘出頻繁項集,需要多次掃描原始數據,當原始數據較大時,磁盤I/O次數太多,效率比較低下。FPGrowth不同于Apriori的“試探”策略,算法只需掃描原始數據兩遍,通過FP-tree數據結構對原始數據進行壓縮,效率較高。

FP代表頻繁模式(Frequent Pattern) ,算法主要分為兩個步驟:FP-tree構建、挖掘頻繁項集。

FP樹表示法

FP樹通過逐個讀入事務,并把事務映射到FP樹中的一條路徑來構造。由于不同的事務可能會有若干個相同的項,因此它們的路徑可能部分重疊。路徑相互重疊越多,使用FP樹結構獲得的壓縮效果越好;如果FP樹足夠小,能夠存放在內存中,就可以直接從這個內存中的結構提取頻繁項集,而不必重復地掃描存放在硬盤上的數據。

一顆FP樹如下圖所示:
  在這里插入圖片描述
通常,FP樹的大小比未壓縮的數據小,因為數據的事務常常共享一些共同項,在最好的情況下,所有的事務都具有相同的項集,FP樹只包含一條節點路徑;當每個事務都具有唯一項集時,導致最壞情況發生,由于事務不包含任何共同項,FP樹的大小實際上與原數據的大小一樣。

FP樹的根節點用φ表示,其余節點包括一個數據項和該數據項在本路徑上的支持度;每條路徑都是一條訓練數據中滿足最小支持度的數據項集;FP樹還將所有相同項連接成鏈表,上圖中用藍色連線表示。

為了快速訪問樹中的相同項,還需要維護一個連接具有相同項的節點的指針列表(headTable),每個列表元素包括:數據項、該項的全局最小支持度、指向FP樹中該項鏈表的表頭的指針。
  在這里插入圖片描述

構建FP樹

現在有如下數據:

在這里插入圖片描述

FP-growth算法需要對原始訓練集掃描兩遍以構建FP樹。

第一次掃描,過濾掉所有不滿足最小支持度的項;對于滿足最小支持度的項,按照全局最小支持度排序,在此基礎上,為了處理方便,也可以按照項的關鍵字再次排序。
在這里插入圖片描述

第二次掃描,構造FP樹。

參與掃描的是過濾后的數據,如果某個數據項是第一次遇到,則創建該節點,并在headTable中添加一個指向該節點的指針;否則按路徑找到該項對應的節點,修改節點信息。具體過程如下所示:

在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
在這里插入圖片描述
 從上面可以看出,headTable并不是隨著FPTree一起創建,而是在第一次掃描時就已經創建完畢,在創建FPTree時只需要將指針指向相應節點即可。從事務004開始,需要創建節點間的連接,使不同路徑上的相同項連接成鏈表。

實現代碼

def loadSimpDat():simpDat = [['r', 'z', 'h', 'j', 'p'],['z', 'y', 'x', 'w', 'v', 'u', 't', 's'],['z'],['r', 'x', 'n', 'o', 's'],['y', 'r', 'x', 'z', 'q', 't', 'p'],['y', 'z', 'x', 'e', 'q', 's', 't', 'm']]return simpDatdef createInitSet(dataSet):retDict = {}for trans in dataSet:fset = frozenset(trans)retDict.setdefault(fset, 0)retDict[fset] += 1return retDictclass treeNode:def __init__(self, nameValue, numOccur, parentNode):self.name = nameValueself.count = numOccurself.nodeLink = Noneself.parent = parentNodeself.children = {}def inc(self, numOccur):self.count += numOccurdef disp(self, ind=1):print('   ' * ind, self.name, ' ', self.count)for child in self.children.values():child.disp(ind + 1)def createTree(dataSet, minSup=1):headerTable = {}#此一次遍歷數據集, 記錄每個數據項的支持度for trans in dataSet:for item in trans:headerTable[item] = headerTable.get(item, 0) + 1#根據最小支持度過濾lessThanMinsup = list(filter(lambda k:headerTable[k] < minSup, headerTable.keys()))for k in lessThanMinsup: del(headerTable[k])freqItemSet = set(headerTable.keys())#如果所有數據都不滿足最小支持度,返回None, Noneif len(freqItemSet) == 0:return None, Nonefor k in headerTable:headerTable[k] = [headerTable[k], None]retTree = treeNode('φ', 1, None)#第二次遍歷數據集,構建fp-treefor tranSet, count in dataSet.items():#根據最小支持度處理一條訓練樣本,key:樣本中的一個樣例,value:該樣例的的全局支持度localD = {}for item in tranSet:if item in freqItemSet:localD[item] = headerTable[item][0]if len(localD) > 0:#根據全局頻繁項對每個事務中的數據進行排序,等價于 order by p[1] desc, p[0] descorderedItems = [v[0] for v in sorted(localD.items(), key=lambda p: (p[1],p[0]), reverse=True)]updateTree(orderedItems, retTree, headerTable, count)return retTree, headerTabledef updateTree(items, inTree, headerTable, count):if items[0] in inTree.children:  # check if orderedItems[0] in retTree.childreninTree.children[items[0]].inc(count)  # incrament countelse:  # add items[0] to inTree.childreninTree.children[items[0]] = treeNode(items[0], count, inTree)if headerTable[items[0]][1] == None:  # update header tableheaderTable[items[0]][1] = inTree.children[items[0]]else:updateHeader(headerTable[items[0]][1], inTree.children[items[0]])if len(items) > 1:  # call updateTree() with remaining ordered itemsupdateTree(items[1:], inTree.children[items[0]], headerTable, count)def updateHeader(nodeToTest, targetNode):  # this version does not use recursionwhile (nodeToTest.nodeLink != None):  # Do not use recursion to traverse a linked list!nodeToTest = nodeToTest.nodeLinknodeToTest.nodeLink = targetNodesimpDat = loadSimpDat()
dictDat = createInitSet(simpDat)
myFPTree,myheader = createTree(dictDat, 3)
myFPTree.disp()

上面的代碼在第一次掃描后并沒有將每條訓練數據過濾后的項排序,而是將排序放在了第二次掃描時,這可以簡化代碼的復雜度。

控制臺信息:

在這里插入圖片描述

建模資料

資料分享: 最強建模資料
在這里插入圖片描述
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/39266.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/39266.shtml
英文地址,請注明出處:http://en.pswp.cn/news/39266.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

QT-Mysql數據庫圖形化接口

QT sql mysqloper.h qsqlrelationaltablemodelview.h /************************************************************************* 接口描述&#xff1a;Mysql數據庫圖形化接口 擬制&#xff1a; 接口版本&#xff1a;V1.0 時間&#xff1a;20230727 說明&#xff1a;支…

基于VUE3+Layui從頭搭建通用后臺管理系統(前端篇)九:自定義組件封裝下

一、本章內容 續上一張,本章實現一些自定義組件的封裝,包括文件上傳組件封裝、級聯選擇組件封裝、富文本組件封裝等。 1. 詳細課程地址: 待發布 2. 源碼下載地址: 待發布 二、界面預覽 三、開發視頻 基于VUE3+Layui從頭搭建通用后臺管

【軟件工程】內聚

概念 是指一個模塊內部個成分之間相互關聯程度的度量。也就是說&#xff0c;凝聚是對模塊內各處理動作組合強度的一種度量。很顯然&#xff0c;一個模塊的內聚越大越好。 偶然凝聚 一個模塊內的各處理元素之間沒有任何聯系&#xff0c;只是偶然地被湊到一起。這種模塊也稱為…

mov轉mp4格式怎么轉?

mov轉mp4格式怎么轉&#xff1f;眾所周知&#xff0c;MOV視頻格式是由蘋果公司推出的常用的視頻格式&#xff0c;能夠在蘋果軟件及設備上使用。但是&#xff0c;如果將其應用于其他軟件和設備上的話&#xff0c;可能會遇到文件無法正常播放的情況。在這個時候&#xff0c;我們需…

Linux MQTT智能家居項目(LED界面的布局設置)

文章目錄 前言一、LED界面布局準備工作二、LED界面布局三、邏輯實現總結 前言 上篇文章我們完成了主界面的布局設置那么這篇文章我們就來完成各個界面的布局設置吧。 一、LED界面布局準備工作 首先添加LED燈光控制的圖標。 將選擇好的LED圖標添加進來&#xff1a; 圖標可以…

drawio導出矢量圖

1.選中要導出的圖 2.導出為pdf 3.用adobe打開pdf&#xff0c;另存為eps

華為認證含金量如何

華為認證是指通過華為技術有限公司官方認證考試所獲得的認證資格。華為認證主要分為三個級別&#xff1a;華為認證工程師&#xff08;HCIE&#xff09;、華為認證專家&#xff08;HCNP&#xff09;和華為認證技術專家&#xff08;HCNA&#xff09;&#xff0c;每個級別都有不同…

在測試環境進行sqlserver鎖表測試

將某表設置X鎖1分鐘&#xff1a; begin tran select top 1 * from tableName with (tablockx) waitfor delay 00:01:00 commit tran 查詢當前被鎖的表&#xff1a; --查詢鎖表的事務ID&#xff0c;被鎖表名&#xff0c;鎖模式&#xff0c;客戶端主機名&#xff0c;客戶端程序…

你真的了解數據結構與算法嗎?

數據結構與算法&#xff0c;是理論和實踐必須緊密結合的一門學科&#xff0c;有關數據結構和算法同類的課程或書籍&#xff0c;有些只是名為“數據結構”&#xff0c;而非“數據結構與算法”&#xff0c;它們在內容上并無很大區別。 實際上&#xff0c;數據結構和算法&#xf…

【華為認證 Datacom 練習題(有答案喲)】

1&#xff08;單選題&#xff09;下列配置默認路由的命令中&#xff0c;正確的是&#xff08;&#xff09;。 A、 B、 C、 D、 正確答案A 2&#xff08;單選題&#xff09;UDP是面向無連接的&#xff0c;必須使用&#xff08;&#xff09;來提供傳輸的可靠性。 A、網絡層…

深入源碼分析kubernetes informer機制(零)簡單了解informer

[閱讀指南] 基于kubernetes 1.27 stage版本 為了方便閱讀&#xff0c;后續所有代碼均省略了錯誤處理及與關注邏輯無關的部分。 文章目錄 關于client-goInformer是什么為什么需要informerInformer工作流程后續分析計劃 關于client-go client-go是kubernetes節點與服務端進行資源…

揭秘熱門工作秘籍:ChatGPT大顯身手!輕松提升工作效率的高效Prompt技巧曝光!

目錄 01 背景 福利&#xff1a;文末有chat-gpt純分享&#xff0c;無魔法&#xff0c;無限制 02 AI 可以幫助程序員做什么&#xff1f; 2.1 技術知識總結 2.2 拆解任務 2.3 閱讀代碼/優化代碼 2.4 代碼生成 2.5 生成單測 2.6 更多 AI 應用/插件 AIPRM Voice Control for Ch…

2023企業微信0day漏洞復現以及處理意見

2023企業微信0day漏洞復現以及處理意見 一、 漏洞概述二、 影響版本三、 漏洞復現小龍POC檢測腳本: 四、 整改意見 免責聲明&#xff1a;請勿利用文章內的相關技術從事非法測試&#xff0c;由于傳播、利用此文所提供的信息或者工具而造成的任何直接或者間接的后果及損失&#x…

論文閱讀:《Waymo Public Road Safety Performance Data》

文章目錄 1 背景2 方法2.1 數據來源2.2 碰撞數據 3 碰撞事件分析4 討論 1 背景 這篇文章是講waymo道路安全性能數據分析的&#xff0c;主要想表達的是waymo自動駕駛系統在安全上面的出色表現&#xff0c;以向政府、大眾提高自己產品的公信力。 這篇文章分析的數據是自從2019年到…

Django圖書商城系統實戰開發 - 實現會員管理

Django圖書商城系統實戰開發 - 實現會員管理 在Django圖書商城系統中&#xff0c;會員管理是一個重要的功能模塊。該模塊包括會員信息的展示、編輯和刪除等功能。以下是實現會員管理功能的詳細步驟和代碼示例。 步驟一&#xff1a;設計數據庫模型 首先&#xff0c;我們需要設…

Transactional注解的方法中數據庫和redis的回滾問題

問題背景&#xff1a;如果某個方法加了Transactional注解&#xff0c;而這個方法中既包括mysql事務又包括redis事務&#xff0c;那么如何做到mysql和redis都回滾&#xff1f; mysql事務支持回滾&#xff0c;但redis的事務是不支持回滾的&#xff0c;但它倆都在當前方法的事務里…

MySQL高階知識點(一)事務的并發問題和隔離級別

簡單來說&#xff0c;事務就是要保證一組數據庫操作&#xff0c;要么全部成功&#xff0c;要么全部失敗。 在 MySQL 中&#xff0c;事務支持是在引擎層實現的。 MySQL 是一個支持多引擎的系統&#xff0c;但并不是所有的引擎都支持事務。 如 MySQL 原生的 MyISAM 引擎就不支持…

MBR400100CT-ASEMI肖特基模塊MBR400100CT

編輯&#xff1a;ll MBR400100CT-ASEMI肖特基模塊MBR400100CT 型號&#xff1a;MBR400100CT 品牌&#xff1a;ASEMI 封裝&#xff1a;M2 正向電流&#xff1a;400A 反向電壓&#xff1a;100V 引線數量&#xff1a;2 芯片個數&#xff1a;2 芯片尺寸&#xff1a;102MIL…

Django 初級指南:創建你的第一個 Django 項目

Django 是一個強大的 Python Web 框架&#xff0c;它采用了“模型-視圖-控制器”&#xff08;MVC&#xff09;的設計模式&#xff0c;能夠幫助開發者快速、簡潔地創建高質量的 Web 應用。這篇文章將引導你創建你的第一個 Django 項目。 一、安裝 Django 首先&#xff0c;你需…

OpenCV-Python中的圖像處理-霍夫變換

OpenCV-Python中的圖像處理-霍夫變換 霍夫變換霍夫直線變換霍夫圓環變換 霍夫變換 霍夫(Hough)變換在檢測各種形狀的技術中非常流行&#xff0c;如果要檢測的形狀可以用數學表達式描述&#xff0c;就可以是使用霍夫變換檢測它。即使要檢測的形狀存在一點破壞或者扭曲也是可以使…