我用AI做數據分析之四種堆疊聚合模型的比較

我用AI做數據分析之四種堆疊聚合模型的比較

這里AI數據分析不僅僅是指AI生成代碼的能力,我想是測試AI數據分析方面的四個能力,理解人類指令的能力、撰寫代碼的能力、執行代碼的能力和解釋結果的能力。如果這四個能力都達到了相當的水準,才可以說真正實現了AI數據分析。而目前AI作為IDE插件的形式,只能說是半自動的AI數據分析。

之前測試過程中,AI在數據清洗方面,包括更改列名、尋找錄入錯誤等方面體現出了優于一般工具的表現,展現了良好地對任務的理解能力和對表格的處理能力,沒有涉及撰寫代碼等能力。

目的

既然有了AI的輔助,我們需要做一些自己能力之上的事情,之前自己對堆疊聚合模型有了解但是了解不多,且沒有用Python進行過編碼,在相關知識和編碼能力上都不能完成對各種堆疊聚合模型的測試和比較,所以這次定的目標是對“常見堆疊聚合模型的測試比較”。

背景

堆疊聚合模型(Stacking Aggregation Model),也被簡稱為 Stacking 模型,是一種高級的集成學習技術。它的核心思想是將多個不同的基礎模型(如決策樹、邏輯回歸、神經網絡等)的預測結果進行二次建模組合 。在這個過程中,第一層由多個不同的基礎模型組成,這些基礎模型在訓練數據上進行訓練,然后對測試數據做出預測。這些預測結果會被當作新的特征,輸入到第二層的模型(通常稱為元模型)中進行訓練和預測。通過這種方式,Stacking 模型能夠綜合利用各個基礎模型的優勢,挖掘出數據中更復雜的模式,從而有可能獲得比單個模型更好的預測性能。

基礎模型選擇策略:盡量選擇多樣化的基礎模型,比如線性模型(如線性回歸、邏輯回歸)與非線性模型(如決策樹、支持向量機)相結合。不同類型的模型對數據的理解和捕捉模式的能力不同,組合在一起可以覆蓋更廣泛的特征空間。例如在一個房價預測任務中,線性回歸可以捕捉房價與房屋面積等簡單線性關系,而決策樹則能發現不同區域、房屋類型等復雜條件下的房價規律。
交叉驗證策略:在訓練 Stacking 模型時,為了避免過擬合和更有效地利用數據,常使用交叉驗證。以 k 折交叉驗證為例,將訓練數據分成 k 份,每次用 k - 1 份數據訓練基礎模型,然后對剩下的 1 份數據進行預測。這樣重復 k 次,就可以得到所有訓練數據的預測結果,這些結果作為元模型的訓練數據。這種方式確保了基礎模型的預測結果是基于未見過的數據,提高了模型的泛化能力。
元模型選擇策略:元模型的選擇很關鍵,它需要能夠有效整合基礎模型的預測信息。常用的元模型有邏輯回歸、決策樹、神經網絡等。如果基礎模型的預測結果之間存在復雜的非線性關系,神經網絡可能是更好的選擇;若希望模型有較好的可解釋性,邏輯回歸或決策樹可能更合適。比如在一個信用風險評估中,如果只需要簡單判斷風險高低,邏輯回歸作為元模型就可以清晰地展示各基礎模型預測結果對最終風險判斷的影響權重。

結果

AI推薦了四種常見的堆疊聚合模型的組合,分別是:

組合1: logistic(base) + decision tree(base) +logistic(meta)
組合2:logistic(base) + decision tree(base) + neural network(meta) 組合3:
SVC(base) + KNN(base) +logistic(meta) 組合4: SVC(base) + KNN(base) +
neural network(meta)

另外,使用AI形成了分析的基礎代碼,代碼質量還是可以,用到的庫比較單一,主要是用scikit-learn中的代碼;

但是AI在執行代碼方面遇到問題,顯示內核讀取失敗“kernel iopub read failed ”,看來AI在數據執行方面有一定的局限性;之前還遇到一個執行問題是沒有相應的庫。

結果是在給定的數據集上,組合1的效果最佳,但是在不同的數據集上可能有不同的表現。在這里插入圖片描述
用AI解釋結果是沒問題的,解釋仔細也都對。

最后

AI數據分析需要的四個能力中,代碼執行部分是短板,但是借助AI,我們已經能做一些能力之上的事情,基礎的事情AI已經能做了,把AI這些基礎的能力整合起來,規劃一些多步驟的任務說明一定的問題,可能更有意義。
項目代碼:https://www.heywhale.com/mw/project/67abfca747828d409e8090ea

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895605.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895605.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895605.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DC-6靶機滲透測試全過程

目錄 前期準備 一、滲透測試 1.IP地址查詢 2.端口信息搜尋 3.網頁信息搜集 wappalyzer WPScan 反彈shell graham用戶 反彈出jens的shell nmap提權 二、總結 前期準備 攻擊機: kali windows11 靶機:DC-6靶機(調至NAT模式&#xff0…

[操作系統] 基礎IO:系統文件I/O

在 Linux 操作系統中,文件 I/O(輸入/輸出)是程序與文件系統交互的基礎。理解文件 I/O 的工作原理對于編寫高效、可靠的程序至關重要。本文將深入探討系統文件 I/O 的機制。 一種傳遞標志位的方法 在 Linux 中,文件的打開操作通常…

3.8 AI驅動的市場調研革命:從數據采集到競品策略生成的閉環實踐指南

AI驅動的市場調研革命:從數據采集到競品策略生成的閉環實踐指南 引言:智能時代的高效市場洞察 Forrester研究顯示,使用AI輔助市場調研可使數據采集效率提升8倍,策略生成速度加快4倍。本文以GitHub Sentinel、LanguageMentor為案例,揭示如何構建AI增強型市場分析體系,實現…

AF3 MmcifObject類解讀

AlphaFold3 中 MmcifObject類 是 解析 mmCIF 文件的核心數據結構,用于存儲解析后的蛋白質結構信息,包含PDB 頭部信息、Biopython 解析的結構、鏈序列信息等。 下面代碼包含 Monomer 、AtomSite、ResiduePosition、ResidueAtPosition、 MmcifObject以及ParsingResult數據類的…

網絡安全 “免疫力”:從人體免疫系統看防御策略

在當今數字化時代,網絡安全已變得至關重要。每天,我們的網絡系統都面臨著來自各方的威脅,就像人體時刻暴露在各種病原體中一樣。今天,我們就來聊聊網絡安全與人體免疫系統的奇妙聯系,看看從免疫系統中能汲取哪些構建強…

滾動彈幕案例

滾動彈幕案例 一、需求 1.頁面上漂浮字體大小不一、顏色不一&#xff0c;從左向右滾動的彈幕&#xff1b; 2.底部中間有一個發送功能&#xff0c;可以發送新的彈幕&#xff1b; 3.底部的發送部分可以向下收起和彈出。 二、html <div class"container"><…

【wiki知識庫】08.添加用戶登錄功能--后端SpringBoot部分

目錄 一、今日目標? 二、SpringBoot后端實現 2.1 新增UserLoginParam 2.2 修改UserController 2.3 UserServiceImpl代碼 2.4 創建用戶上下文工具類 2.5?通過token校驗用戶&#xff08;重要&#xff09; 2.6 創建WebMvcConfig 2.7 用戶權限校驗攔截器 一、今日目標 上…

AI大模型的技術突破與傳媒行業變革

性能與成本&#xff1a;AI大模型的“雙輪驅動” 過去幾年&#xff0c;AI大模型的發展經歷了從實驗室到產業化的關鍵轉折。2025年初&#xff0c;以DeepSeek R1為代表的模型在數學推理、代碼生成等任務中表現超越國際頭部產品&#xff0c;而訓練成本僅為傳統模型的幾十分之一。這…

C++字符串處理指南:從基礎操作到性能優化——基于std::string的全面解析

博主將從C標準庫中的 std::string 出發&#xff0c;詳細探討字符串的處理方法&#xff0c;涵蓋常見操作、性能優化和實際應用場景。以下內容將圍繞std::string 的使用展開&#xff0c;結合代碼示例進行說明。 一、std::string 的基本操作 1.1 創建與初始化 std::string 提供了…

3.【線性代數】——矩陣乘法和逆矩陣

三 矩陣乘法和逆矩陣 1. 矩陣乘法1.1 常規方法1.2 列向量組合1.3 行向量組合1.4 單行和單列的乘積和1.5 塊乘法 2. 逆矩陣2.1 逆矩陣的定義2.2 奇異矩陣2.3 Gauss-Jordan 求逆矩陣2.3.1 求逆矩陣 ? \Longleftrightarrow ?解方程組2.3.2 Gauss-Jordan求逆矩陣 1. 矩陣乘法 1.…

深入了解 Oracle 正則表達式

目錄 深入了解 Oracle 正則表達式一、正則表達式基礎概念二、Oracle 正則表達式語法&#xff08;一&#xff09;字符類&#xff08;二&#xff09;重復限定符&#xff08;三&#xff09;邊界匹配符&#xff08;四&#xff09;分組和捕獲 三、Oracle 正則表達式函數&#xff08;…

用python寫一個聊天室程序

下面是一個簡單的基于Socket的Python聊天室程序示例&#xff0c;包括服務器端和客戶端&#xff1a; 服務器端代碼&#xff1a; import socket import threadingdef handle_client(client, address):print(f"New connection from {address}")while True:msg client…

在nodejs中使用RabbitMQ(六)sharding消息分片

RabbitMQ 的分片插件&#xff08;rabbitmq_sharding&#xff09;允許將消息分布到多個隊列中&#xff0c;這在消息量很大或處理速度要求高的情況下非常有用。分片功能通過將消息拆分到多個隊列中來平衡負載&#xff0c;從而提升消息處理的吞吐量和可靠性。它能夠在多個隊列之間…

1.7 AI智能體實戰指南:從單任務自動化到企業級智能體集群架構

AI智能體實戰指南:從單任務自動化到企業級智能體集群架構 一、智能體技術演進:從腳本工具到認知革命的跨越 1.1 三代智能體能力對比 能力維度第一代(規則驅動)第二代(機器學習)第三代(LLM驅動)任務理解固定模式匹配統計模式識別語義推理與邏輯鏈分解環境適應需人工重寫…

Github 2025-02-14 Java開源項目日報 Top10

根據Github Trendings的統計,今日(2025-02-14統計)共有10個項目上榜。根據開發語言中項目的數量,匯總情況如下: 開發語言項目數量Java項目10C#項目1Guava: 谷歌Java核心庫 創建周期:3725 天開發語言:Java協議類型:Apache License 2.0Star數量:49867 個Fork數量:10822 次…

C++17中的clamp函數

一、std::clamp() 其實在前面簡單介紹過這個函數&#xff0c;但當時只是一個集中的說明&#xff0c;為了更好的理解std::clamp的應用&#xff0c;本篇再詳細進行闡述一次。std::clamp在C17中其定義的方式為&#xff1a; template< class T > constexpr const T& cl…

WEB安全--SQL注入--常見的注入手段

一、聯表查詢&#xff1a; 1.1原理&#xff1a; 當payload參數被后端查詢語句接收到時&#xff0c;其中的非法語句通過union關聯顯示出其他的數據 1.2示例&#xff1a; #payload: -1 and union select 1,2,database()--#query: $sqlselect * from users where id-1 and union …

QT筆記——QPlainTextEdit

文章目錄 1、概要2、文本設計2.1、設置文本2.1、字體樣式&#xff08;大小、下劃線、加粗、斜體&#xff09; 1、概要 QPlainTextEdit 是 Qt 框架中用于處理純文本編輯的控件&#xff0c;具有輕量級和高效的特點&#xff0c;以下是它常見的應用場景&#xff1a; 文本編輯器&am…

【D2】神經網絡初步學習

總結&#xff1a;學習了 PyTorch 中的基本概念和常用功能&#xff0c;張量&#xff08;Tensor&#xff09;的操作、自動微分&#xff08;Autograd&#xff09;、正向傳播、反向傳播。通過了解認識LeNet 模型&#xff0c;定義神經網絡類&#xff0c;熟悉卷積神經網絡的基本結構和…

DeepSeek處理自有業務的案例:讓AI給你寫一份小眾編輯器(EverEdit)的語法著色文件

1 DeepSeek處理自有業務的案例&#xff1a;讓AI給你寫一份小眾編輯器(EverEdit)的語法著色文件 1.1 背景 AI能力再強&#xff0c;如果不能在企業的自有業務上產生助益&#xff0c;那基本也是一無是處。將企業的自有業務上傳到線上訓練&#xff0c;那是腦子進水的做法&#xff…