Kaggle競賽之Titanic存活預測2

  • 提高代碼規范性,基于上一個 baseline 的提高
import pandas as pd
from sklearn.preprocessing import LabelBinarizer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split#數據劃分方法
from sklearn.ensemble import RandomForestClassifier#隨機森林
from sklearn.model_selection import GridSearchCV #網格交叉搜索交叉驗證# data = pd.read_csv("file_path")打印出來看def data_clean(file_path):""""數據處理函數parameters:file_path:數據文件路徑""""data = pd.read_csv(file_path)#刪除不需要的列data.drop("PassengerId",axis=1,inplace=True)data.drop(["Name","Ticket","Cabin"],axis=1,inplace=True)#對空值進行填充data["Age"].fillna(data["Age"].mean(),inplace=True)#對字符的東西進行一個空值填充data["Embarked"].fillna(data["Embarked"].mode[0],inplace=True)#數據preprocessingdata["Sex"]=LabelBinarizer().fit_transform(data["Sex"])data = pd.get_dummied(data)#縮放,減少計算量data["Fare"] = StandardScaler().fit_transform(data["Fare"].values.reshape(-1,1))return (data)# 數據劃分
def data_split(data):""""數據劃分函數parameters:data:要劃分的數據""""x = data.drop(["Survived"],axis=1)y = data["Survived"]x_train,x_test,y_train,y_test = train_test.split(x,y,test_size=0.2)return (x_train,x_test,y_train,y_test)# 模型搭建
def model_fit(x,y):"""模型訓練函數parameters:x:特征y:標簽"""#定義好參數Para_grid = [{"n_estimators":[3,10,30],"max_features":[2,4,6,8]},{"bootstrap",[False],"n_estimators":[3,10],"max_features":[2,4,6]}]#模型實例化model = RandomForestClassifier()#模型和交叉驗證次數gird_search = GridSearchCV(model,Para_grid,cv=5)#模型訓練grid_search.fit(x,y)return(grid_search.best_params_,grid_search.best_estimator_)data = data_clean("data/train.csv")
x_train,x_test,y_train,y_test = data_split(data)
model_fit(x_train,y_train)
# 上一行得到最優的模型和參數
model = RandomForestClassifier(n_estimators=30,max_features=2,max_depth=100)
model.fit(x_train,y_train)
model.score(x_test,y_test)#程序入口
if __name__ == '__main__':ABC
  • 模型融合,去 sklearn 看一下就懂
    在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/714699.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/714699.shtml
英文地址,請注明出處:http://en.pswp.cn/news/714699.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

哪個超聲波清洗機品牌值得入手?銷量榜品牌值得選購!

在科技日益發展的今天,超聲波清洗技術以其高效、便捷和深度清潔的特點,已經深入到生活的諸多領域,從精密儀器到珠寶首飾,從眼鏡框到假牙,甚至是廚房用品的日常護理,都能見到超聲波清洗機的身影。面對市場上…

無人機兩次飛行的圖像數據配準與幾何校正方法研究

標題: 無人機兩次飛行的圖像數據配準與幾何校正方法研究 摘要: 本文研究了利用無人機獲取的兩次飛行的圖像數據進行配準與幾何校正的方法。無人機航拍技術在地理信息獲取和空間數據應用中具有重要意義,但由于飛行條件、攝影設備和環境等因素的影響,同一區域的不同飛行任務…

【基頻提取算法-YIN】

本文對基頻提取算法 YIN 做以介紹。如有表述不當之處歡迎批評指正。歡迎任何形式的轉載,但請務必注明出處。 文章目錄 1. 引言2. YIN 各模塊代碼講解2.1. 差分函數的實現2.2. 累積均值歸一化差分函數的實現2.3. 絕對閾值2.4. 拋物線插值2.5. 最優局部估計 3. 總結 1…

免殺實戰-EDR對抗

文章目錄 殺軟分析BOF.NET 殺軟分析 x64dgb簡單調試發現該edr在r3環對ntdll.dll和kernel32.dll關鍵函數均存在hook,這里硬盤讀取原來的dll進行重新加載,原理如圖 loader // dllmain.cpp : 定義 DLL 應用程序的入口點。 #include "pch.h" #in…

DSI2協議之BTA行為理解

概念: DSI協議spec支持總線控制權在master和slave之間發生交換,即通過bus turn around來實現; BUS TURN AROUND: BTA 的實現是通過controller—>cdphy的turnrequest信號來實現; 關于控制器發出turnrequest給phy,phy通過lvds/trio線輸出turnaround sequence如下圖中…

LeetCode刷題筆記之二叉樹(四)

一、二叉搜索樹的應用 1. 700【二叉搜索樹中的搜索】 題目: 給定二叉搜索樹(BST)的根節點 root 和一個整數值 val。你需要在 BST 中找到節點值等于 val 的節點。 返回以該節點為根的子樹。 如果節點不存在,則返回 null 。代碼&a…

BUGKU 本地管理員

打開環境,先F12查看看到一串代碼。Base64解碼一下,得到的應該是密碼,然后輸入admin | test123試一下 使用BP抓包,修改XFF,得到flag

將鏡像上傳到私有鏡像倉庫Harbor

首先你需要安裝Harbor服務: https://blog.csdn.net/qq_50247813/article/details/136388229 客戶端已經安裝docker: https://docs.docker.com/engine/install/centos/ 在docker客戶端登錄 Harbor 我的Harbor 服務器地址: 192.168.44.161 賬號…

關于編寫測試用例的一些思考

測試用例是QA同學的基本功,每個人都有一套編寫測試用例的體系,本文是作者結合自身的工作經驗以及閱讀一些測試相關的書籍后的一些看法,歡迎大家一起討論學習。 測試設計 測試用例格式 面試中一些常見的問題 1.APP測試與服務端測試的區別&am…

微服務中的Feign:優雅實現遠程調用的秘密武器(二)

本系列文章簡介: 本系列文章將深入探討Feign的特點、原理以及在微服務中的應用場景,幫助讀者更好地理解和使用這個優秀的遠程調用工具。無論您是初學者還是有經驗的開發人員,本文都將為您揭示Feign的秘密,并帶您一起走進微服務的世…

何愷明新作 l-DAE:解構擴散模型

何愷明新作 l-DAE:解構擴散模型 提出背景擴散模型步驟如何在不影響數據表征能力的同時簡化模型?如何進一步推動模型向經典DAE靠攏?如何去除對生成任務設計的DDM中不適用于自監督學習的部分?如何改進DDM以專注于清晰圖像表示的學習…

2024華為軟件測試筆試面試真題,抓緊收藏不然就看不到了

一、選擇題 1、對計算機軟件和硬件資源進行管理和控制的軟件是(D) A.文件管理程序 B.輸入輸出管理程序 C.命令出來程序 D.操作系統 2、在沒有需求文檔和產品說明書的情況下只有哪一種測試方法可以進行的(A) A.錯誤推測法測試…

Docker 快速入門實操教程(完結)

Docker 快速入門實操教程(完結) Docker,啟動! 如果安裝好Docker不知道怎么使用,不理解各個名詞的概念,不太了解各個功能的用途,這篇文章應該會對你有幫助。 前置條件:已經安裝Doc…

【Hadoop】在spark讀取clickhouse中數據

讀取clickhouse數據庫數據 import scala.collection.mutable.ArrayBuffer import java.util.Properties import org.apache.spark.sql.SaveMode import org.apache.spark.sql.SparkSessiondef getCKJdbcProperties(batchSize: String "100000",socketTimeout: Strin…

IOS 發布遇到“Unable to authenticate with App Store Connect”錯誤咋解決?

問題: 在開發ios app后,先發布adhoc版本,測試通過后,再發布testflight版本測試,但是可能會遇到一下問題。 解決辦法: 在Signing &Capabilities中,在ios下邊要指定有發布權限的Team賬號&a…

PAT (Basic Level) Practice | 判斷題

判斷題的評判很簡單,本題就要求你寫個簡單的程序幫助老師判題并統計學生們判斷題的得分。 輸入格式 輸入在第一行給出兩個不超過 100 的正整數 N 和 M,分別是學生人數和判斷題數量。第二行給出 M 個不超過 5 的正整數,是每道題的滿分值。第…

pytorch基礎2-數據集與歸一化

專題鏈接:https://blog.csdn.net/qq_33345365/category_12591348.html 本教程翻譯自微軟教程:https://learn.microsoft.com/en-us/training/paths/pytorch-fundamentals/ 初次編輯:2024/3/2;最后編輯:2024/3/2 本教程…

迪杰斯特拉算法的具體應用

fill與memset的區別介紹 例一 #include <iostream> #include <algorithm> using namespace std; const int maxn500; const int INF1000000000; bool isin[maxn]{false}; int G[maxn][maxn]; int path[maxn],rescue[maxn],num[maxn]; int weight[maxn]; int cityn…

【深度學習數學基礎】Hebbian圖(Hebbian Graph)

Hebbian圖&#xff08;Hebbian Graph&#xff09;是一種基于神經科學原理的網絡結構&#xff0c;它受到唐納德赫布&#xff08;Donald Hebb&#xff09;提出的赫布學習規則&#xff08;Hebb’s rule&#xff09;的啟發。赫布學習規則是神經科學中描述神經元之間突觸連接如何通過…

模板方法模式 詳解 設計模式

模板方法模式 模板方法模式是一種行為型設計模式&#xff0c;它定義了一個算法的骨架&#xff0c;將一些步驟延遲到子類中實現。這種模式允許子類在不改變算法結構的情況下重新定義算法的某些步驟。 結構 抽象類&#xff08;Abstract Class&#xff09;&#xff1a;負責給出一…