Datawhale AI數據分析 作業

一、 貸款批準預測數據集

1. 數據探索與理解

prompt 1:

這是訓練數據,目的是貸款批準預測數據集上訓練的深度學習模型生成的數據,旨在使用借款人信息預測貸款批準結果,它通過模擬真實貸款審批場景,幫助金融機構評估借款人風險。
請展示訓練基本信息(數據維度、特征類型、缺失值情況)

prompt 2:

請生成數據集的描述性統計摘要?

prompt 3:

在這些變量中,請識別數值型和分類型變量?

prompt 4:

請檢查目標變量(貸款批準狀態)的分布情況?

?prompt 5:

請分析各特征的數據質量和異常值

?prompt 6:

prompt 7:

請問要如何處理這些異常值?

prompt 8:

請按如下方法處理:

1. person_age(年齡)

當前方法: 設定18-100歲范圍,超出部分刪除或替換 評估: ? 合適,但需要優化 改進建議:

  • 保留18-85歲作為更合理的范圍(考慮貸款業務實際)

  • 對于異常值建議使用中位數替換而非刪除,避免數據丟失

  • 可以創建異常值標識特征,保留異常信息

2. person_income(收入)

當前方法: 分位數截斷 + 對數變換 評估: ? 很好的方法 改進建議:

  • 建議使用99%分位數進行截斷,保留更多正常的高收入樣本

  • 對數變換前建議先處理0值(加小常數或使用log1p)

  • 可以考慮按地區或行業分層處理,避免一刀切

3. person_emp_length(工作年限)

當前方法: 設定0-50年范圍 評估: ? 合適,但可以更精細 改進建議:

  • 考慮與年齡的邏輯關系:工作年限不應超過(年齡-16)

  • 對于負值和缺失值,建議使用0填充(表示無工作經驗)

  • 創建工作經驗分組特征(0年、1-5年、6-15年、16+年)

4. loan_amnt(貸款金額)

當前方法: 業務規則 + 分位數截斷 評估: ? 合適 改進建議:

  • 結合收入水平設定動態上限(如不超過年收入的10倍)

  • 考慮貸款類型的影響(不同類型貸款金額范圍不同)

  • 使用99.5%分位數截斷,保留合理的大額貸款

5. loan_int_rate(貸款利率)

當前方法: 設定合理范圍 + 分位數截斷 評估: ? 合適,需要結合市場情況 改進建議:

  • 根據數據收集時間設定歷史合理范圍(如2%-30%)

  • 考慮利率與風險等級的關系,異常高利率可能有業務含義

  • 可以標記而非直接截斷極端利率

6. loan_percent_income(貸款占收入比例)

當前方法: 設定0%-100%范圍 評估: ?? 需要修正 改進建議:

  • 關鍵問題:貸款占收入比例可能合理超過100%(如購房貸款)

  • 建議設定0%-500%的范圍,或使用99%分位數截斷

  • 重點關注0值的處理(可能表示高收入或數據錯誤)

7. cb_person_cred_hist_length(信用歷史長度)

當前方法: 保持原狀 評估: ? 合適 改進建議:

  • 檢查是否存在負值或超過年齡的情況

  • 建議最大值不超過(年齡-18)歲

?

2. 特征分析與可視化

prompt 9:

請針對借款人特征進行單變量分析:

年齡分布及其與貸款批準的關系

收入水平分布(包括年收入、月收入等相關指標)

工作年限分布及穩定性分析

房屋擁有情況分析

其他重要特征的分布情況

prompt 10:

請做雙變量分析

各特征與貸款批準結果的相關性分析
收入與年齡的交互效應分析
工作年限與收入的關系
房屋擁有情況對批準率的影響
使用相關性熱力圖展示特征間關系

?

prompt 11:

現在引入test數據集,請查看兩個數據集的基本信息(形狀、特征、數據類型) 檢查train和test的特征一致性,確認test集是否包含目標變量

?prompt 12:

prompt 12:

基于您的情況,下一步的關鍵任務是解決特征一致性問題。這是一個嚴重的數據預處理問題,必須立即解決。
🚨 當前問題分析
核心問題: Train集有19列,Test集只有12列,說明:

Train數據已經進行了特征工程(衍生了7個新特征)
Test數據還是原始狀態
兩個數據集無法直接用于建模

請立即執行下面的步驟
步驟1:診斷特征差異
首先明確哪些是原始特征,哪些是衍生特征:
步驟2:重新統一處理
關鍵決策: 需要重新對兩個數據集進行同步的特征工程
有兩種選擇:
選擇A(推薦): 重新加載原始train數據,與test數據一起處理
選擇B: 基于現有train數據,反向工程出test數據的特征
步驟3:創建統一處理流程
確保所有特征工程步驟在兩個數據集上完全相同地執行
??重要提醒
絕對不能做的事:

不能刪除train中的衍生特征來"匹配"test
不能單獨為test創建不同的特征工程邏輯
不能忽略這個問題直接建模

必須做的事:

確保特征工程的完全一致性
驗證處理后兩個數據集的特征匹配
檢查數據分布的一致性

請先執行特征對比分析,然后我們根據具體的特征差異來制定詳細的修復方案。這一步完成后,才能繼續進行EDA和建模工作。

?

?prompt 13:

請驗證數據分布的一致性

prompt 14:

請繼續對train數據進行多變量分析

不同特征組合對貸款批準的綜合影響
識別高風險和低風險借款人群體
分析特征交互作用

3. 風險評估分析?

prompt 15:

現在進行風險評估分析,請重點分析以下風險因素:

識別導致貸款拒絕的主要因素
分析不同收入水平的批準率差異
評估年齡對貸款批準的影響模式
工作穩定性(工作年限)的風險指示作用
資產狀況(房屋擁有)的風險緩解效果

4. 機器學習建模

?prompt 16:

為了構建貸款批準預測模型,請先進行數據預處理

處理缺失值(填充策略選擇和justification)
特征編碼(分類變量處理)
特征標準化/歸一化
特征選擇和工程

prompt 17:

請進行特征選擇和工程

?

prompt 18:

現在進行模型開發,數據集劃分train集和test集
請嘗試以下算法:

邏輯回歸(baseline模型)
隨機森林
梯度提升樹(如XGBoost、LightGBM)
支持向量機
神經網絡

prompt 19:

嘗試使用XGBoost模型

prompt 20:

繼續使用LightGBM模型

prompt 21:

在現有的模型中,請進行模型評估,
使用適當的評估指標(準確率、精確率、召回率、F1-score、AUC-ROC)
生成混淆矩陣和分類報告
繪制ROC曲線和PR曲線
交叉驗證評估模型穩定性

?

?

prompt 22:

請總結上面的分析結果,
請做結果展示并確保分析結果包含:

清晰的數據可視化圖表(使用seaborn/matplotlib)
詳細的統計分析結果解釋
模型性能對比表格
特征重要性排序和解釋
商業價值和實施建議

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/89681.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/89681.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/89681.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

100條常用SQL語句

一、基本查詢語句 查詢所有數據: SELECT * FROM 表名; 查詢特定列: SELECT 列名1, 列名2 FROM 表名; 條件查詢: SELECT * FROM 表名 WHERE 條件; 模糊查詢: SELECT * FROM 表名 WHERE 列名 LIKE ‘模式%’; 排序查詢: …

Visual Studio編譯WPF項目生成的文件介紹

文章目錄一、Summarize主要輸出文件1. **可執行文件 (.exe)**2. **程序集文件 (.dll)**3. **PDB 文件 (.pdb)**資源與配置文件1. **XAML 編譯文件 (.baml)**2. **資源文件 (.resources)**3. **應用程序配置文件 (.config)**依賴文件1. **引用的 NuGet 包**2. **引用的框架程序集…

「Chrome 開發環境快速屏蔽 CORS 跨域限制詳細教程」*

Chrome 開發環境快速屏蔽 CORS 跨域限制【超詳細教程】 📢 為什么需要臨時屏蔽 CORS? 在日常前后端開發中,我們經常會遇到這樣的報錯: Access to fetch at https://api.example.com from origin http://localhost:3000 has been …

Linux命令大全-df命令

一、簡介df(英文全拼:display free disk space) 命令用于顯示或查看文件系統(或磁盤)的空間使用情況,包括總容量、已用空間、可用空間、使用率和掛載點等信息。二、語法df [選項]... [文件]...參數參數說明…

《程序員修煉之道》第一二章讀書筆記

最近在看《程序員修煉之道:通向務實的最高境界》這一本書,記錄一下看書時的一點淺薄感悟。務實程序員不僅是一種技能水平的體現,更是一種持續修煉、不斷反思并主動承擔責任的過程。對自己的行為負責是務實哲學的基石之一。在重構CRM時面對文檔…

ArcGISPro應用指南:使用ArcGIS Pro創建與優化H3六邊形網格

H3 是由 Uber 開發的一個開源地理空間分析框架,旨在通過將地球表面劃分為等面積的六邊形網格來支持各種地理空間數據分析任務。每個六邊形單元在 H3 系統中都有一個獨一無二的標識符,即 H3 指數。這種網格系統不僅能夠覆蓋全球,而且適用于任何…

xss-dom漏洞

目錄 靶場搭建 第一關 第二關 第三關 第四關 第五關 第六關 第七關 第八關 靶場下載地址:https://github.com/PwnFunction/xss.pwnfunction.com 靶場搭建 將文件用clone 下載到ubuntu, 然后進入 cd xss.pwnfunction.com/hugo/ 這個目錄下 hu…

BPE(字節對編碼)和WordPiece 是什么

BPE(字節對編碼)和WordPiece 是什么 BPE(字節對編碼)和WordPiece 是自然語言處理中常用的子詞分詞算法,它們通過將文本拆分為更小的語義單元來平衡詞匯表大小和表達能力。 BPE(Byte Pair Encoding,字節對編碼) 原理 初始化:將文本按字符(或Unicode字節)拆分為最小…

Java行為型模式---狀態模式

狀態模式基礎概念狀態模式(State Pattern)是一種行為型設計模式,其核心思想是允許對象在內部狀態發生改變時改變它的行為,對象看起來好像修改了它的類。狀態模式將狀態相關的行為封裝在獨立的狀態類中,并將狀態轉換邏輯…

重學Framework Input模塊:如何實現按鍵一鍵啟動Activity-學員作業

需求背景: 近來vip群里學員朋友有問道一個需求,大概需求就是他們做TV的Framework開發,想要遙控器有一個新定義的兒童節目按鍵,想要實現這個按鍵按下后就跳轉到兒童節目的Activity。需求拆解及作業要求: 針對上面需求&a…

bmp圖像操作:bmp圖像保存及raw與bmp轉換

1. 保存bmp圖像&保存一張正弦圖像到D:\1.bmp /********************************************** * fileName bmpinc.h * brief 對bmp文件的操作,包括: * - saveBmp:保存bmp文件 * - Save…

SpringAI——提示詞(Prompt)、提示詞模板(PromptTemplate)

Prompt 是引導 AI 模型生成特定輸出的輸入格式,Prompt 的設計和措辭會顯著影響模型的響應。最開始Prompt只是單純的文本文字,后面可以包含占位符,可以識別消息的角色。比如包含占位符的Prompt,也就是我們講的消息模板(PromptTemplate)&#x…

【深度學習筆記 Ⅰ】5 參數和超參數

在深度學習中,參數(Parameters) 和 超參數(Hyperparameters) 是模型訓練中兩個核心概念,它們共同決定了模型的性能,但作用方式和優化方法截然不同。以下是詳細對比與解析:1. 參數&am…

Linux 阻塞等待框架

在 Linux 設備驅動開發中,阻塞機制 是處理資源暫時不可用(如設備未準備好數據、緩沖區滿等)的核心手段。驅動程序可以將被阻塞的進程設置成休眠狀態,然后,在資源可用后,再將該進程喚醒。 在 Linux 驅動開發…

PCIe RAS學習專題(3):AER內核處理流程梳理

目錄 一、AER內核處理整體流程梳理 二、AER代碼重要部分梳理 1、AER初始化階段 2、中斷上半部 aer_irq 3、中斷下半部 aer_isr 3.1、aer_isr_one_error 3.2、find_source_device 3.3、aer_process_err_devices 3.4、handle_error_source 3.5、pcie_do_recovery 整體邏…

?HAProxy負載均衡集群概述

前言: 在現代分布式系統中,負載均衡和高可用性是保障服務穩定性和性能的關鍵技術。HAProxy 作為一款高性能的 TCP/HTTP 負載均衡器,憑借其輕量級、高并發處理能力和靈活的配置機制,成為構建高可用架構的核心組件之一。通過智能的流…

ELN:生物醫藥科研的數字化引擎——衍因科技引領高效創新

在生物醫藥研究領域,實驗數據的準確記錄與管理是科研成敗的關鍵。想象一個場景:某頂尖醫學院實驗室,研究員小張正為一項抗癌藥物實驗焦頭爛額。紙質記錄本中,數據混亂、協作困難,導致實驗重復率高達20%。引入衍因科技的…

暑假---作業2

學習目標&#xff1a;xss-1abs 1-8關python美現自動化布爾自注的2、代碼進行優化(二分查找)學習內容&#xff1a;1.xss-1abs 1-8關1<h2 align"center">歡迎用戶test</h2>2 <script> alert (1)</script&gt<center> <form action&…

【Tensor數據轉換】——深度學習.Torch框架

目錄 1 Tensor與Numpy 1.1 張量轉Numpy 1.2 Numpy轉張量 1 Tensor與Numpy 1.1 張量轉Numpy 調用numpy()方法可以把Tensor轉換為Numpy&#xff0c;此時內存是共享的。 使用copy()方法可以避免內存共享 import torch import numpy as np# tensor轉numpy:numpy() def test0…

基于Tranformer的NLP實戰(5):BERT實戰-基于Pytorch Lightning的文本分類模型

文本分類作為自然語言處理中的基礎任務&#xff0c;能夠幫助我們將海量醫學摘要自動歸類到具體疾病領域中。本文將基于NVIDIA NeMo框架&#xff0c;構建一個用于醫學疾病摘要分類的深度學習應用&#xff0c;支持將摘要劃分為三類&#xff1a;癌癥類疾病、神經系統疾病及障礙、以…