python畢設高分案例：基于機器學習的抑郁癥數據分析與預測系統，flask框架，算法包括XGboost模型、梯度提升樹模型等

在醫療行業不斷發展的當下，數據量呈現出爆炸式增長，醫學數據的復雜性和多樣性也達到了前所未有的程度。電子病歷系統記錄了患者豐富的診療信息，醫學影像技術如 CT、MRI 等生成海量的圖像數據，基因測序技術更是產生了大量復雜的基因信息。這些數據蘊含著巨大的價值，但如何有效處理和利用它們成為了醫學發展面臨的關鍵難題。

傳統的數據處理和分析方法在面對如此龐大且復雜的醫學數據時，顯得力不從心。醫生難以從海量數據中快速提取關鍵信息，導致診斷效率低下，也可能遺漏重要線索影響診斷準確性。同時，醫院管理者在進行資源配置決策時，缺乏直觀有效的數據支持，難以合理分配有限的醫療資源，造成資源浪費或短缺。

大數據可視化技術的出現為解決這些問題提供了新的契機。它能將抽象、復雜的數據轉化為直觀易懂的圖表、圖形或地圖等可視化形式，讓醫生和管理者能夠更清晰地洞察數據背后的規律和趨勢。在臨床決策中，醫生可借助可視化數據快速全面了解患者病情，提高診斷效率和準確性；在醫療資源管理方面，管理者能通過可視化展示，清晰掌握資源分配和利用情況，優化資源配置。大數據可視化技術在醫學領域的應用潛力巨大，對提升醫療服務質量、推動醫學發展具有重要意義。

1.1.2 ?研究意義

大數據可視化技術在醫學領域的應用，對醫療行業發展有著多方面重要意義。

臨床決策層面，通過整合患者多源數據并可視化展示，如將病歷、檢查結果、影像資料整合為直觀圖表、圖像，醫生能快速獲取全面信息，這極大提高了診斷的準確性和效率。同時，實時動態監測病情變化，以圖表形式呈現生命體征、病情進展等，便于醫生及時調整治療方案，尤其對慢性病患者長期病情控制評估意義重大，為個性化治療提供依據。

1.2 ?國內外研究現狀

1.2.1 ?國內研究現狀

隨著信息技術的飛速發展，大數據在醫學領域的應用日益廣泛，而大數據可視化技術作為處理和解析醫學數據的重要手段，受到了眾多學者的關注。相關研究從多個角度展開，為深入理解該技術在醫學領域的應用提供了豐富的資料。

1.2.2國外研究現狀

國外的近期研究表明，人工智能技術在醫學和醫療保健領域的應用正受到廣泛關注。俄羅斯物理學家對此持積極態度，認為其具有巨大潛力。同時，自組裝技術在藥物遞送、生物傳感等方面展現出廣闊前景，但面臨技術難題。

2 相關理論與模型介紹

2.1 ?Flask框架

Flask 作為一款開源的 Python Web 框架，由 Adrian Holovaty 和 Simon Willison 于 2005 年發布。它采用 MTV（Model-Template-View）架構，旨在讓復雜網站的開發過程變得更加簡潔。

2.2 ?LogisticRegression算法

2.2.1 ?算法描述

邏輯回歸（LogisticRegression)算法是一個假設樣本服從伯努利分布，利用極大似然估計和梯度下降法解決二分類（0或1）問題的機器學習方法，用于估計某種事物的可能性[7]。例如評論信息的正負情感分析、垃圾郵件預測等等。如果數據是有兩個指標，可以用平面的點來表示數據，其中一個指標為x軸，另一個為y軸；如果數據有三個指標，可以用空間中的點表示數據；如果是p維的話(p>3)，就是p維空間中的點。從本質上來說，LogisticRegression訓練后的模型可以用來做預測、實驗效果評估。

2.2.2 ?算法原理

LogisticRegression算法所處理的數據是對數據進行分類訓練的。在處理二分類問題時，需要將數據分成兩類，讓其中一類標簽為0，另一類標簽為1。

2.2.3 ?建模流程

想要知道醫學領域的影響因子，對于權重比較大的因子就需要選用LogisticRegression算法構建預測模型。建模的主要步驟是訓練和測試，如下圖所示。在訓練階段要先將數據傳入，劃分好數據之后進行LogisticRegression訓練。訓練結束后將測試數據應用在預測模型中再與實際值做運算，最后輸出訓練參數。

2.3 ?隨機森林算法

2.3.1 ?算法概述

隨機森林（Random Forest）本質上是很多決策樹構成的集成算法，有抗過擬合能力，可以通過平均決策樹，降低過度擬合，而且一棵決策樹的結果不足以影響整體的結果。隨機森林在建立每棵樹的時候，遵循數據隨機和特征隨機兩個基本原則。理論上，隨機森林的表現一般要優于單一的決策樹，因為隨機森林的結果是通過多個決策樹結果投票來決定最后的結果[8]。由于隨機性，隨機森林對于數據的要求不高也可以避免出現泛化。

2.3.2 ?模型原理

隨機森林（Random Forest）是由多棵決策樹對樣本進行訓練并預測的一種經典的Bagging模型，利用數據采樣隨機和特征選擇隨機進行計算，如果是分類任務就是實行眾數取值，如果是回歸就是進行平均取值。隨機森林模型需要把所有的決策樹模型全部組合在一起，運行所有的決策樹模型，決策樹票數最多的那一個分類就是隨機森林模型的預測結果。

2.3.3 ?建模流程

隨機森林模型的建模過程分為兩個步驟：訓練+測試，如圖2.5所示。隨機選取m條數據，隨機選取k個數據特征，劃分好數據集后再進行隨機森林訓練。在訓練結束后基于預測模型得到的預測值將與實際值做運算可得到模型的精準度，從而可以選取最優的模型。

2.4 ?模型評價標準

2.4.1 ?混肴矩陣

混淆矩陣是機器學習中總結分類模型預測結果的情形分析表，以矩陣形式將數據集中的記錄按照真實的類別與分類模型預測的類別判斷兩個標準進行匯總[9]。其中矩陣的行表示真實值，矩陣的列表示預測值。混肴矩陣的形式如表2.1所示：

表2.1 ?混肴矩陣

混肴矩陣		真實值
混肴矩陣		結果為正（P）	結果為負（N）
預測值	預測為正（P）	80	20
預測值	預測為負（N）	20	80

對于分類模型而言，結果主要有以下四種：

TP：預測為P，實際為P，預測正確
FP：預測為P，實際為N，預測錯誤
FN：預測為N，實際為P，預測錯誤
TN：預測為N，實際為N，預測正確

其中T、F表示預測結果是否正確，而后面跟著的P、N主要是對應的預測結果。

2.4.2 ?評估指標

??（2.3）

精確率：也稱為查準率，在所有被預測為正的原樣本中實際為正的樣本的概率，

召回率：也稱為查全率，在實際為正的原樣本中被預測為正樣本的概率，

2.4.3 ?ROC和AUC

ROC曲線稱接收者操作特征曲線(receiver operating characteristic curve)，又稱為感受性曲線（sensitivity curve），是描述分類器閾值的變化而變化的過程，反映曲線上各點敏感性和特異性連續變量的綜合

公式中分母P是正樣本的總數，分母N是負樣本的總數。

AUC（Area Under Curve）表示ROC曲線下的面積，用于判斷模型的優劣。AUC的值一般在0.5到1之間。AUC值越大，分類效果越明顯。簡單來說，AUC判斷分類器（預測模型）優劣的標準有以下四種：

①第一種為0.95-1，預測效果非常好，是完美分類器。

②第二種為0.85-0.95，預測效果很好，優于隨機猜測。

③第三種為0.7-0.85，預測效果一般，跟隨機猜測一樣（例：丟硬幣），模型沒有預測價值。

④第四種為0.5-0.7，預測效果較低，比隨機猜測還差。

3 ?系統需求分析

3.1 ?系統功能性需求分析

本節中建立系統功能需求分析包括綜合數據處理、分析與可視化、預測的抑郁癥識別預測系統，系統應具備用戶管理、數據收集、數據處理、可視化、預測等功能。

抑郁癥數據分析與預測系統基于用戶認證與數據管理實現多維度功能。用戶需注冊登錄后訪問核心模塊，支持個人信息修改及密碼更新。系統集成機器學習模型（隨機森林、XGBoost、梯度提升樹、邏輯回歸），用戶可通過輸入個體特征參數或選擇已有數據記錄進行抑郁風險預測，結果以分類標簽（患病/未患病）結合特征重要性圖表呈現。數據分析模塊提供原始數據集展示，包含性別、年齡、學習壓力、睡眠時間等關鍵字段。可視化功能通過餅圖與柱狀圖動態展示不同模型的特征權重分布，輔助用戶理解各因素對預測結果的貢獻度。管理員具備數據管理權限，可對數據集執行增刪改查操作。系統內置模型對比模塊，支持用戶切換算法并實時獲取對應的特征分析，優化決策參考。前端交互界面提供參數輸入、結果反饋及圖表聯動，后端基Flask框架實現數據查詢、模型調用及會話管理，確保功能流暢性與數據安全性。。

3.2 ?系統用例分析

3.2.1 ?登錄注冊功能

根據表3.1列出的測試用例描述，用戶可以在系統登錄頁面輸入正確的用戶名和密碼，以完成登錄。

表3.1 登錄功能測試用例

描述項目	說明
用例名稱	系統用戶登錄
標識符	201
用例描述	闡述用戶登錄流程
參與者	已經注冊成功的用戶
前置條件	用戶名和密碼輸入正確的才能繼續
后置條件	在后續步驟中，如果登錄成功，就能跳轉到系統界面
描述項目	說明
基本操作流程	基礎步驟操作流程包括登陸系統前端頁面，輸入用戶名和密碼以確認身份，然后點擊登錄
分支流程	如果登錄出現錯誤，就無法進入系統
異常流程	由于用戶名或密碼錯誤，導致在異常流程中未能成功注冊登錄，從而無法進行正常的網絡操作

根據表3.2中的描述，用戶可通過系統注冊頁面輸入用戶名和密碼來完成注冊操作，系統中尚未注冊的用戶可利用該功能注冊。

表3.2 注冊功能測試用例

描述項目	說明
用例名稱	訪客注冊
標識符	201
用例描述	這個測試用例是新用戶注冊功能，訪客注冊新的賬號的所有步驟。
參與者	未注冊的訪客
前置條件	輸入未被注冊的用戶名
后置條件	注冊成功自動跳轉至登錄頁
基本操作流程	打開系統的注冊頁面。填寫用戶名和密碼，提交請求。
分支流程	注冊頁面無法訪問。
異常流程	輸入已注冊用戶名，系統提示重復并阻止注冊。

3.2.2??用戶管理功能

按照表3.3中的測試用例描述，登錄系統的用戶可以在用戶管理界面管理其賬號和密碼信息。

表3.3 用戶管理功能測試用例

描述項目	說明
用例名稱	用戶賬戶信息維護
描述項目	說明
標識符	201
用例描述	此用例的作用是讓用戶能夠對自己的賬戶信息和密碼進行修改操作。
參與者	經過認證的注冊用戶可參與該用例流程。
前置條件	前提是用戶已經成功登錄系統，處于有效登錄狀態。
后置條件	當修改操作完成后，系統會向用戶顯示操作完成的反饋信息。
基本操作流程	用戶首先進入用戶管理界面，接著在界面里填寫信息表單，最后提交表單完成操作。
分支流程	針對密碼輸入有誤、原始認證信息不相符等情況進行相應處理。
異常流程	若新密碼和二次確認的密碼不一致，系統將終止本次修改操作。

3.2.3??數據可視化功能

表3. 4展示了用戶在系統中執行數據可視化功能的實例，登錄后，用戶可以查閱到系統內的數據看板結果。

表3.4 數據可視化功能測試用例

描述項目	說明
用例名稱	數據可視化訪問
標識符	201
用例描述	此用例的主要功能是實現對數據可視化界面的訪問，并且將相關信息進行展示。
參與者	系統中已經通過身份驗證的用戶可以參與這個用例流程。
前置條件	要保證數據源已經完成配置，并且該數據源處于可正常使用的狀態。
后置條件	操作完成后，系統會呈現出多維數據的可視化分析視圖。
基本操作流程	第一步，用戶打開并進入系統的主界面；第二步，在主界面中選擇數據可視化功能模塊。
描述項目	說明
分支流程	若在數據加載過程中出現延遲情況，系統會啟用加載狀態提示機制，告知用戶當前加載狀態。
異常流程	當數據源的連接中斷時，界面將無法進行數據渲染，無法展示相應內容。

3.2.4??預測功能

表3. 7展示了用戶在系統中實施預測功能的試驗樣例，登錄該系統的用戶可以對個人信息進行抑郁癥預測。

表3.7 輿情檢測功能測試用例

描述項目	說明
用例名稱	預測功能
標識符	201
用例描述	此用例為用戶利用個人信息進行抑郁癥檢測的一系列操作過程
參與者	已登錄至系統的用戶
前置條件	數據已完成處理和分析
后置條件	完成對用戶是否患有抑郁癥的預測
基本操作流程	1. 用戶向系統輸入用于預測的數據 2. 系統展示抑郁癥預測的結果
分支流程	無
異常流程	無

3.3??系統非功能性需求分析

在抑郁癥數據分析與預測系統的搭建過程中，非功能需求分析將重點放在性能、可靠性和保護性這三大關鍵維度上，力求從全方位提升用戶體驗。

就性能需求而言，系統必須具備優異的響應能力與處理效能，確保在多用戶并行開展數據處理、分析、可視化及預測等任務時，能夠迅速給出結果。在應對海量抑郁癥數據時，系統不僅要保持高效的處理效率，還需在高負荷運行環境下具備極強的穩定性。

從可靠性需求來講，系統的穩健性和持續運行能力是保障服務穩定的根本。要求系統能夠在 48 小時內穩定運作，即便部分組件出現故障，也能自動切換至備用方案，繼續執行核心功能并快速恢復服務。同時，必須建立完善的數據存儲與備份機制，以此保障數據的長期完整性和可追溯性。

在保護性需求方面，數據安全與訪問控制是系統防護的核心要點。為了抵御 SQL 注入、跨站腳本等網絡攻擊，防止數據泄露和篡改，系統需要采用加密技術對敏感信息進行保護。另外，通過構建嚴格的身份驗證和權限管理體系，實現數據訪問的最小化授權，確保只有經過授權的用戶才能夠訪問和處理數據，從源頭保障系統安全和數據隱私。

第4章??系統總體設計

4.1?總體功能設計

抑郁癥數據分析與預測系統圍繞用戶交互、數據處理與模型分析構建功能框架。系統采用分層設計：前端基于HTML模板實現用戶界面，支持注冊登錄、數據瀏覽、參數輸入及結果可視化；后端依托Flask框架處理請求，通過SQLite數據庫存儲用戶信息與抑郁特征數據集。核心功能涵蓋用戶管理模塊，實現賬戶注冊、登錄驗證及個人信息維護。數據分析模塊提供原始數據展示與動態查詢，支持管理員對數據集進行增刪改查操作。預測模塊集成多種機器學習模型，用戶可通過表單輸入個體指標或選擇數據庫記錄觸發預測，系統返回分類結果并生成特征權重圖表，直觀呈現各變量對抑郁風險的影響程度。可視化模塊支持模型對比，用戶切換算法時自動更新餅圖與柱狀圖，展示不同模型的特征重要性差異。技術實現上，采用Joblib加載預訓練模型，結合Pandas進行數據預處理，確保預測效率。系統設計注重安全性與交互性，通過會話管理限制未授權訪問，前端AJAX技術實現異步數據交互，保障用戶體驗流暢。整體架構兼顧功能完整性與技術可擴展性，為抑郁風險評估提供數據驅動決策支持。。總體功能圖如圖4-1所示：

圖4.1總體功能圖

4.2?功能詳細設計

本系統對照功能圖實現，用戶模塊也就是系統使用者擁有登錄注冊、數據清洗和處理、數據可視化、預測等功能。

4.2.1注冊登錄功能

用戶注冊時，需在頁面填寫用戶名、密碼及郵箱等基本信息并提交。前端將數據發送至后端進行格式校驗（如郵箱合法性、密碼復雜度）及唯一性驗證（如用戶名是否重復）。具體流程詳見圖4-2。

圖4.2注冊登錄流程圖

4.2.2預測功能

預測功能流程分為數據輸入、預處理、模型推理及結果生成階段。具體流程詳見圖4-3。

圖4.3預測流程圖

4.2.3數據可視化功能

可視化流程：系統用戶成功登錄系統進入可視化頁面后，前端就會將用戶的查看請求封裝發送到后端服務器，后端會調用可視化服務中的可視化程序，該程序會加載數據庫中的數據，將該數據進行統計等，渲染生成柱形圖等圖表。然后將圖表呈現前端頁面，前端頁面對數據渲染后圖表向用戶展示情況，可視化流程圖，如圖4-4所示。

圖4.4?數據可視化流程圖

4.3數據庫設計

4.3.1數據庫邏輯設計

根據該系統的數據庫表的設計，將系統的數據種類歸分為用戶、房源信息2個實體。

4.3.2物理設計

本數據分析系統數據邏輯結構設計如下：

表4.1?用戶表（userinfo）

字段名	類型	長度	說明
id	int	0	用戶編號（主鍵、自增）
username	varchar	255	用戶名
password	varchar	255	密碼
email	text	0	郵箱
content	text	0	簡介
address	text	0	地址
phone	text	0	手機號

注：這個表是用來保存用戶詳細信息的

表4.2?抑郁癥數據信息表

字段名	類型	長度	說明
性別	TEXT	255
年齡	TEXT	255
學習壓力	TEXT	255
學習滿意度	TEXT	255
睡眠時間	TEXT	255
飲食習慣	TEXT	255
是否有過自殺的念頭	TEXT	255
學習時間	TEXT	255
經濟壓力	TEXT	255
精神疾病家族史	TEXT	255
是否抑郁	TEXT	255

5 ?模型設計與實現

5.1 ?數據集來源與分析

本研究的數據集來源kaggle，涵蓋了性別、年齡、學習壓力、學習滿意度、睡眠時間、飲食習慣、是否有過自殺的念頭、學習時間、經濟壓力、精神疾病家族史以及是否抑郁等多個關鍵字段，共502條數據。數據集信息圖如下所示5.1：

圖5.1?數據集分布圖

5.2 ?數據預處理與分析

使用isnull（）統計各個變量缺失值個數，查看是否存在缺失值，統計缺失值結果下圖5.2所示，各個變量無缺失值，數量都為0：

圖5.2 缺失值統計結果

接著需要分析特征變量之間的相關性，用來取出那些相關性高的特征，以避免類似于多重共線問題等技術性問題，本研究的相關性主要是數值型數據為主，使用corr方法計算各個數值型變量的相關系數，相關系數的絕對值越接近1，相關性越強，最后畫出熱力圖呈現，相關性結果下圖5.3所示，相關代碼如圖5.4所示，各個變量之間的相關性都很弱：

圖5.3 數值型變量相關性熱力圖結果

圖5.4 數值型變量相關性熱力圖代碼

除了數值型數據，還需要分析分類變量，對分類特征進行卡方分析，計算每對分類特征之間的卡方檢驗，如果 p值小于 0.05，說明這兩個特征之間有顯著的相關性，可以拒絕原假設（即變量獨立）。根據如圖5.5卡方檢驗結果可以發現，分類特征變量之間也不存在著顯著的相關性，卡方檢驗代碼如圖5.6所示：

圖5.5?卡方檢驗結果

圖5.6?卡方檢驗代碼

根據卡方檢驗和相關分析可以發現，各個變量之間不存在明顯關系，也沒有明顯的相關性，可以對所有變量進行探索性分析，分析各個變量和是否患有抑郁癥之間的分布關系，通過matplotlib畫出各個變量和是否患有抑郁癥的柱形圖進行分析，如圖5.7所示性別和是否患有抑郁關系柱形圖，以及對應代碼如圖5.8所示，男性樣本的數量略多于女性，男性在抑郁和沒有抑郁這兩個分類上的人數絕對值也是略高于女性的，但是兩個分類占自身的比例非常的接近。可以認為性別對于是否會抑郁并沒有顯著的影響：

圖5.7?性別和是否患有抑郁關系柱形圖

圖5.8?性別和是否患有抑郁關系代碼

如圖5.9所示年齡數據和是否患有抑郁關系柱形圖，以及對應代碼如圖5.10所示，可以發現是否抑郁和年齡存在著較為明顯的關系，低年齡段的抑郁人數明顯的高于了高年齡段，年齡跟是否抑郁有一定關系：

圖5.9?年齡和是否患有抑郁關系柱形圖

圖5.10?年齡和是否患有抑郁關系代碼

依次類推，將其他變量跟是否患有抑郁進行分布分析，如圖5.11-圖5-17所示所示可知，睡眠情況和是否抑郁存在著一定的關聯，學習壓力和是否抑郁之間存在著顯著的關聯，低學學習力的人當中有著非常少的人有著抑郁癥，但是高學習壓力人群中只有很少的人是沒有抑郁的，在中等學習壓力之下，學生是否抑郁占比接近，對于學習滿意度，學習滿意度越高，則抑郁癥人數越少。有過自殺的念頭的抑郁癥患者明顯多于沒有自殺念頭的，有著健康飲食習慣的學生群體，其中的有抑郁癥的學生的人數是明顯的低于了有著不健康的飲食習慣的學生群體，對應經濟壓力，經濟壓力越大，換上抑郁癥的人數越多。

5.3 ?特征處理及數據集劃分

特征處理主要包括數據標準化和編碼。首先通過數據分布可以發現，抑郁癥數據沒有患病和患病得分布很均衡，所以不需要進行采樣處理。抑郁數據分布如下圖5.18所示，1表示抑郁，0表示沒有抑郁：

圖5.18?抑郁數據分布結果

由于機器學習無法處理字符串，而需要將其轉換為數值，所以這里進行編碼或者映射。將分類特征如‘性別’、‘睡眠時間’、‘飲食習慣’等進行映射，將字符串值轉化為數值型數據。使用LabelEncoder對‘性別’等進行編碼。對于‘睡眠時間’等分級變量，使用字典映射進行轉換。轉換后結果如下圖5.19所示：

圖5.19?特征轉換結果

處理后的數據集使用train_test_split進行劃分，測試集占比30%，訓練集占比70%。處理時，數據形成特征集X_train和X_test，標簽集y_train和y_test。數據預處理確保了模型輸入為數值型數據，避免了模型訓練中的類型錯誤，數據集劃分結果下圖5.20所示：

圖5.20?數據集劃分結果

5.4 ?模型搭建與訓練

使用四種分類算法：邏輯回歸、決策樹、梯度提升樹（GBDT）和XGBoost。每種模型采用GridSearchCV進行超參數搜索，通過交叉驗證優化模型性能。邏輯回歸使用L1和L2正則化，決策樹調整樹的深度、最小樣本分裂數等超參數，GBDT調節學習率、樹的數量等。XGBoost通過調節子樣本比例、特征采樣比例等參數進行優化。每個模型訓練完成后，使用best_estimator_獲取最佳模型，保證了最優性能，邏輯回歸模型主要代碼如圖5.21所示，各個模型參數設置如表5.3所示：

圖5.21?邏輯回歸模型主要代碼

圖5.22決策樹模型主要代碼

圖5.23提升樹模型主要代碼

圖5.24xgboost模型主要代碼

表5.3 ?模型參數設置

模型	參數
邏輯回歸模型	{'C': 10, 'penalty': 'l1', 'solver': 'liblinear'}
決策樹模型	{'criterion': 'entropy', 'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 2}
提升樹模型	{'learning_rate': 0.2, 'max_depth': 3, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 200}
Xgboost模型	{'colsample_bytree': 0.8, 'gamma': 0.1, 'learning_rate': 0.2, 'max_depth': 3, 'n_estimators': 150, 'subsample': 0.5}

5.4 ?模型評估與保存

評估使用測試集進行預測，計算準確率、精確率、召回率和F1分數。每個模型都輸出分類報告，展示各項指標。使用confusion_matrix生成混淆矩陣，進一步分析模型的分類效果，通過xgboost和樹模型提取特征重要性，以柱形圖形式呈現，進一步驗證變量和抑郁癥之間的關系。最終，使用joblib.dump將最佳模型保存至本地，便于后續部署和使用。保存模型確保了訓練過程的可復現性與高效性，避免了重新訓練的時間消耗，如表5.4模型評估表所示，主要代碼如圖5.25所示，特征重要性如圖5.26所示。

圖5.25 主要代碼

圖5.26 特征重要性分析

表5.4 ?模型評估

模型	準確率	精確率	召回率	F1分數	混淆矩陣
邏輯回歸模型	0.9735	0.96	0.99	0.98	[[70 ?2][ 1 78]]
決策樹模型	0.8543	0.85	0.85	0.85	[[60 11][11 69]]
提升樹模型	0.94	0.94	0.94	0.94	[[66 ?5][ 6 74]]
Xgboost模型	0.9668	0.96	0.96	0.96	[[69 ?2][ 2 78]]

邏輯回歸模型分類性能優異，準確率97%，正負類F1值均超0.97，顯示高平衡性。召回率99%表明對正類識別能力極強，漏檢風險低。決策樹模型表現相對薄弱，準確率85%，混淆矩陣顯示正負類各11例誤判，存在特征捕捉不足問題。梯度提升樹準確率提升至92.7%，誤判數降至5-6例，體現集成學習對決策樹缺陷的修正效果。XGBoost模型達到最優性能，準確率97.35%，僅出現2例誤判，精確率與召回率保持0.97對稱性，證明其參數優化與正則化機制有效抑制過擬合。四類模型中集成方法顯著優于單一模型，XGBoost通過自適應增強策略實現最高預測穩定性。模型間表現差異反映特征非線性關系的捕捉能力層級，復雜樹模型在特征交互識別方面更具優勢。從特征重要性分析結果來看，和之前的5.3分析是趨于一致的，性別和精神疾病家族史等特征之間并沒有多大的關聯，反倒是和年齡，是否有過自殺的念頭和學習壓力等特征之間存在著較強的關

5 ?系統實現

6.1 ?登錄注冊實現

6.1.1用戶注冊界面

用戶注冊功能的實現依托于register.html頁面，該頁面中的表單設置了用戶名、密碼和確認密碼等字段。其用戶注冊界面展示如下圖所示。

圖6.1注冊界面圖

6.1.2用戶登錄界面

用戶登錄功能模塊借助前端頁面login.html完成，該頁面的表單可供用戶填寫用戶名、密碼，并從普通用戶和管理員兩種類型中挑選登錄身份。

用戶登錄界面如下圖6.2所示。

圖6.2用戶登錄界面圖

6.2 ?數據展示

數據展示模塊基于Jinja2模板引擎與Bootstrap框架構建，前端采用響應式布局適配多端屏幕。頁面繼承基礎模板`index.html`，通過`{% block main %}`注入動態內容。如下圖6.3所示。

圖6.3數據展示界面圖

6.3 ?個人信息添加實現

該頁面基于Bootstrap框架和DataTable插件實現個人信息管理功能。如下圖6.4所示：

圖6.4用戶信息添加界面圖

6.4 ?可視化實現

該頁面基于ECharts和Bootstrap實現模型因素可視化分析功能。前端通過下拉菜單支持“決策樹”“邏輯回歸”等四類模型切換，點擊查詢按鈕觸發AJAX GET請求至/pie路由，動態獲取JSON格式的餅圖數據及表格數據。可視化結果如圖6.5所示。

圖6.5可視化界面圖

6.5 ?預測實現

本研究的數據集來源kaggle，涵蓋了性別、年齡、學習壓力、學習滿意度、睡眠時間、飲食習慣、是否有過自殺的念頭、學習時間、經濟壓力、精神疾病家族史以及是否抑郁等多個關鍵字段。這些因素從不同維度反映了學生的日常生活狀態和心理狀況，為我們提供了一個全面而細致的視角來剖析學生抑郁的成因。預測界面圖如下圖6.6所示：