畢設 大數據校園卡數據分析

文章目錄

  • 0 前言
  • 1 課題介紹
  • 2 數據預處理
    • 2.1 數據清洗
    • 2.2 數據規約
  • 3 模型建立和分析
    • 3.1 不同專業、性別的學生與消費能力的關系
    • 3.2 消費時間的特征分析
  • 4 Web系統效果展示
  • 5 最后


0 前言

🔥 這兩年開始畢業設計和畢業答辯的要求和難度不斷提升,傳統的畢設題目缺少創新和亮點,往往達不到畢業答辯的要求,這兩年不斷有學弟學妹告訴學長自己做的項目系統達不到老師的要求。

為了大家能夠順利以及最少的精力通過畢設,學長分享優質畢業設計項目,今天要分享的是

🚩 基于yolov5的深度學習車牌識別系統實現

🥇學長這里給一個題目綜合評分(每項滿分5分)

  • 難度系數:4分
  • 工作量:4分
  • 創新點:3分

🧿 選題指導, 項目分享:見文末



1 課題介紹

近年來,大數據的受關注程度越來越高。如何對大數據流進行抽取轉換成有用的信息并應用于各行各業變得越來越重要。如今,校園一卡通系統在高校應用十分廣泛,大部分高校主要利用校園一卡通對校園中的各類消費閱、補助領取等進行統一管理。通過數據分析算法,對大學生校內消費記錄進行整理、分類、預測,從而整體反應學生在校消費情況,形成量化的評判標準,同時也為今后的貧困生資助管理工作提供可靠的數據支持,輔助完成貧困生的相關工作。


2 數據預處理

在進行數據挖掘或者數據分析之前,需要對“臟數據” 數據進行數據預處理,一般采用數據清理、數據集成、數據變換等方式,已獲得更好的分析效果。


2.1 數據清洗

由于數據庫中有著大量的數據表,我們獲取到的數據表中會存在著異常數據,如數據不合法與常識不符,同一個字段屬性值來源于多張數據表且數值不一樣等。數據預處理主要去處可忽略的字段、忽略空缺記錄、可處理噪聲的數據、可刪除的數據等。由于部分校園卡用戶,如教職工、研究生等,消費時具有很強的隨機性和離散型。同時,為了保護隱私,對姓名、學號等屬性要做脫敏和隱私處理。


2.2 數據規約

預處理后的數據不一定適合直接使用,因此需要對數據進行集成和變換,將多個數據庫中提取出的數據項整合到一起,組成新的數據集環境,并經過詳細對比和篩選解決數據不一致和數據冗余等問題。為了適合分析,我們要對數據進行離散化和概念分層處理。


3 模型建立和分析

通過建立消費數據分析模型,對學校校園卡消費行為進行分析,總結學校學生消費特征,對不同消費類型的學生進行用戶畫像和分類。以學生的“性別”、“專業”分類作為橫向分類,以“消費能力(金額)”,“消費項目”,“消費時間”和“消費地點”四個方面為縱向分類,組成分析模型。尋找消費特征進行進行總結,形成假設結論。

#1.總體消費情況
#2.不同專業、性別的學生與消費能力的關系
#3.不同性別的學生與消費項目的關系
#4.消費時間的特征分析
#5.消費地點與門禁通過地點的關系分析
#6.學生消費特征分層模型
import matplotlib.pyplot as plt
expen_rec = pd.read_csv(r'C:\Users\River\Desktop\校園卡數據\expen_rec.csv',encoding='gbk')
student = pd.read_csv(r'C:\Users\River\Desktop\校園卡數據\student.csv',encoding='gbk')
access = pd.read_csv(r'C:\Users\River\Desktop\校園卡數據\access.csv',encoding='gbk')
all_data1 = pd.merge(expen_rec,student,on ='校園卡號',how='left')
all_data1.head()

在這里插入圖片描述


3.1 不同專業、性別的學生與消費能力的關系

from pylab import *
plt.rcParams['font.sans-serif']=['SimHei']
%matplotlib inline
total = con_sum.groupby(['性別'])[['消費金額']].sum()
total1= con_sum.groupby(['性別'])[['消費金額']].count()
plt.subplot(121)
plt.pie(total['消費金額'],labels=total.index,autopct='%2.f%%')
plt.title('男女生消費總金額對比')
plt.subplot(122)
plt.pie(total1['消費金額'],labels=total1.index,autopct='%2.f%%')
plt.title('男女生人數對比')
plt.show()

在這里插入圖片描述

fig1 = plt.figure(num =1, figsize=(8,4))
plt.title('各消費等級人數')
plt.xlabel('消費等級')
x1 =['(0, 100] ','(100, 150]','(150, 200] ','(200, 250]','(250, 300]','(300, 350]','(350, 400]','(400, 500]','(500, 3000]']
y1 = list(table1.values)
y2 =list(table2.loc[('女',slice(None))].values)
y3 =list(table2.loc[('男',slice(None))].values)
plt.plot(x1,y1,label='總體')
plt.plot(x1,y2,label='女生')
plt.plot(x1,y3,label='男生')
plt.legend(loc=2)
plt.show()

在這里插入圖片描述

#分析各專業總消費金額排列
fig2 = plt.figure(num =2, figsize=(14,6))
plt.title('各專業總消費金額排列')
plt.xlabel('專業名稱')
x1=table3.index
y1=table3['消費總金額']
plt.bar(x1,y1)
plt.xticks(x1,x1,rotation=45)
for a,b in zip(x1,y1):plt.text(a, b+0.05, '%.0f' % b, ha='center', va= 'bottom',fontsize=9)
plt.show()

在這里插入圖片描述

小結:

1.該校18級學生的人均每月校園卡消費295.96元;

2.女生人數占比59%,總消費額占比56%,消費總金額與性別差異不大;

3.從消費金額級區間上看,學生的總體消費金額主要在[200,500]的區間內,但男女生消費存在明顯差異:女生消費金額在[200-350]區間內人數明顯高于男生,但隨著增加而下降,而男生在400以上的區間內的人數高于女生。男生對校園卡消費方式差異較大,一般不使用或者經常使用。女生多數選擇輕度使用。

4.從各專業消費總金額上看機械制造專業最高,機械制造(學徒)專業最低。但結合各專業的人均消費分析,各專業的人均消費差異很小,標準差僅為42.8。人均消費最高的機械制造(學徒)專業因為人數最少僅為14人,對總體數據影響較小。可以得出:學生的校園卡消費能力與專業無明顯區別。


3.2 消費時間的特征分析

fig7 = plt.figure(num =7, figsize=(8,4))
mon1= time_tab.groupby(['日期'])[['消費金額']].count()
mon2= time_tab1.groupby(['日期'])[['消費金額']].count()
mon3= time_tab2.groupby(['日期'])[['消費金額']].count()
plt.title('月度消費次數趨勢分析')
plt.xlabel('日期')
x1 = list(mon1.index)
y1 = list(mon1.values)
y2 =list(mon2.values)
y3 =list(mon3.values)
plt.plot(x1,y1,label='總體')
plt.plot(x1,y2,label='女生')
plt.plot(x1,y3,label='男生')
plt.legend(loc=2)
plt.show()
#除個別天數外,女生均高于男生,每周之間趨勢相似

在這里插入圖片描述

fig8 = plt.figure(num =8, figsize=(8,4))
wk1= time_tab.groupby(['星期'])[['消費金額']].count()
wk2= time_tab1.groupby(['星期'])[['消費金額']].count()
wk3= time_tab2.groupby(['星期'])[['消費金額']].count()
def autolabel(rects):for rect in rects:height = rect.get_height()plt.text(rect.get_x()+rect.get_width()/2.-0.2, 1.03*height, '%s' % float(height))
plt.title('月度消費次數趨勢分析')
plt.xlabel('星期')
y1 = wk2['消費金額']
y2 = wk3['消費金額']
x1=range(len(y1))
x2=[i +0.35 for i in x1]
a=plt.bar(x1,y1, width=0.3,label='女生',color='blue')
b=plt.bar(x2,y2, width=0.3,label='男生',color='green')
autolabel(a)
autolabel(b)
plt.legend()
plt.xticks(x1,list(wk1.index),rotation=45)
plt.show()
#周一至周三消費次數較高,男女生在一周內的消費頻率的波動沒有明顯差異

在這里插入圖片描述

1.從一個月的每天的消費次數上看,除個別天數男女生消費次數相近,多大多數天數的女生的消費次數高于男生,且每周之間趨勢相似,可以得出學生日常的消費習慣比較穩定;

2.從每周的消費次數匯總上看,周一至周三消費次數較高,并且逐步下降,周末為消費次數最低的時候。男女生在一周內的消費頻率的波動趨勢相同,沒有明顯差異;

3.從每天的消費的時間段分析上看,周末的刷卡消費次數為平常的12%。食堂可以根據數據情況,適當安排休息,減少人力成本浪費;

4.平常時間的早、中、晚餐的用餐時間集中在7點、11點、17-18點時間段。周末消費的時間相對平緩,早餐的高峰時間會延后到8點時間段,且持續有人員消費,中餐的用餐時間也會有部分后延到12點的時間段。晚餐時間則會部分提前17點的時間段進行,需要提前做好食堂的準備事項。


4 Web系統效果展示

以上是校園卡分析的部分過程,我們還可以做成web系統來展示。效果如下:

4.平常時間的早、中、晚餐的用餐時間集中在7點、11點、17-18點時間段。周末消費的時間相對平緩,早餐的高峰時間會延后到8點時間段,且持續有人員消費,中餐的用餐時間也會有部分后延到12點的時間段。晚餐時間則會部分提前17點的時間段進行,需要提前做好食堂的準備事項。

Web系統效果展示

以上是校園卡分析的部分過程,我們還可以做成web系統來展示。效果如下:

在這里插入圖片描述

在這里插入圖片描述

🧿 選題指導, 項目分享:見文末


5 最后

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/15734.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/15734.shtml
英文地址,請注明出處:http://en.pswp.cn/web/15734.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

職場不是掙錢

職場怎么不是掙錢? 曾經我也一直這么想,只要做好老板安排的事情,自然就可以掙到錢了。 目的應該是沒錯的,是掙錢。 只是做好活就能掙錢,好像想得有些簡單了。 畢竟每個人都在干活,為什么就該自己掙錢呢&a…

【vue2配置】Vue Router

Vue Router官網 1、npm install vue-router4 2、創建模塊,在src目錄小創/views/map/MapIndex.vue模塊和創router/index.js文件 3、在router/index.js配置路由 import Vue from "vue"; import Router from "vue-router"; // 引入模塊 const Ma…

C語言——在頭?件中#if、_STDC_等字?起什么作??

一、問題 通常,?些程序員都不會去研究頭?件中的內容是什么含義,總覺得亂亂的,有很多 #if、_STDC_、#line 等字符,那么這些字符都各代表什么呢,在頭?件中又起到什么作?呢? 二、解答 在頭?件中存在類似…

智慧校園建設的進階之路

智慧校園的建設現已到達了老練的階段,許多學校設備充滿著數字化信息,進出宿舍樓,校園一卡通體系會記載下學生信息,外來人員闖入會報警,翻開電腦就能查到學生是否在宿舍等……學生的學習和日子都充滿了數字化的痕跡。但…

C# WPF入門學習(三)

目錄 核心架構 核心組件和概念 1. XAML(eXtensible Application Markup Language) 2. 依賴屬性(Dependency Properties) 3. 路由事件(Routed Events) 4. 數據綁定 5. 命令(Commands&…

itertools內置模塊的過濾妙用

itertools內置模塊的妙用 過濾源迭代器中的元素 Python內置itertools模塊里有一些函數可以過濾源迭代器中的元素。 islice islice可以在不拷貝數據的前提下,按照下標切割源迭代器。可以只給出切割的終點,也可以同時給出起點和終點,還可以…

MongoDB 覆蓋索引查詢:提升性能的完整指南

MongoDB 覆蓋索引查詢是一種優化數據庫查詢性能的技術,它通過創建適當的索引,使查詢可以直接從索引中獲取所需的數據,而無需訪問實際的文檔數據。這種方式可以減少磁盤 I/O 和內存消耗,提高查詢性能。 基本語法 在 MongoDB 中&a…

SQL練習題:2.4

建表 # 學生表 create table t_student (stu_id varchar(10),stu_name varchar(10),stu_age datetime,stu_sex varchar(10) );# 課程表 create table t_t_course (c_id varchar(10),c_name varchar(10),c_teaid varchar(10) );# 教師表 create table t_t_teacher (tea…

光速入門python的OpenCV

前言 歡迎來到我的博客 個人主頁:北嶺敲鍵盤的荒漠貓-CSDN博客 本文整理python的OpenCV模塊的關鍵知識點 爭取用最短的時間入門OpenCV 并且做到筆記功能直接復制使用 OpenCV簡介 不浪費時間的介紹: 就是類似于ps操作圖片。 至于為什么不直接用ps,因為只有程序能…

【找出滿足差值條件的下標 I】python

目錄 暴力題解 優化:滑動窗口維護大小值 暴力題解 class Solution:def findIndices(self, nums: List[int], indexDifference: int, valueDifference: int) -> List[int]:nlen(nums)for i in range(n):for j in range(n-1,-1,-1):if abs(i-j)>indexDiffere…

海康威視NVR通過ehome協議接入視頻監控平臺,視頻瀏覽顯示3011超時錯誤的問題解決,即:The request timeout! 【3011】

目錄 一、問題描述 二、問題分析 2.1 初步分析 2.2 查看日志 2.3 問題驗證 1、查看防火墻 2、查看安全組 3、問題原因 三、問題解決 3.1 防火墻開放相關端口 3.2 安全組增加規則 3.3 測試 1、TCP端口能夠聯通的情況 2、TCP端口不能夠聯通的情況 四、驗證 五、云…

「51媒體」如何與媒體建立良好關系?

傳媒如春雨,潤物細無聲,大家好,我是51媒體網胡老師。 與媒體建立良好關系對于企業或個人來說都是一項重要的公關活動。 了解媒體:研究媒體和記者的興趣,提供相關且有價值的信息。 建立聯系:通過專業的方式…

牛客NC324 下一個更大的數(三)【中等 雙指針 Java/Go/PHP/C++】參考lintcode 52 · 下一個排列

題目 題目鏈接: https://www.nowcoder.com/practice/475da0d4e37a481bacf9a09b5a059199 思路 第一步:獲取數字上每一個數,組成數組arr 第二步:利用“下一個排列” 問題解題方法來繼續作答,步驟:利用lintc…

C++進階之路:何為拷貝構造函數,深入理解淺拷貝與深拷貝(類與對象_中篇)

?? 歡迎大家來訪Srlua的博文(づ ̄3 ̄)づ╭?~?? 🌟🌟 歡迎各位親愛的讀者,感謝你們抽出寶貴的時間來閱讀我的文章。 我是Srlua小謝,在這里我會分享我的知識和經驗。&am…

PostgreSQL基礎(三):PostgreSQL的基礎操作

文章目錄 PostgreSQL的基礎操作 一、用戶操作 二、權限操作 三、操作任務

DRM驅動(五)之drm_atomic_state

上節講到《DRM驅動(四)之ADD_FB》調用drmModeAddFB創建drm_framebuffer。然后通過 drmIoctl(fd, DRM_IOCTL_MODE_MAP_DUMB, &map); vaddr mmap(0, create.size, PROT_READ | PROT_WRITE,MAP_SHARED, fd, map.offset); 將物理地址map到用戶空間后…

Python中list遍歷的幾種方式之沒有好與不好,只有合適不合適

Python中list遍歷的幾種方式 引言 Python是一種動態、解釋型的高級編程語言,以其簡潔、易讀的語法而廣受歡迎。在Python中,list是一種非常重要的數據結構,它允許存儲一系列的元素,這些元素可以是任何類型。遍歷list是處理數據的…

nginx的Connection refused

問題描述 nginx的錯誤日志中突然出現大量的的Connection refused問題,日志如下: 2020/03/19 09:52:53 [error] 20117#20117: *7403411764 connect() failed (111: Connection refused) while connecting to upstream, client: xxx.xxx.xxx.xxx, server:…

解決CLion調試時無法顯示變量值的問題

1 問題描述 使用CLion的時候,調試時無法顯示變量的值,例如: 圖來自StackOverflow。 2 解決辦法 可以嘗試切換調試器解決,在Linux下,CLion支持GDB和LLDB,如果GDB不行,可以切換到LLDB。 切換方…

醫院信息化IT監控一體化運維實踐

作者: 曉風 在醫療信息化日益發展的今天,醫院數據中心的運維工作顯得尤為重要。為了確保醫療系統的穩定運行,保障患者數據的安全與完整,我院在信息化IT監控一體化運維方面進行了深入的探索和實踐。 一、背景與挑戰 我院的機房設備規模已有50…