料
基于穿戴裝備的身體活動監測
摘要
隨著科技的進步,加速度計,能夠實時、準確地捕捉人體的動態變化,成為醫學應用中的一個重要工具。本文將基于題目收集數據進行相關研究。
針對題目給出的數據集,我們首先進行數據清洗工作。首先利用df[df.isna().any(axis=1)]篩選含缺失值的行,并對所在行進行刪除處理。對于處理后的結果,我們利用通過文獻查詢的理論存在極值,設定閾值進行異常值判定并刪除其所在行。
針對問題一,單一利用時間差計算持續時間消耗資源太大,這里通過分析數據可以看出數據的采樣率為100 Hz。因此,我們對最后MET值中不同類型進行計頻處理。根據頻數推算持續各狀態的持續時間。
針對問題二,將處理后的數據集,進行合并為一個完整的數據集作為訓練數據集,性別?(Sex)和年齡(Age)為類別變量,加速度計數據作為輸入數據,MET值作為輸出數據,引入隨機森林回歸器、隨機森林、支持向量機、多層感知機、GBDT進行訓練模型,并利用RMSE對模型精度進行評估。則取精度最高的模型進行預測。基于得到的結果利用問題二中頻數方式計算持續時長。
對于問題三,基于可穿戴設備采集的加速度計數據,旨在對個體睡眠狀態進行階段性識別。將所有數據進行匯總,并從中篩選出MET<1.0的數值,保證選取的數據集中包含與睡眠相關的測量。聚類模型對個體睡眠階段進行智能識別,利用肘部法則自動尋優。構建智能識別模型,并進行應用。
針對問題四,基于加速度計數據的久坐行為健康預警方法。以附件2中志愿者加速度計數據作為輸入,其中每條記錄包含時間戳和經預測得到的MET值(MET_Pred)。通過計算相鄰記錄預測值的變化量來劃分“段”(segment)。設置為排除短時的靜止狀態,僅考慮持續超過30分鐘的行為段;久坐狀態對應的MET值區間設定為[1.0,1.6]。并提取時域特征對于每個志愿者數據集,依照上述分段和久坐判定規則,識別出所有符合條件的連續久坐段。
關鍵詞:近地小行星軌道預測、開普勒定律、最小二乘法、
5.1?數據預處理
針對題目給出的數據集,我們首先進行數據清洗工作。首先利用df[df.isna().any(axis=1)]篩選含缺失值的行,并對所在行進行刪除處理。對于處理后的結果,我們利用通過文獻查詢的理論存在極值,設定閾值進行異常值判定并刪除其所在行。
5.1.1?描述性分析
首先,我們利用給出的數據,進行給出數據特征的初步選擇。
從圖表來看,X、Y和Z軸的波動程度有所不同,這可能與志愿者在該時段進行的不同活動類型相關。例如,較大的波動通常意味著較為劇烈的運動,而較小的波動則可能表明志愿者處于較為靜止的狀態。
5.1.2?缺失值處理
在本研究中,我們利用可穿戴設備采集的加速度計數據,旨在實現對個體運動狀態的實時監測和后續健康行為分析。原始數據存儲于CSV格式文件中,其中記錄了時間戳和對應的三軸加速度值(X,Y,Z軸),這些數據反映了個體在空間中各個方向上的加速度信息。為保證數據處理的準確性和后續模型的魯棒性,首先對數據進行預處理。預處理主要包括:
1.缺失值檢查與清洗
由于實際采集過程中可能存在數據丟失或異常情況,通過統計每個變量(time,?)的缺失值個數,確定數據中存在缺失的記錄。對于出現缺失值的行,采用剔除策略確保分析數據均為有效觀測值。數學上,經過缺失值處理的數據集記為
2.數據采樣
考慮到連續采集的數據樣本量巨大,為了降低可視化繪圖與后續數據分析的計算成本,在保證數據整體趨勢不丟失的前提下,采取均勻采樣策略。具體方法為每隔固定步長(例如每100個樣本取一個數據點),構造采樣數據集:
5.1.3?異常值處理
閾值處理:查閱文獻,找到理論存在X Y Z方向加速度最大值,將該值設定為閾值超過該數據的認定為異常數據,方便起見直接刪除處理。
傳感器量程 | 最大可記錄加速度(每軸) |
±2g | 約?±2 × 9.8 = ±19.6 m/s2 |
±4g | 約?±4 × 9.8 = ±39.2 m/s2 |
±8g | 約?±8 × 9.8 = ±78.4 m/s2 |
±16g | 約?±16 × 9.8 = ±156.8 m/s2 |
理論上,根據牛頓第二定律以及地球重力加速度的參考值,常見的加速度值應落于合理范圍內。在本研究中,將?
?作為加速度的理論上界(約為?2 倍標準重力加速度,即?),以此為閾值檢測異常數據。對于任一數據點,當任一方向上的加速度滿足:
5.2?統計分析模型
對于問題一,單一利用時間差計算持續時間消耗資源太大,這里通過分析數據可以看出數據的采樣率為100 Hz。因此,我們對最后MET值中不同類型進行計頻處理。根據頻數推算持續各狀態的持續時間。
5.2.1?活動時長計量
針對每個志愿者(標識為P001至P100)的數據文件,本研究首先利用數據讀取工具導入CSV數據,其中至少包含一個描述活動類型的"annotation"列。借助正則表達式提取每條記錄中的MET數值,確保后續分類操作的準確性。
在分析過程中,將每個活動注解的出現頻次視為該活動持續的時間片段。假定數據的采樣率為?100 Hz ,即每 100 個連續記錄視為 1 秒內的采樣(或換算后為固定的時間長度),從而每個活動類型的頻次累計可用于估算總持續時間。用數學表達式表示,若設對某一特定活動類型?
?的出現次數為?
?,則活動持續時間(單位為秒)為:
類型名稱 | 出現次數 |
7030 sleeping;MET 0.95 | 3810002?次 |
home activity;eating;13030 eating sitting alone or with someone;MET 1.5 | 74004?次 |
home activity;household chores;preparing meals/cooking/washing dishes;5035 kitchen activity general cooking/washing/dishes/cleaning up;MET 3.3 | 954511?次 |
home activity;miscellaneous;sitting;11580 office work such as writing and typing (with or without eating at the same time);MET 1.5 | 144105?次 |
home activity;miscellaneous;sitting;9055 sitting/lying talking in person/using a mobile phone/smartphone/tablet or talking on the phone/computer (skype chatting);MET 1.5 | 308709?次 |
home activity;miscellaneous;sitting;9060 sitting/lying reading or without observable/identifiable activities;MET 1.3 | 338112?次 |
home activity;miscellaneous;standing;9050 standing talking in person on the phone/computer (skype chatting) or using a mobileo phone/smartphone/tablet;MET 1.8 | 7501?次 |
home activity;miscellaneous;standing;9050 standing talking in person/on the phone/computer (skype chatting) or using a mobile phone/smartphone/tablet;MET 1.8 | 49103?次 |
ID | TotalTime | SleepTime | HighIntensityTime | ModerateIntensityTime | LowIntensityTime | StaticActivityTime |
P001 | 24.7159 | 10.5833 | 0 | 3.7303 | 3.0009 | 7.4013 |
P002 | 16.1406 | 6.25 | 0.3567 | 1.1702 | 1.8108 | 6.5529 |
P003 | 20.5242 | 6.6667 | 0 | 6.7723 | 2.7376 | 4.3476 |
P004 | 18.9362 | 6.5 | 0 | 2.5809 | 3.1359 | 6.7194 |
P005 | 17.0661 | 4.3333 | 0 | 1.8884 | 3.9005 | 6.9439 |
可以直觀地看出各個受試者或各個時間段之間的MET差異。下方的柱狀圖則展示了不同強度運動時長的對比情況,橙色、紅色、藍色等不同顏色柱狀分別代表高強度、中強度、低強度、靜態或睡眠等類別,由此可以觀察每個受試者或不同時間段內各活動類型所占用的時間比例,
5.3?MET?值估計模型
將處理后的數據集,進行合并為一個完整的數據集作為訓練數據集,性別?(Sex)和年齡(Age)為類別變量,加速度計數據作為輸入數據,MET值作為輸出數據,引入隨機森林回歸器、隨機森林、支持向量機、多層感知機、GBDT進行訓練模型,并利用RMSE對模型精度進行評估。則取精度最高的模型進行預測。基于得到的結果利用問題二中頻數方式計算持續時長。