這是課上做的筆記,因此很多記得比較急,之后會逐步完善,每節課的邏輯流程寫在大綱部分。
成功率(SR)
導航誤差(NE)
成功加權路徑長度(SucceedPLength)
軌跡長度(TL)
先知成功率(OS)
評估環境
1. SEEN VS. UNSEEN ENVIRONMENTS
SEEN ENVIRONMENTS
- 定義:這些是用于訓練和驗證的場景。
- 目的:確保模型在熟悉的數據上能夠很好地擬合和表現。
- 特點:模型在訓練過程中已經見過這些環境,因此對它們有較好的理解和預測能力。
UNSEEN ENVIRONMENTS
- 定義:這些是模型在訓練中從未見過的場景,用于評估其泛化能力。
- 目的:檢驗模型是否能夠在未見過的新環境中保持良好的性能,這反映了模型的真實應用潛力。
- 特點:由于模型沒有見過這些環境,因此可以更真實地反映其在實際應用中的表現。
2. TEST ENVIRONMENTS
- 定義:與UNSEEN ENVIRONMENTS類似,同樣是完全未見過的環境,但它是最終的、最權威的評測標準。
- 目的:為了保證公平性和客觀性,測試集的正確答案(路徑)通常是不公開的,以防止研究者通過逆向工程等方式獲取優勢。
- 流程:
- 研究者需要將訓練好的模型提交到官方的評測服務器上。
- 由服務器來計算并返回最終成績,這樣可以確保評估過程的公正性和準確性。