1.背景
機器學習分為:監督學習,無監督學習,半監督學習(也可以用hinton所說的強化學習)等。在這里,先簡要介紹一下監督學習從給定的訓練數據集中學習出一個函數(模型參數),當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求包括輸入輸出,也可以說是特征和目標。訓練集中的目標是由人標注的。監督學習就是最常見的分類(注意和聚類區分)問題,通過已有的訓練樣本(即已知數據及其對應的輸出)去訓練得到一個最優模型(這個模型屬于某個函數的集合,最優表示某個評價準則下是最佳的),再利用這個模型將所有的輸入映射為相應的輸出,對輸出進行簡單的判斷從而實現分類的目的。也就具有了對未知數據分類的能力。監督學習的目標往往是讓計算機去學習我們已經創建好的分類系統(模型)。常見的有監督學習算法:回歸分析和統計分類。
腫瘤預測模型是一個有監督學習模型,通過事先標注好的訓練集,患者是否發生結局,患者信息等,訓練一個COX模型,或者其他回歸模型,在訓練的模型基礎上進行預測輸出。在預測模型搭建過程中,由于抽樣與正則化的原因,導致模型輸出的概率值明顯偏離真實的概率值。這時候我們稱這些模型直接輸出的概率值是定序值,而非定距數值,可比較大小,但其絕對值并無太多含義。那么如何將模型輸出的prob校準到真實的逾期概率呢。使得經過校準后的概率變成逾期概率的意義。比如預測模型預測某個樣本屬于正類的概率是0.8,那么就應當說明有80%的把握認為該樣本屬于正類,或者100個概率為0.8的里面有80個確實屬于正類。根據這個關系,可以用測試數據得到Probability