目錄
一、背景
1.對內
2.對外
二、模型構建過程?
1.模型設計
2.特征工程
① 數據清洗
② 特征提取
數值型數據
標簽/描述類數據特征
非結構化數據(處理文本特征)
網絡關系型數據?
③ 特征選擇?
④ 訓練集/測試集
一、背景
雖然產品經理不需要參與到模型構建工作中,但是我們需要對模型構建過程有一定的了解,有點兩點好處:
1.對內
配合算法同學進行數據收集、模型訓練、參數調優,及時跟進項目優化,應對突發狀況。
2.對外
如果模型訓練過程中出現問題,我們能夠使用非技術性的話語向業務方解釋,幫算法同學爭取更多的時間。
二、模型構建過程?
?模型構建主要包括以下五個部分:
模型設計、特征工程、模型訓練、模型驗證、模型融合、模型部署,接下來我們對于以下概念依次講解。
1.模型設計
模型設計時我們需要確認以下幾個問題:
① 有沒有必要建立這個模型?
② 我們當前的技術和資源能不能做這個模型?(數據源夠不夠、樣本怎么獲取、目標變量怎么設定)
③ 我們需要達到怎么樣的預期結果?
?不同的需求決定了模型的應用場景,決定了它能夠達到的業務預期。
2.特征工程
特征工程的概念是:將其他類型的數據轉化成數量化信息以供模型訓練。
特征工程是模型構建過程中耗時最長的一項工作,為什么特征工程耗時最長呢?
我們知道模型訓練就是從數據中提取特征,然后根據特征使用算法來建立出對于未知數據進行預測的模型。算法逼近特征,而特征決定模型的上限。
特征工程里面又細分了其他工作模塊:
數據清洗、特征提取、特征選擇、訓練集/測試集。
① 數據清洗
我們提供的數據并不是可以直接使用的數據,因為可能會存在異常數據、不均衡數據、數據殘缺、量綱不一致等問題。
此時我們需要對殘缺數據進行補全;對于干擾數據進行刪除;對于異常數據進行標注;對于不均衡數據:丟棄較多的數據或者補充較少的數據;對于量綱(單位)不一致的數據進行歸一化處理。
② 特征提取
特征提取通常有四種常見類型:數值型特征數據,標簽或描述類數據,非結構化數據,網絡關系型數據。
-
數值型數據
包含大量數值特征的數據。使用數值數據時,我們需要分兩部分:主體變量特征和度量維度特征。比如京東的瀏覽頁面次數是主體特征數據,瀏覽時長和瀏覽次數排名就是其他度量維度特征。
-
標簽/描述類數據特征
有些特征沒有大小關系,無法使用數值表示,我們稱為標簽/描述類數據。比如:好瓜、壞瓜。這種就是標簽/描述類數據,我們可以將好瓜標記為[0,1],將壞瓜標記為[1,0]。
-
非結構化數據(處理文本特征)
?非結構化數據通常出現在UGC(User Generated?Content)用戶生成內容。比如用戶的評論信息。現在我們需要使用用戶的評論信息進行特征提取,這里需要使用到自然語言處理的方法。比如:買了一箱,孩子很喜歡。我們篩選出“孩子”,就可以知道這是一位親子用戶。
簡而言之,非結構化數據(文本特征數據),我們就是進行文本清洗和挖掘,挖掘出一定的用戶特征。
-
網絡關系型數據?
網絡關系型數據就是通過數據信息獲得用戶的社交關系。比如我們可以通過同一公司地址基本確定兩者是同事關系。我們可以通過用戶同一家庭地址基本確定兩者的親人關系。
通常來說:算法工程師可以通過通訊錄、收貨地址、位置信息、好友助力等信息確定用戶的關系網絡,這個關系網絡中的信息就可以作為我們特征提取的參考。
③ 特征選擇?
第一步:跟進特征覆蓋率、IV指標(信息的價值量)進行篩選。
IV:判斷哪些特征進入模型,這個特征重不重要就使用IV指標。IV值就是用來衡量變量預測能力的,IV值越大,表示該變量的預測能力越強。
第二步:根據業務需求設定閾值,篩選掉一部分數據。
第三步:根據特征的穩定性篩選數據。
IV指標詳解:機器學習-變量篩選之IV值和WOE - 知乎 (zhihu.com)
④ 訓練集/測試集
?做完以上的工作我們就開始劃分訓練集和測試集了,我們通常將樣本60%數據作為訓練集,20%作為驗證集,剩余20%用于測試集,三者數據相互獨立。
訓練集用于訓練模型,驗證集用于對訓練后的模型進行驗證微調,測試集用于對訓練和驗證后的數據進行測試,評估模型是否達到業務指標。
在模型構建過程中,因為很多因素的不確定性,導致會出現很多計劃外的工作,所以你需要充分的了解模型構建流程為算法同學爭取更多的時間和資源。
參考文獻:劉海豐——《成為AI產品經理》