成為AI產品經理——模型構建過程(上)

目錄

一、背景

1.對內

2.對外

二、模型構建過程?

1.模型設計

2.特征工程

① 數據清洗

② 特征提取

數值型數據

標簽/描述類數據特征

非結構化數據(處理文本特征)

網絡關系型數據?

③ 特征選擇?

④ 訓練集/測試集


一、背景

雖然產品經理不需要參與到模型構建工作中,但是我們需要對模型構建過程有一定的了解,有點兩點好處:

1.對內

配合算法同學進行數據收集、模型訓練、參數調優,及時跟進項目優化,應對突發狀況。

2.對外

如果模型訓練過程中出現問題,我們能夠使用非技術性的話語向業務方解釋,幫算法同學爭取更多的時間。

二、模型構建過程?

?模型構建主要包括以下五個部分:

模型設計、特征工程、模型訓練、模型驗證、模型融合、模型部署,接下來我們對于以下概念依次講解。

1.模型設計

模型設計時我們需要確認以下幾個問題:

① 有沒有必要建立這個模型?

② 我們當前的技術和資源能不能做這個模型?(數據源夠不夠、樣本怎么獲取、目標變量怎么設定)

③ 我們需要達到怎么樣的預期結果?

?不同的需求決定了模型的應用場景,決定了它能夠達到的業務預期。

2.特征工程

特征工程的概念是:將其他類型的數據轉化成數量化信息以供模型訓練。

特征工程是模型構建過程中耗時最長的一項工作,為什么特征工程耗時最長呢?

我們知道模型訓練就是從數據中提取特征,然后根據特征使用算法來建立出對于未知數據進行預測的模型。算法逼近特征,而特征決定模型的上限。

特征工程里面又細分了其他工作模塊:

數據清洗、特征提取、特征選擇、訓練集/測試集。

① 數據清洗

我們提供的數據并不是可以直接使用的數據,因為可能會存在異常數據、不均衡數據、數據殘缺、量綱不一致等問題。

此時我們需要對殘缺數據進行補全;對于干擾數據進行刪除;對于異常數據進行標注;對于不均衡數據:丟棄較多的數據或者補充較少的數據;對于量綱(單位)不一致的數據進行歸一化處理。

② 特征提取

特征提取通常有四種常見類型:數值型特征數據,標簽或描述類數據,非結構化數據,網絡關系型數據。

  • 數值型數據

包含大量數值特征的數據。使用數值數據時,我們需要分兩部分:主體變量特征和度量維度特征。比如京東的瀏覽頁面次數是主體特征數據,瀏覽時長和瀏覽次數排名就是其他度量維度特征。

  • 標簽/描述類數據特征

有些特征沒有大小關系,無法使用數值表示,我們稱為標簽/描述類數據。比如:好瓜、壞瓜。這種就是標簽/描述類數據,我們可以將好瓜標記為[0,1],將壞瓜標記為[1,0]。

  • 非結構化數據(處理文本特征)

?非結構化數據通常出現在UGC(User Generated?Content)用戶生成內容。比如用戶的評論信息。現在我們需要使用用戶的評論信息進行特征提取,這里需要使用到自然語言處理的方法。比如:買了一箱,孩子很喜歡。我們篩選出“孩子”,就可以知道這是一位親子用戶。

簡而言之,非結構化數據(文本特征數據),我們就是進行文本清洗和挖掘,挖掘出一定的用戶特征。

  • 網絡關系型數據?

網絡關系型數據就是通過數據信息獲得用戶的社交關系。比如我們可以通過同一公司地址基本確定兩者是同事關系。我們可以通過用戶同一家庭地址基本確定兩者的親人關系。

通常來說:算法工程師可以通過通訊錄、收貨地址、位置信息、好友助力等信息確定用戶的關系網絡,這個關系網絡中的信息就可以作為我們特征提取的參考。

③ 特征選擇?

第一步:跟進特征覆蓋率、IV指標(信息的價值量)進行篩選。

IV:判斷哪些特征進入模型,這個特征重不重要就使用IV指標。IV值就是用來衡量變量預測能力的,IV值越大,表示該變量的預測能力越強。

第二步:根據業務需求設定閾值,篩選掉一部分數據。

第三步:根據特征的穩定性篩選數據。

IV指標詳解:機器學習-變量篩選之IV值和WOE - 知乎 (zhihu.com)

④ 訓練集/測試集

?做完以上的工作我們就開始劃分訓練集和測試集了,我們通常將樣本60%數據作為訓練集,20%作為驗證集,剩余20%用于測試集,三者數據相互獨立。

訓練集用于訓練模型,驗證集用于對訓練后的模型進行驗證微調,測試集用于對訓練和驗證后的數據進行測試,評估模型是否達到業務指標。

在模型構建過程中,因為很多因素的不確定性,導致會出現很多計劃外的工作,所以你需要充分的了解模型構建流程為算法同學爭取更多的時間和資源。

參考文獻:劉海豐——《成為AI產品經理》

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/163704.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/163704.shtml
英文地址,請注明出處:http://en.pswp.cn/news/163704.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux應用開發基礎知識——I2C應用編程(十二)

前言: I2C(Inter-Integrated Circuit BUS)是集成電路總線,是目前應用最廣泛的總線之一,最初由PHILIPS(現為NXP)設計。它使用多主從架構,主要用于連接低速周邊設備。I2C總線在硬件物理…

WorkPlus即時通訊,打通上下游產業鏈,構建企業生態圈

如今,隨著信息技術的迅速發展,智慧水務、智慧醫療、智慧城市、智慧教育、智慧政務等領域正蓬勃發展。在這個智慧時代,企業需要一個具備開放性和擴展性的平臺級產品,以滿足多樣化的業務需求。WorkPlus作為一款全新的移動底座產品&a…

String 真的不可變嗎?

為什么 String 類不可變 final修飾符: String類被聲明為final,這意味著它不能被繼承。因此,無法創建String的子類來修改其行為。私有字符數組(char[]): String類內部使用私有的字符數組來存儲字符串的內容…

Excel文件比較不再繁瑣,xlCompare助您快速找出差異

概要 在現代職場中,Excel 已成為工作中不可或缺的利器。 在日常操作中,我們會遇到需要對兩個或多個 Excel 文件進行比較的情況,此時,一款高效的 Excel 文件比較工具就顯得尤為重要。 本文將為您介紹一款功能強大、優勢明顯的 Exc…

創新建筑形式:氣膜體育館助力校園體育設施革新

體育場館在校園中扮演著重要的角色,是學生們進行體育鍛煉、比賽和各類體育活動的場所。傳統的室內體育館建設往往需要大量資金和漫長的建設周期,但隨著氣膜體育館的嶄露頭角,校園體育設施的面貌正迎來一場革新。 快速搭建,靈活性極…

電機應用開發-直流有刷電機電流環控制實現

目錄 直流有刷電機電流環控制實現 硬件設計 直流電機電流環控制-位置式PID實現 編程要點 配置ADC可讀取電流值 配置基本定時器6產生定時中斷讀取當前電路中驅動電機的電流值并執行PID運算 配置定時器1輸出PWM控制電機 ADC數據處理 編寫位置式PID算法 直流電機電流環控…

3、領導跟你談話,講到你的團隊里面的好友,公司會進行觀察裁員,你會去傳話么?

作為一個團隊成員,我會認真聽取領導的意見,并尊重公司的決定。然而,作為一個好友,我也會考慮他們的利益,我會與他們溝通,提醒他們注意自己的表現和工作,努力提高業績和工作質量,以確…

5個免費在線工具推薦

NSDT 三維場景建模工具GLTF/GLB在線編輯器Three.js AI自動紋理化開發包YOLO 虛幻合成數據生成器3D模型在線轉換 1、NSDT 三維場景建模 訪問地址:NSDT 編輯器 2、GLTF/GLB在線編輯器 訪問地址:GLTF 編輯器 3、Three.js AI自動紋理化開發包 圖一為原始模…

Linux下安裝兩個版本python

1 python下載: 官網地址:Download Python | Python.org 第一:點擊下載如下圖: 第二:找到對應的python版本源碼包: 點擊右鍵復制下載地址,如下圖 例如我的是:https://www.python.org/…

【鴻蒙應用ArkTS開發系列】- 云開發入門實戰二 實現省市地區聯動地址選擇器組件(上)

目錄 概述 云數據庫開發 一、創建云數據庫的對象類型。 二、預置數據(為對象類型添加數據條目)。 三、部署云數據庫 云函數實現業務邏輯 一、創建云函數 二、云函數目錄講解 三、創建resources目錄 四、獲取云端憑據 五、導出之前創建的元數據…

企業如何通過軟文推廣提高競爭力

數字時代我們每天接收到的信息遠遠超過可接受的量,且技術進步帶來的“信息繭房”使用戶很難獲取真正有效的信息,但越是雜亂的信息環境,有價值信息的穿透力就越強,軟文推廣正是憑借價值感信息助力企業提高競爭力,接下來…

RabbitMQ快速學習之WorkQueues模型、三種交換機、消息轉換器(SpringBoot整合)

文章目錄 前言一、WorkQueues模型消息發送消息接收能者多勞 二、交換機類型1.Fanout交換機消息發送消息接收 2.Direct交換機消息接收消息發送 3.Topic交換機消息發送消息接收 三、編程式聲明隊列和交換機fanout示例direct示例基于注解 四、消息轉換器總結 前言 WorkQueues模型…

C plus plus

環境配置 vscodewindows vscode c 環境配置(終極版)_vscode配置c/c環境_BangBang的博客-CSDN博客VsCode安裝和配置C環境詳細全流程_vscode安裝c-CSDN博客MinGW、MinGW-w64 與TDM-GCC 應該如何選擇? - 知乎、VsCode安裝和配置C環境詳細全流程_vscode安裝c-CSDN博客 …

?LeetCode解法匯總5-正則表達式匹配?

目錄鏈接: 力扣編程題-解法匯總_分享記錄-CSDN博客 GitHub同步刷題項目: https://github.com/September26/java-algorithms 原題鏈接:力扣(LeetCode)官網 - 全球極客摯愛的技術成長平臺 描述: 「HTML 實…

Educoder中Hive綜合應用案例——用戶學歷查詢

第1關:查詢每一個用戶從出生到現在的總天數 ---------- 禁止修改 ----------drop database if exists mydb cascade; ---------- 禁止修改 -------------------- begin ---------- ---創建mydb數據庫 create database mydb;---使用mydb數據庫 use mydb;---創建表user create …

電腦找不到xinput1_3.dll怎么修復,快速處理dll問題的5個方法分享

在使用電腦的過程中,我們常常會遇到一些常見的問題,其中之一就是“電腦缺少xinput1_3.dll”。這個問題可能會影響到我們對電腦的使用體驗,甚至導致某些軟件無法正常運行。在我遇到這個問題并解決之后,我深刻地體會到了解決問題的重…

迅鐳激光板材切割自動化生產線中標高端機械裝備龍頭豪邁集團!

近年來,中國制造業逐步由低端制造業向高端制造業邁進、由勞動密集型向技術密集型轉變,智能制造帶動了制造業生產環節的自動化、信息化、數字化、智能化的迭代升級。 位于山東省的高端機械裝備龍頭——豪邁集團,緊跟國家發展戰略,加…

【Spring集成MyBatis】MyBatis的Dao層實現(基于配置,非注解開發)

文章目錄 1. MyBatis的dao層實現(傳統方式)——需要寫接口及其實現類2. MyBatis的代理開發方式——僅需寫接口 1. MyBatis的dao層實現(傳統方式)——需要寫接口及其實現類 傳統方式就是在項目下邊建立dao包,里面包含接口及其實現類,文件結構如下&#x…

交直流一體化電源系統測試步驟詳解

交直流一體化電源擁有高度適應性,可以用于不同的電力需求領域。但是為了確保其質量和性能,需要對交直流一體化電源進行各項測試以保證正常工作。本文納米軟件將介紹交直流一體化電源的測試方法,以及如何用交直流一體化電源測試系統進行測試。…

Java,數據結構與集合源碼,關于Map接口的實現類(HashMap、LinkedHashMap)

HashMap中的元素的特點: HashMap中的所有key之間是不可重復的、無序的。所有的key構成一個Set集合。 HashMap中的所有的value彼此之間是可重復的、無序的。所有的value構成一個Collection集合。 HashMap中的一對key-value,就構成了一個entry。Map中的ent…