02 數據加工層 如何搭建用戶與內容的標準規范體系

你好,我是周大壯。

01 講我們提到了個性化流量分發體系的四個階段,并著重講解了數據采集階段的內容。那么,這一講我們主要圍繞數據加工階段的內容進行詳細講解。

在課程開始之前,我們先舉一個場景進行說明。

近年來,互聯網上充斥著紛繁蕪雜的信息,比如文字、圖像、聲音、視頻等,這些信息都是非結構化,而用戶在瀏覽這些信息時會同時做出各種各樣的行為,因此,如果想要實現信息與用戶之間的高效連接,我們必須建立標準的用戶行為規范和內容規范,這也是在數據加工階段的核心工作內容。

在個性化流量分發體系中,數據加工階段主要包含用戶標簽體系和物品標簽體系建設工作,即結構化標準體系建設。在這個過程中,我們需要將用戶基礎數據、物品基礎數據、采集的行為數據等進行清洗、抽取、關聯等,最終形成用戶標簽和物品標簽。

其中,用戶標簽是用戶的結構化基礎,物品標簽是物品的結構化基礎,為后續用戶畫像和物品畫像的產出提供必要的材料和關聯基礎。推薦算法依據結構化數據對用戶和物品進行理解,從而提高流量分發的精度。

用戶結構化基礎:用戶標簽

因為用戶標簽面向各個業務,所以用戶標簽被應用到實際業務之前,我們需要先深刻理解各個業務,再通過標簽加工的方式找到該業務體系下有區分度的標簽,這里所說的有區分度的標簽指的就是用戶標簽。

一般來說,用戶標簽分為基本信息、統計標簽、偏好標簽、分類標簽這四類。

  • 基本信息:比如用戶 ID、注冊時間、設備類型等標簽,這些標簽都是通過線上系統或其他方式直接獲取的,不需要任何加工。

  • 統計標簽:指的是基于事實數據的直接統計結果,比如超市最近三個月日均支付金額、最近三個月登錄次數、歷史累計好評數等標簽通過匯總歷史數據即可生成。

  • 偏好標簽:指通過匯總用戶一段時間內的相關行為,并按行為加權生成的標簽。這類標簽主要根據用戶行為計算而得,反應了用戶一段時間內的興趣點,比如用戶的品牌偏好、各級類目偏好等。這些標簽并不涉及復雜的機器學習算法,但是不同標簽的加工過程存在差異化和個性化。

  • 分類標簽:比如預測性別、預測是否有車有房、預測是否已婚已育等標簽,它們的每個類別都有明確的定義。因為這類標簽的生成一般涉及復雜的算法邏輯,所以常常需要借助機器學習算法。

在上述 4 種標簽類別中,因基礎信息和統計標簽獲取過程不涉及任何算法,理解起來相對比較簡單,因此這一講我們不著重討論。接下來我們主要細聊聊偏好標簽和分類標簽。

(1)偏好標簽

在互聯網行業的相關業務場景中,用戶對于偏好標簽的需求量最大,因為偏好標簽通常反映用戶在一段時間內的興趣點,且有可能隨著時間的推移發生變化。比如用戶購買奶粉段位這個偏好標簽會隨著時間推移,產生一條從 1段 -> 2段 -> 3段 的變化軌跡。

明白了偏好標簽的定義后,我們再一起看看偏好標簽具備哪些特點。

  • 特點一:無法精確定義偏好度 0 或 1,它僅反映用戶在一段時間內的興趣點,沒有絕對意義。比如品牌偏好,我們無法準確定義什么樣的用戶對肯德基的偏好度是 1,對阿迪達斯的偏好度是 0。

  • 特點二:這類標簽一般與業務強相關,而在加工這類標簽時我們通常沒有業務感知,不知道哪些行為權重應該大一些,哪些行為權重應該設小一些,也不知道時間窗口設置多長時間更合適。

  • 特點三:沒有復雜的算法邏輯,加工過程都是通過加權匯總一段時間內的幾種行為后,歸一化到 [0, 1]。

根據以上特點,偏好標簽主要采用按維度加權匯總用戶在某種對象(如品牌名)上的相關行為的加工方式,比如將收藏商品數、加購商品數、瀏覽商品數、交易商品數等維度進行加權匯總,然后歸一化到 [0,1] ,最后取 TopN 或全部輸出。

為了方便你理解這部分內容,我把偏好標簽的加工過程進行了分解說明。

收集過去 N 天的相關行為數據,用數學公式: Vi,j 表示在第 i 個行為上對第 j 個對象的行為值;

按時間衰減函數數學公式: t(d) 匯總過去 N 天的行為:

對每種行為做歸一化:

加權匯總:

這里之所以先對每種行為做歸一化,再做加權求和,是因為不同行為的值尺度可能差別很大,如果先做加權求和,很容易導致計算結果只受一種行為的影響,比如瀏覽次數和購買件數這兩個行為尺度相差 10 倍以上。

根據偏好標簽的加工流程,我們發現變化的主要是維度、主體、對象、行為、權重這些因子。而在實際操作中,絕大部分偏好標簽對時間比較敏感,比如紙尿褲型號會隨著寶寶年齡的增長相應發生變化,人的興趣愛好會隨著時間的推移發生變化。因此,在按時間窗口匯總行為時,我們還需要設置一個時間衰減函數,使越久遠的歷史數據影響越小。

簡而言之,在偏好標簽的加工過程中,我們只需要配置關鍵步驟的相關參數,比如指定加工標簽需要的行為、標簽值、需要的時間范圍、按時間衰減時的衰減函數、每種行為的權重等。

(2)分類標簽

分類標簽與偏好標簽的區別是偏好標簽歸一化后的取值范圍為 [0,1],而分類標簽的取值落到個體上是非 0 即 1,比如性別、是否有房、是否已婚等。

預測這類標簽時,通常需要我們在一定量的標記樣本上,通過機器學習算法訓練第一個分類模型(二分類或多分類),再預測無法標記標簽的更多數據集。

對于頭部互聯網公司而言,因為它們擁有足夠豐富的數據和特征,所以在很多分類問題上,即使使用最簡單的邏輯回歸模型也能達到不錯的預測效果。以性別預測為例,我們僅僅使用電商 App 買家在類目上的交易或瀏覽行為就能達到 75%以上的預測準確率。

以上我們講的是如何建立用戶標簽,接下來聊聊如何建立物品標簽。

物品結構化基礎:物品標簽

在瀏覽信息時,用戶往往希望看到自己鐘愛的標簽,然后挑選鐘愛標簽對應的商品,再進入烙印了自己鐘愛標簽的店鋪。在這個過程中,用戶不斷沉淀了個人的行為標簽。

而物品標簽就是通過標簽這個維度將商品清單等泛內容、 C 端/B 端等泛用戶及前臺導購投放等運營手段串聯起來,再利用標簽能力實現對不同商品圈集、不同 B 端圈集、不同 C 端圈集。

物品標簽結構

物品標簽的標簽結構按照標簽的組合粒度可以分成基礎標簽、合成標簽、概念標簽。

(1)基礎標簽

基礎標簽分成內容標簽、用戶標簽、賣家標簽、商品標簽、業務標簽等。

以商品標簽為例,商品標簽的基礎標簽指的是文本類標簽,主要取自商品的標題、屬性等各種用于描述商品的文本信息,類似于屬性-屬性值。為了方便管理和應用,我們需要對屬性進行優化,最終沉淀出一套在整個標簽體系中不可再分、最基礎的標簽。

因此,基礎標簽是平臺最重要、最核心的資產,我們通過基礎標簽實現了商品——>B 端——>C 端——>內容的串聯。

(2)合成標簽

合成標簽是對基礎標簽進一步加工的產物。以商品為例,合成標簽定義為相似商品的集合,比如歐美高領毛衣、高腰碎花連衣裙等,它們各自由三個基礎標簽構成(注意:它們是相似商品集,并不僅僅是一條短文本)。

對于商品而言,使用多個標簽描述這批商品時,其優點在于可理解、可編輯,因為它是一個中間產物。就像一個積木,我們基于它搭出更多好玩的應用。

雖然合成標簽是相似商品的集合,不過也同樣適用于用戶身上,因此我們也可以使用合成標簽對用戶進行更細粒度的切分。

(3)概念標簽

概念標簽的定義范圍比較寬,指的是跨品類、跨類目商品的合理組合。

目前,概念標簽主要應用在商品上,用來強調商品的合理性。概念標簽可以通過基礎標簽的交并集關系聚合而成,也可以由多個合成標簽聚合而成。比如“青春學院風”這個概念標簽包含了破洞牛仔褲、韓版T恤、帆布鞋以及斜挎帆布包等商品。

在實際業務中,概念標簽的最大價值在于將行業的經驗、用戶群體的購物偏好等統統沉淀下來,從而為更多用戶服務,真正做到了知識的沉淀和復用。

以上我們介紹了物品標簽的分類,下面就來介紹物品基礎標簽的挖掘方法。

標簽挖掘

這里我們用集團本地服務業務標簽挖掘流程例舉一下標簽挖掘的過程,整體挖掘過程如下:

通過上圖,我們發現整個標簽挖掘過程分為備用詞發現和備用詞優化兩階段。

第一階段:備用詞發現

備用詞發現是指利用算法和數據挖掘手段從物品非結構化信息中挖掘標簽候選詞,這是備用詞被挑選為標簽之前的過程。

在備選詞發現階段,我們的主要工作是挖掘標簽候選詞。標簽挖掘方法分為找相似挖掘、組合詞挖掘、主題詞挖掘、熱搜詞挖掘、圖片標簽挖掘這 5 種,我們一起討論下。

1.找相似挖掘

根據前期產品或運營給出的先驗標簽,我們需要挖掘與已有標簽相近的新標簽,并對物品實現初步過濾,然后根據詞性過濾人稱代詞、形容詞、數詞等分詞,再通過 TF-IDF 抽取帖子關鍵詞,并訓練詞向量模型,最后計算與種子詞相似的詞,并將其作為新的備選詞。這里你可以參考我放在文稿中的一張圖進行學習。

2.組合詞挖掘

組合詞是指通過分詞工具分出的最小單元詞組合而成的新詞。

判定一個組合詞是否成詞時,我們可以使用基于統計規則的方式計算組合詞的凝固度、自由度和詞頻。

比如 “ABC” 是個新詞,則 ABC 一起出現的頻率應該遠大于詞各自出現的頻率,這就是凝固度,計算公式為:

數學公式:

以最后一個式子說明下,假設 A、B、C 為相互獨立的事件,則 ABC 發生的概率為 P'(ABC) = P(A)P(BC),而 P(ABC) 表示 ABC 通過統計而得的真實發生概率。

因此,上式可以理解為 P(ABC)/P'(ABC),比值越大代表 ABC 越不獨立,相關性越高,即這幾個事件越有可能同時出現,也就是詞的內部凝固度高。從互信息的概念來講,A 和 B、C 聯合分布相對于假定 A 和 B、C 獨立的情況下的聯合分布之間的內在依賴性。

自由度可以理解為組合詞可以成詞,即作為一個整體,自由度主要通過信息熵來計算,即信息熵越大成詞率越高(因篇幅有限,這里就不展開說明)。

詞頻不必多說,指的就是組合詞出現的次數。

說明:該種挖掘方式適用于發現未登錄詞和根據領域語料發現具有特色的領域詞,比如搬家品類這個組合詞就可以發現“廂貨車”等新詞。

3.主題詞挖掘

主題詞挖掘過程同找相似詞一樣,它是先對帖子數據進行預處理,再訓練 LDA 模型,然后抽取各個類目的主題詞作為備選詞。

這里我強調一下,雖然這種挖掘方式可以發現帖子主題詞,但是主題詞設置個數對挖掘效果影響較大。

4.熱搜詞挖掘

熱搜詞挖掘過程是先基于用戶搜索詞日志抽取 TopN 展示 PV 的搜索詞作為熱搜詞,然后去除停用詞并做同義詞歸一化處理,最后將熱搜詞作為備選詞。

5.圖片標簽挖掘

圖片標簽挖掘過程為先抽取展示 TopN 的帖子數據,再由圖片識別獲取圖片標簽,最后將符合規則的標簽作為備選詞。

綜上,找相似挖掘的方式主要適用于有優質標簽的類目,而組合詞挖掘與主題詞挖掘主要適用于沒有標簽的類目。

特殊說明:如果我們想把備選詞作為入庫標簽,還需要經過覆蓋率、網站爬蟲等審核方式,這就涉及第二個階段的內容講解。

第二個階段:備用詞優化

通過以上方式,我們已經得到了足夠的標簽,但入庫的標簽還存在多種問題,比如多標簽同義、負面詞標簽等。因此,我們還需要通過去除同義詞和負面標簽對標簽數據再優化。

備用詞的具體優化流程如下圖所示,此處不再展開說明。

以上我們介紹了標簽的分類和構建,僅僅做到這樣就足夠了么?

比如我們已經挖掘了一個“用戶年齡”的標簽,但經過數據篩選后只選出了幾個人,和總體用戶相比簡直是九牛一毛,此時如果需要針對 20-30 歲的用戶進行精準投放,那這樣的標簽還有什么價值呢?這就涉及接下來我們要討論的標簽質量評估體系。

標簽質量評估體系

一般來說,標簽被正式應用到業務之前,需要先通過一套完整的評估體系進行評估,評估后一旦發現標簽質量過差,則不允許上線。只有待其達到基本質量要求后才允許上線,并開放給業務使用。因為質量過差的標簽不僅對業務沒有價值,還容易讓用戶對標簽畫像系統失去信任。

因此,我們需要對標簽的質量進行科學、完整的評估。只有這樣,我們才能有效控制標簽質量,并指導標簽管理者、開發者不斷地提升標簽質量。

那什么是標簽質量評估體系呢?標簽質量評估體系主要分為算法指標、業務指標、數據回流這三大部分。

  • 算法指標:指在生產標簽過程中需要完成的評估指標,包括標簽的精準性、標簽的覆蓋量、標簽各取值的占比、標簽本身的穩定性等指標。

  • 業務指標:主要由業務來定義,同一個標簽應用在不同業務上產生的影響和作用可能有所區別,這就需要我們從業務價值和業務影響力兩方面來考慮。

  • 數據回流:指的是回流標簽使用后的用戶反饋,主要用于優化標簽。

這里我們總結一下:

評估標簽質量時,我們首先需要重點考慮算法指標,算法指標沒問題后才可以上線,并開放給業務使用;

其次考慮業務指標,因為業務指標是后驗,也就是說如果我們想知道一個標簽的業務質量情況,必須通過投放測試才行;

最終業務使用標簽后的數據會進行回流,用來監控標簽應用在業務場景的價值,以便得出一個比較公允的衡量,而這個衡量,對后面標簽的優化方向具有很強的指導意義。

小結與預告

《道德經》中說:“萬物負陰而抱陽,沖氣以為和。”說的是萬物總是背離陰而趨向陽,陰陽二氣互相沖突交和而成了均勻和諧狀態,從而形成新的統一體。

現代數學用“和”表示相加,也包含了局部整合為整體的意思,其中整合形成系統也就是結構化的意思。復合的結構化是“眾妙之門”,通過結構化建設,系統將用戶和物品進行了關聯。

學到這里,恭喜你已經了解了結構化標準建設的內容。對于結構化標準體系建設,你還有哪些不同的見解?歡迎你在留言區與我分享、互動。

另外,如果你覺得本專欄有價值,歡迎分享給更多好友哦~

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/39181.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/39181.shtml
英文地址,請注明出處:http://en.pswp.cn/web/39181.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

靜態方法與實例方法的區別

靜態方法與實例方法的區別 1、靜態方法(Static Methods)1.1 調用方式1.2 訪問權限 2、實例方法(Instance Methods)2.1 調用方式2.2 訪問權限 3、總結 💖The Begin💖點點關注,收藏不迷路&#x1…

大數據面試題之數倉(2)

目錄 維度表和事實表的區別? 什么是ER模型? OLAP、OLTP解釋(區別)三范式是什么,舉些例子 維度設計過程,事實設計過程 維度設計中有整合和拆分,有哪些方法,并詳細說明 事實表設計分幾種,每一種都是如何在業…

【C++】解決 C++ 語言報錯:Invalid Array Index

文章目錄 引言 無效數組索引(Invalid Array Index)是 C 編程中常見且危險的錯誤之一。當程序試圖使用不合法的索引訪問數組時,就會發生無效數組索引錯誤。這種錯誤不僅會導致程序崩潰,還可能引發不可預測的行為和安全漏洞。本文將…

【PB案例學習筆記】-28制作一個右鍵菜單

寫在前面 這是PB案例學習筆記系列文章的第28篇,該系列文章適合具有一定PB基礎的讀者。 通過一個個由淺入深的編程實戰案例學習,提高編程技巧,以保證小伙伴們能應付公司的各種開發需求。 文章中設計到的源碼,小凡都上傳到了gite…

任天堂稱未來第一方游戲不會使用生成式AI

雖然EA、育碧、暴雪、Embracer等西方游戲廠商都大力支持生成式AI技術,但日本老牌游戲公司任天堂并不會追隨這一步伐。任天堂已經確認該公司未來的第一方游戲不會使用生成式AI技術。 在公司最近的投資人問答會上,任天堂描繪了公司未來游戲愿景。在談到AI技…

安徽農業大學學報

《安徽農業大學學報》是安徽農業大學主辦,國內外公開發行的綜合性農業科學類學術期刊,主要刊登茶葉科學、動植物遺傳育種、作物栽培、植物保護、林學、動物科學與動物醫學、水產科學、生物學、土壤學、農業生態與環境科學、園藝學、食品科學、農業機械工…

Oracle PL / SQL變量值

常量 要聲明常量,請在類型說明符之前放入關鍵字CONSTANT。 常量必須在其聲明中初始化。 每次輸入塊或子程序時,都會初始化常量。 以下代碼顯示如何定義REAL類型的常量,并為常量指定一個不可更改的值5。 DECLARE n_real CONSTANT RE…

51單片機第27步_單片機工作在睡眠模式

重點學習51單片機工作在睡眠模式。 1、進入“睡眠模式”的方法 通過將PCON寄存器中的PDWN置1,則CPU會進入“睡眠模式”。在“睡眠模式”中,晶振將停止工作,因此,定時器和串口都將停止工作,只有外部中斷繼續工作。如果單片機電源…

LeetCode——第 404 場周賽

周賽 三角形的最大高度 給你兩個整數 red 和 blue,分別表示紅色球和藍色球的數量。你需要使用這些球來組成一個三角形,滿足第 1 行有 1 個球,第 2 行有 2 個球,第 3 行有 3 個球,依此類推。 每一行的球必須是 相同 …

Go語言--自定義函數

定義格式 函數構成代碼執行的邏輯結構。在 Go語言中,兩數的基本組成為:關鍵字 func、函數名、參數列表、返回值、所數體和返回語句。 函數定義說明: func:函數由關鍵字func開始聲明FuncName:函數名稱,根據約定,數名首字母小寫即為private…

淺談 Linux 中的 core dump 分析方法

文章目錄 一、什么是 core dump二、發生 core dump 的原因1. 空指針或非法指針引起 core dump2. 數組越界或指針越界引起的 core dump3. 數據競爭導致 core dump4. 代碼不規范 三、core dump 分析方法1. 啟用 core dump2. 觸發 core dump2-1. 因空指針解引用而崩潰2-2. 通過 SI…

圖形編輯器基于Paper.js教程06:鼠標畫圓與橢圓

繪制橢圓與圓形:利用Paper.js進行交互式圖形設計 在Web應用中實現交互式圖形繪制功能,對于提高用戶體驗至關重要,尤其是在設計和藝術相關的應用中。Paper.js是一款強大的JavaScript庫,專門用于處理矢量圖形,它提供了一…

智能語音門鎖:置入NV170D語音芯片ic 打造便捷生活新體驗

一、智能門鎖語音芯片開發背景 隨著科技的飛速發展,傳統門鎖的局限性日益凸顯,無法滿足現代人對高效、安全生活的需求。在這樣的時代背景下,智能門鎖應運而生,它不僅繼承了傳統門鎖的基本功能,更通過融入先進的科技元素…

商標的近似分辯,商標起名稱時注意!

曾有過網友發來商標名稱,普推知商標老楊說有近似,然后網友起過新名稱還是存有近似,或者加字,后面加的通用詞,與先有商標名稱也是近似。 “良信健康”這個名稱健康是行業通用詞,加成健康后變成四個字&#x…

出現 images and labels...0 found, xx missing, 0 empty, 0 corrupt 解決方法

目錄 1. 問題所示2. 原理分析3. 解決方法1. 問題所示 訓練VOC的數據的時候出現如下問題: val: Scanning /home/l228/huoyanhao/yolov5/datasets/VOC/images/VOCdevkit/VOC2007/2007_val images and labels...0 found, 2510 missing, 0 empty, 0 corrupt: 100%|███████…

HTTP協議深入

1.了解web和網絡基礎 有客戶端和服務端雙方參與交互 客戶端發送請求:request 服務端根據請求給出響應:response 請求通過URL來指定要獲取都得資源 響應內容可以是HTML網頁,或者用json表示的數據或者其他二進制文件內容 Web使用一種名為HTTP的協議作為規范&…

jEasyUI 添加分頁組件

jEasyUI 添加分頁組件 jEasyUI(jQuery EasyUI)是一個基于jQuery的用戶界面插件集合,它為用戶提供了一系列的UI組件,如菜單、窗口、數據網格等,以簡化Web頁面的開發。分頁組件是jEasyUI中的一個重要部分,它允許用戶在處理大量數據時,將數據分頁顯示,提高用戶體驗和數據…

AI與大模型工程師證書研修班報名啦!

人工智能大模型是指擁有超大規模參數(通常在十億個以上)、超強計算資源的機器學習模型,能夠處理海量數據,完成各種復雜任務,如自然語言處理、圖像識別等。計算機硬件性能不斷提升,深度學習算法快速優化&…

ESP32CAM物聯網教學03

ESP32CAM物聯網教學03 物聯網小車 小智突發奇想:要是我在點燈物聯APP中多增加幾個按鈕,控制小車的行駛方向,不就可以做成遙控小車了嗎? 點燈物聯控制小車的行駛方向 我們可以重新編輯點燈物聯APP中的設備控件界面,如…

自定義控件之動畫篇(六)——聯合動畫的代碼及xml實現

在Android中,聯合動畫(即組合多種類型的動畫)可以通過編寫Java/Kotlin代碼或XML資源文件來實現。這里我們將分別展示如何通過這兩種方式來實現一個簡單的自定義控件動畫,該動畫將包含平移和縮放效果。 1. XML 資源文件實現 首先…