02 數據加工層如何搭建用戶與內容的標準規范體系

你好，我是周大壯。

01 講我們提到了個性化流量分發體系的四個階段，并著重講解了數據采集階段的內容。那么，這一講我們主要圍繞數據加工階段的內容進行詳細講解。

在課程開始之前，我們先舉一個場景進行說明。

近年來，互聯網上充斥著紛繁蕪雜的信息，比如文字、圖像、聲音、視頻等，這些信息都是非結構化，而用戶在瀏覽這些信息時會同時做出各種各樣的行為，因此，如果想要實現信息與用戶之間的高效連接，我們必須建立標準的用戶行為規范和內容規范，這也是在數據加工階段的核心工作內容。

在個性化流量分發體系中，數據加工階段主要包含用戶標簽體系和物品標簽體系建設工作，即結構化標準體系建設。在這個過程中，我們需要將用戶基礎數據、物品基礎數據、采集的行為數據等進行清洗、抽取、關聯等，最終形成用戶標簽和物品標簽。

其中，用戶標簽是用戶的結構化基礎，物品標簽是物品的結構化基礎，為后續用戶畫像和物品畫像的產出提供必要的材料和關聯基礎。推薦算法依據結構化數據對用戶和物品進行理解，從而提高流量分發的精度。

用戶結構化基礎：用戶標簽

因為用戶標簽面向各個業務，所以用戶標簽被應用到實際業務之前，我們需要先深刻理解各個業務，再通過標簽加工的方式找到該業務體系下有區分度的標簽，這里所說的有區分度的標簽指的就是用戶標簽。

一般來說，用戶標簽分為基本信息、統計標簽、偏好標簽、分類標簽這四類。

基本信息：比如用戶 ID、注冊時間、設備類型等標簽，這些標簽都是通過線上系統或其他方式直接獲取的，不需要任何加工。
統計標簽：指的是基于事實數據的直接統計結果，比如超市最近三個月日均支付金額、最近三個月登錄次數、歷史累計好評數等標簽通過匯總歷史數據即可生成。
偏好標簽：指通過匯總用戶一段時間內的相關行為，并按行為加權生成的標簽。這類標簽主要根據用戶行為計算而得，反應了用戶一段時間內的興趣點，比如用戶的品牌偏好、各級類目偏好等。這些標簽并不涉及復雜的機器學習算法，但是不同標簽的加工過程存在差異化和個性化。
分類標簽：比如預測性別、預測是否有車有房、預測是否已婚已育等標簽，它們的每個類別都有明確的定義。因為這類標簽的生成一般涉及復雜的算法邏輯，所以常常需要借助機器學習算法。

在上述 4 種標簽類別中，因基礎信息和統計標簽獲取過程不涉及任何算法，理解起來相對比較簡單，因此這一講我們不著重討論。接下來我們主要細聊聊偏好標簽和分類標簽。

（1）偏好標簽

在互聯網行業的相關業務場景中，用戶對于偏好標簽的需求量最大，因為偏好標簽通常反映用戶在一段時間內的興趣點，且有可能隨著時間的推移發生變化。比如用戶購買奶粉段位這個偏好標簽會隨著時間推移，產生一條從 1段 -> 2段 -> 3段的變化軌跡。

明白了偏好標簽的定義后，我們再一起看看偏好標簽具備哪些特點。

特點一：無法精確定義偏好度 0 或 1，它僅反映用戶在一段時間內的興趣點，沒有絕對意義。比如品牌偏好，我們無法準確定義什么樣的用戶對肯德基的偏好度是 1，對阿迪達斯的偏好度是 0。
特點二：這類標簽一般與業務強相關，而在加工這類標簽時我們通常沒有業務感知，不知道哪些行為權重應該大一些，哪些行為權重應該設小一些，也不知道時間窗口設置多長時間更合適。
特點三：沒有復雜的算法邏輯，加工過程都是通過加權匯總一段時間內的幾種行為后，歸一化到 [0, 1]。

根據以上特點，偏好標簽主要采用按維度加權匯總用戶在某種對象（如品牌名）上的相關行為的加工方式，比如將收藏商品數、加購商品數、瀏覽商品數、交易商品數等維度進行加權匯總，然后歸一化到 [0,1] ，最后取 TopN 或全部輸出。

為了方便你理解這部分內容，我把偏好標簽的加工過程進行了分解說明。

收集過去 N 天的相關行為數據，用數學公式: Vi,j 表示在第 i 個行為上對第 j 個對象的行為值；

按時間衰減函數數學公式: t(d) 匯總過去 N 天的行為：

對每種行為做歸一化：

加權匯總：

這里之所以先對每種行為做歸一化，再做加權求和，是因為不同行為的值尺度可能差別很大，如果先做加權求和，很容易導致計算結果只受一種行為的影響，比如瀏覽次數和購買件數這兩個行為尺度相差 10 倍以上。

根據偏好標簽的加工流程，我們發現變化的主要是維度、主體、對象、行為、權重這些因子。而在實際操作中，絕大部分偏好標簽對時間比較敏感，比如紙尿褲型號會隨著寶寶年齡的增長相應發生變化，人的興趣愛好會隨著時間的推移發生變化。因此，在按時間窗口匯總行為時，我們還需要設置一個時間衰減函數，使越久遠的歷史數據影響越小。

簡而言之，在偏好標簽的加工過程中，我們只需要配置關鍵步驟的相關參數，比如指定加工標簽需要的行為、標簽值、需要的時間范圍、按時間衰減時的衰減函數、每種行為的權重等。

（2）分類標簽

分類標簽與偏好標簽的區別是偏好標簽歸一化后的取值范圍為 [0,1]，而分類標簽的取值落到個體上是非 0 即 1，比如性別、是否有房、是否已婚等。

預測這類標簽時，通常需要我們在一定量的標記樣本上，通過機器學習算法訓練第一個分類模型（二分類或多分類），再預測無法標記標簽的更多數據集。

對于頭部互聯網公司而言，因為它們擁有足夠豐富的數據和特征，所以在很多分類問題上，即使使用最簡單的邏輯回歸模型也能達到不錯的預測效果。以性別預測為例，我們僅僅使用電商 App 買家在類目上的交易或瀏覽行為就能達到 75%以上的預測準確率。

以上我們講的是如何建立用戶標簽，接下來聊聊如何建立物品標簽。

物品結構化基礎：物品標簽

在瀏覽信息時，用戶往往希望看到自己鐘愛的標簽，然后挑選鐘愛標簽對應的商品，再進入烙印了自己鐘愛標簽的店鋪。在這個過程中，用戶不斷沉淀了個人的行為標簽。

而物品標簽就是通過標簽這個維度將商品清單等泛內容、 C 端/B 端等泛用戶及前臺導購投放等運營手段串聯起來，再利用標簽能力實現對不同商品圈集、不同 B 端圈集、不同 C 端圈集。

物品標簽結構

物品標簽的標簽結構按照標簽的組合粒度可以分成基礎標簽、合成標簽、概念標簽。

（1）基礎標簽

基礎標簽分成內容標簽、用戶標簽、賣家標簽、商品標簽、業務標簽等。

以商品標簽為例，商品標簽的基礎標簽指的是文本類標簽，主要取自商品的標題、屬性等各種用于描述商品的文本信息，類似于屬性-屬性值。為了方便管理和應用，我們需要對屬性進行優化，最終沉淀出一套在整個標簽體系中不可再分、最基礎的標簽。

因此，基礎標簽是平臺最重要、最核心的資產，我們通過基礎標簽實現了商品——>B 端——>C 端——>內容的串聯。

（2）合成標簽

合成標簽是對基礎標簽進一步加工的產物。以商品為例，合成標簽定義為相似商品的集合，比如歐美高領毛衣、高腰碎花連衣裙等，它們各自由三個基礎標簽構成（注意：它們是相似商品集，并不僅僅是一條短文本）。

對于商品而言，使用多個標簽描述這批商品時，其優點在于可理解、可編輯，因為它是一個中間產物。就像一個積木，我們基于它搭出更多好玩的應用。

雖然合成標簽是相似商品的集合，不過也同樣適用于用戶身上，因此我們也可以使用合成標簽對用戶進行更細粒度的切分。

（3）概念標簽

概念標簽的定義范圍比較寬，指的是跨品類、跨類目商品的合理組合。

目前，概念標簽主要應用在商品上，用來強調商品的合理性。概念標簽可以通過基礎標簽的交并集關系聚合而成，也可以由多個合成標簽聚合而成。比如“青春學院風”這個概念標簽包含了破洞牛仔褲、韓版T恤、帆布鞋以及斜挎帆布包等商品。

在實際業務中，概念標簽的最大價值在于將行業的經驗、用戶群體的購物偏好等統統沉淀下來，從而為更多用戶服務，真正做到了知識的沉淀和復用。

以上我們介紹了物品標簽的分類，下面就來介紹物品基礎標簽的挖掘方法。

標簽挖掘

這里我們用集團本地服務業務標簽挖掘流程例舉一下標簽挖掘的過程，整體挖掘過程如下：

通過上圖，我們發現整個標簽挖掘過程分為備用詞發現和備用詞優化兩階段。

第一階段：備用詞發現

備用詞發現是指利用算法和數據挖掘手段從物品非結構化信息中挖掘標簽候選詞，這是備用詞被挑選為標簽之前的過程。

在備選詞發現階段，我們的主要工作是挖掘標簽候選詞。標簽挖掘方法分為找相似挖掘、組合詞挖掘、主題詞挖掘、熱搜詞挖掘、圖片標簽挖掘這 5 種，我們一起討論下。

1.找相似挖掘

根據前期產品或運營給出的先驗標簽，我們需要挖掘與已有標簽相近的新標簽，并對物品實現初步過濾，然后根據詞性過濾人稱代詞、形容詞、數詞等分詞，再通過 TF-IDF 抽取帖子關鍵詞，并訓練詞向量模型，最后計算與種子詞相似的詞，并將其作為新的備選詞。這里你可以參考我放在文稿中的一張圖進行學習。

2.組合詞挖掘

組合詞是指通過分詞工具分出的最小單元詞組合而成的新詞。

判定一個組合詞是否成詞時，我們可以使用基于統計規則的方式計算組合詞的凝固度、自由度和詞頻。

比如 “ABC” 是個新詞，則 ABC 一起出現的頻率應該遠大于詞各自出現的頻率，這就是凝固度，計算公式為：

數學公式:

以最后一個式子說明下，假設 A、B、C 為相互獨立的事件，則 ABC 發生的概率為 P'(ABC) = P(A)P(BC)，而 P(ABC) 表示 ABC 通過統計而得的真實發生概率。

因此，上式可以理解為 P(ABC)/P'(ABC)，比值越大代表 ABC 越不獨立，相關性越高，即這幾個事件越有可能同時出現，也就是詞的內部凝固度高。從互信息的概念來講，A 和 B、C 聯合分布相對于假定 A 和 B、C 獨立的情況下的聯合分布之間的內在依賴性。

自由度可以理解為組合詞可以成詞，即作為一個整體，自由度主要通過信息熵來計算，即信息熵越大成詞率越高（因篇幅有限，這里就不展開說明）。

詞頻不必多說，指的就是組合詞出現的次數。

說明：該種挖掘方式適用于發現未登錄詞和根據領域語料發現具有特色的領域詞，比如搬家品類這個組合詞就可以發現“廂貨車”等新詞。

3.主題詞挖掘

主題詞挖掘過程同找相似詞一樣，它是先對帖子數據進行預處理，再訓練 LDA 模型，然后抽取各個類目的主題詞作為備選詞。

這里我強調一下，雖然這種挖掘方式可以發現帖子主題詞，但是主題詞設置個數對挖掘效果影響較大。

4.熱搜詞挖掘

熱搜詞挖掘過程是先基于用戶搜索詞日志抽取 TopN 展示 PV 的搜索詞作為熱搜詞，然后去除停用詞并做同義詞歸一化處理，最后將熱搜詞作為備選詞。

5.圖片標簽挖掘

圖片標簽挖掘過程為先抽取展示 TopN 的帖子數據，再由圖片識別獲取圖片標簽，最后將符合規則的標簽作為備選詞。

綜上，找相似挖掘的方式主要適用于有優質標簽的類目，而組合詞挖掘與主題詞挖掘主要適用于沒有標簽的類目。

特殊說明：如果我們想把備選詞作為入庫標簽，還需要經過覆蓋率、網站爬蟲等審核方式，這就涉及第二個階段的內容講解。

第二個階段：備用詞優化

通過以上方式，我們已經得到了足夠的標簽，但入庫的標簽還存在多種問題，比如多標簽同義、負面詞標簽等。因此，我們還需要通過去除同義詞和負面標簽對標簽數據再優化。

備用詞的具體優化流程如下圖所示，此處不再展開說明。

以上我們介紹了標簽的分類和構建，僅僅做到這樣就足夠了么？

比如我們已經挖掘了一個“用戶年齡”的標簽，但經過數據篩選后只選出了幾個人，和總體用戶相比簡直是九牛一毛，此時如果需要針對 20-30 歲的用戶進行精準投放，那這樣的標簽還有什么價值呢？這就涉及接下來我們要討論的標簽質量評估體系。

標簽質量評估體系

一般來說，標簽被正式應用到業務之前，需要先通過一套完整的評估體系進行評估，評估后一旦發現標簽質量過差，則不允許上線。只有待其達到基本質量要求后才允許上線，并開放給業務使用。因為質量過差的標簽不僅對業務沒有價值，還容易讓用戶對標簽畫像系統失去信任。

因此，我們需要對標簽的質量進行科學、完整的評估。只有這樣，我們才能有效控制標簽質量，并指導標簽管理者、開發者不斷地提升標簽質量。

那什么是標簽質量評估體系呢？標簽質量評估體系主要分為算法指標、業務指標、數據回流這三大部分。

算法指標：指在生產標簽過程中需要完成的評估指標，包括標簽的精準性、標簽的覆蓋量、標簽各取值的占比、標簽本身的穩定性等指標。
業務指標：主要由業務來定義，同一個標簽應用在不同業務上產生的影響和作用可能有所區別，這就需要我們從業務價值和業務影響力兩方面來考慮。
數據回流：指的是回流標簽使用后的用戶反饋，主要用于優化標簽。

這里我們總結一下：

評估標簽質量時，我們首先需要重點考慮算法指標，算法指標沒問題后才可以上線，并開放給業務使用；

其次考慮業務指標，因為業務指標是后驗，也就是說如果我們想知道一個標簽的業務質量情況，必須通過投放測試才行；

最終業務使用標簽后的數據會進行回流，用來監控標簽應用在業務場景的價值，以便得出一個比較公允的衡量，而這個衡量，對后面標簽的優化方向具有很強的指導意義。

小結與預告

《道德經》中說：“萬物負陰而抱陽，沖氣以為和。”說的是萬物總是背離陰而趨向陽，陰陽二氣互相沖突交和而成了均勻和諧狀態，從而形成新的統一體。

現代數學用“和”表示相加，也包含了局部整合為整體的意思，其中整合形成系統也就是結構化的意思。復合的結構化是“眾妙之門”，通過結構化建設，系統將用戶和物品進行了關聯。

學到這里，恭喜你已經了解了結構化標準建設的內容。對于結構化標準體系建設，你還有哪些不同的見解？歡迎你在留言區與我分享、互動。

另外，如果你覺得本專欄有價值，歡迎分享給更多好友哦~