京東購物在微信等場景下的算法應用實踐

本文根據京東微信手Q業務部馬老師在京東\u0026amp;DataFun Talk算法架構系列活動中所分享的《京東購物在微信等場景下的算法應用實踐》編輯整理而成，在未改變原意的基礎上稍做修改。

此次分享的是以WQ（微信手Q）購物智能推薦系統介紹智能推薦算法在實際中的應用，介紹的WQ購物從海量服務到簡單的個性服務到現在的個性化服務發展歷程。他從以下四個部分進行了介紹。

首先講解了WQ個性化推薦有哪些產品、有哪些業務；第二部分講如何構建WQ推薦平臺，如何支持這些業務需求；第三部分簡單介紹了用戶畫像（用戶畫像、物料畫像）；最后講解WQ大數據平臺如何搭建。通過這次講解讓大家對推薦系統搭建流程有個初步了解，使大家能夠在3-5天時間里通過這種開源框架搭建一個自己的小型推薦系統。

1. WQ個性化推薦

WQ個性化推薦在微信購物界面體現的方方面面，主要有關鍵詞推薦（新用戶主要通過上下文信息推薦，準確度不是很高）、素材推薦（入口圖、焦點圖、品牌特賣）、商品（賣場、秒殺、拼購等）資訊（趣好貨、購物圈）以及其他如猜你喜歡、類目入口（由于手機屏幕大小原因，條目不能全部顯示，智能通過用戶興趣選擇用戶感興趣的條目）欄目館區等，具體見下圖。

$\"\"$

WQ這些海量個性化推薦業務主要由ABC（AI人工智能、BigData大數據、Cloud云服務）技術支持，主要解決用戶體驗問題，運營效率問題、業務效果問題。如金手指（熱搜詞+規則+推薦）的下單轉化率提升為200%-400%，隨著時間略有波動，熱搜詞采用插件式接入（加載js插件，依據你頁面上下文，類目進行熱搜詞推薦），簡單易用；智能賣場由原先運營人員和商家談判、選品、上線，周期為兩人一周構建賣場，通過ABC基于算法、基于不同規則生成不同智能賣場只需一個人員10分鐘就能完成，而且程序自動維護，解決效率問題；入口圖（素材）這一方面主要解決用戶體驗問題，使用戶達到所見即所想，打造觸動內心的極致體驗。

$\"\"$

除了ABC技術提高推薦轉化率，團隊發現組織聯動在推薦效果也有明顯提升，上圖是去年8月到11月的推薦效果提升，如果單純的靠算法優化，效果只能提升30%達到50-60%就是算法極限，但是如果和產品聯動效果由30%提升到90%，因此建議在做算法優化是加入產品運營聯動。如在穿搭推薦中先前無論如何算法優化，轉化率一直很低，最后發現是產品素材質量太差，無法引起用戶興趣。另一方面在智能賣場做數據挖掘、爬蟲抓取關聯商品，再進行聚類確實能夠發現人的行為，但是運營能抓住用戶價值點，如果在物料上加入這些價值點，能夠明顯提升推薦效果。

2. WQ推薦平臺

$\"\"$

WQ推薦系統需要知道解決那些問題：

（1）首先業務需求多，原先想的是一個一個業務對接，但是關鍵詞開發需要人員，資訊開發也需要人員，但是開發人員資源有限，開發壓力大，無法應對也無需求；

（2）平臺多，接入工作流量大，每個都去對接工作量大；

（3）跨公司問題，數據不是完全共享，安全性能要求高，只能系統對接，因此流量紅點壓力大；

（4）用戶體驗問題，只能向前不能倒退

（5）效果問題，增長放緩，只能從技術、算法方面來提升；

（6）用戶量大，資源有限等。

$\"\"$

推薦系統核心是“數據”、“算法”、“系統”，有這三種推薦系統就能運行。具體工作是：首先用戶會請求我們的業務系統，之后請求推薦引擎，推薦接入實現業務分流到對應的推薦平臺，然后通過推薦算法、模型返回用戶所需數據。除此之外還有一個數據的反向上報（行為上報），因為我們的推薦都是基于大數據，如果我們能收集用戶的行為越多，對用戶的行為就越準，推薦也就越精確。對用戶的（點擊，搜索，瀏覽）做DMP（大數據管理平臺），讓模型訓練算法，其響應時間一般是限度控制在300-500毫秒。

WQ推薦系統平臺架構如下所示，依據架構依據相關開源軟件能夠3-5天搭建一個推薦系統。首先業務層，主要是有哪些業務；其次是接入層，我們有第三方接入引擎，還要做分流，都要做A/B text；接入后要做推薦引擎，我們分為三層：為召回策略（添加條件，選擇最相關）、打分排序、重排策略；引擎打分需要模型，這一塊為計算層。再然后是數據層，這塊主要是用戶畫像和物料畫像以及數據分析等；最底層是基礎平臺，來支持我們做推薦，算法訓練，我們的實時用的是Spark，離線用的是Hadoop，用CM做集成，用Sklearn/TensorFlow做離線分析，對于大賬號推送用全站數據（京東大數據平臺）比WQ效果要好。除此之外比較重要的一個是數據上報，最開始用的是自己研發的用C/C++實現，后來需要與業界對標，采用Flume和Kafka。集群時間是分鐘級，但是用戶畫像是毫秒級，用戶畫像是基于用戶行為而不是數據庫。

$\"\"$

在平臺接入時，需要簡單、通用、快速、開放為目標。將業務抽象為物料，統一格式，業務只需要實現物料上報、請求服務、行為上報三步。對于算法選擇前期配置就能快速上線，選擇快速上線算法是熱度和IOR算法。智能接入：由于平臺多，通過物料、用戶、平臺判斷哪個平臺轉化效率高，就將平臺流量多分給推薦平臺，達到整體最優，對于模型選擇各自去訓練，然后選擇、融合。

$\"\"$

接入之后就是推薦引擎，常見的有召回策略、打分策略、重排策略。召回策略如下所示，所謂個性化召回就是畫像打上的那些標簽，是偏向某個類目還是某個品牌偏好等做召回，關聯規則前鍵召回是根據用戶前面的行為來關聯后續感興趣的商品；打分就是和模型結合；重排也有很多算法，例如特征加權就是用戶有什么偏好給他提前。重排主要是基于個人，模型是基于群體特征，重排命中也能很好提升效率，EE策略主要改善體驗問題，我們發現如果一個人行為很少，進來之后什么都不點，如果模型在5-10分鐘未更新，推薦的就是一直是這個，如果特別偏門，群體又比較小，模型就沒有影響，個人就需要推薦一些新的東西，EE策略就是以一定概率來顯示推薦而不是單純以排名推薦，我們用的是湯姆森算法。

$\"\"$

接下來講一下模型，我們的推薦模型就是解決GMV（成交）最大化、CTR * CVR最大化、CTR最大化（首頁、中間頁引流，最容易，點擊轉化率）核心是“他點的”/“他看的”。這個模型還有一個瞬息系約束，一方面就是EE策略，另一個就是某一類商品在一定時間不能超過多少，保證用戶體驗。在評價推薦效果方面，如果直接做到下單，其中很多因素不可控，這時考慮CTR * CVR模型，提升轉化率，主要考慮物料、用戶以及上下文場景。

$\"\"$

接下來就是機器學習過程，主要有環境搭建、收集數據、分析數據、準備數據、訓練算法、測試算法、應用算法。這個過程很簡單，但是我們要解決冷啟動問題、假曝光問題（這個主要是產品預加載，在用戶還未看數據就顯示，這種就是假曝光）異常數據清洗問題（爬蟲、刷單）、正負樣本問題、數據稀疏問題等問題。在推薦過程中數據是基礎中的基礎，下面是數據處理中常用的方法。

$\"\"$

在算法里面對我們比較受益的是機器學習軍規，做C++或前端時有雅虎軍規、effective C++這些都有很規則性的東西告訴你怎么做。在機器學中有一個機器學習軍規，其實在ML中首要的是工程問題，其次才是算法問題。我們把數據做好了效果也就好了，如果大神能做95分，我們做好了這些也有80分。

$\"\"$

而用戶體驗方面，一個是要準，另一個是要新。新就是EE算法，準就是位置偏見，例如冷啟動時你把某一個商品放在前面，那么他的轉化率一直高；這種就不能他分值高就一直在前面，這種情況就要看不同商品在此位置時的轉化率，這個就是位置偏見。

$\"\"$

3. WQ用戶畫像

接下來簡單介紹下用戶畫像，做推薦時你首先要知道用戶是誰，如果你只用cookie Mapping的話效果太差，這個我們是和微信合作，我們是拿到open ID的，如果有微信場景可以參考這種方式；其次用戶是什么用戶，這就是用戶畫像；再者用戶還是那個用戶么（可能前一秒和下一秒不是同一個用戶）因此要注意更新。畫像主要解決身份問題，還有就是WQ數據和自己收集數據以及全站數據，這些數據整個融合而做的一個用戶畫像。

$\"\"$