推薦算法--利用用戶標簽數據(04)

文章目錄

流行的推薦系統通過3種方式聯系用戶興趣和物品

(1):利用用戶喜歡過的物品,給用戶推薦與他喜歡過的物品相似的物品,這是基于物品的算法。
(2):利用和用戶興趣相似的其他用戶,給用戶推薦那些和他們興趣愛好相似的其他用戶喜歡的物品,這是基于用戶的算法。
(3):通過一些特征(feature)聯系用戶和物品,給用戶推薦那些具有用戶喜歡的特征的物品。

特征有不同的表現形式,可以是物品的屬性集合(圖書:作者,出版社、主題和關鍵詞),也可以表現為隱語義向量(用戶的行為歷史)還有種特征表現形式———-標簽


標簽的定義:


標簽是一種無層次化結構的、用來描述信息的關鍵詞,它可以用來 描述物品的語義。根據給物品打標簽的人的不同,標簽應用一般分為兩種:一種是讓作者或者專 家給物品打標簽;另一種是讓普通用戶給物品打標簽,也就是UGC(User Generated Content,用 戶生成的內容)的標簽應用。UGC的標簽系統是一種表示用戶興趣和物品語義的重要方式。當一 個用戶對一個物品打上一個標簽,這個標簽一方面描述了用戶的興趣,另一方面則表示了物品的 語義,從而將用戶和物品聯系了起來

UGC:

普通用戶給物品打標簽,也就是UGC(User Generated Content,用 戶生成的內容)的標簽應用。

一般用戶會打什么樣的標簽呢?

(1)表明物品是什么(2)表明物品的種類(3)表明誰擁有物品
(4)表達用戶的觀點(5)用戶相關的標簽(6)用戶的任務
(7)類型(8)時間(9)人物
(10)地點(11)語言(12)獎項

(一)一個簡單的標簽算法:

(1) 統計每個用戶常用的標簽
(2)對于每個標簽,統計被打過這個標簽次數最多的物品
(3)對于一個用戶,首先找到他常用的標簽,然后找到具有這些標簽的最熱門物品推薦給這個用戶。

image.png

python標簽的推薦算法:
image.png

但是上面的推薦算法并不是完美,這里我們需要考慮到對熱門標簽和熱門物品進行打壓

可以改進下算法:
借用TF-IDF的思想

標簽的清理方法:

(1)去除詞頻很高的停止詞
(2)去除因詞根不同造成的同義詞
(3)去除因分隔符造成的同義詞

(二)基于圖的推薦算法

首先,我們需要將用戶打標簽的行為表示到一張圖上。我們知道,圖是由頂點、邊和邊上的 權重組成的。而在用戶標簽數據集上,有3種不同的元素,即用戶、物品和標簽。因此,我們需 要定義3種不同的頂點,即用戶頂點、物品頂點和標簽頂點。然后,如果我們得到一個表示用戶u 給物品i打了標簽b的用戶標簽行為(u,i,b),那么最自然的想法就是在圖中增加3條邊,首先需要在 用戶u對應的頂點v(u)和物品i對應的頂點v(i)之間增加一條邊(如果這兩個頂點已經有邊相連,那 么就應該將邊的權重加1),同理,在v(u)和v(b)之間需要增加一條邊,v(i)和v(b)之間也需要邊相 連接。

image.png

圖4-11是一個簡單的用戶—物品—標簽圖的例子。該圖包含3個用戶(A、B、C)、3個物品(a、 b、c)和3個標簽(1、2、3)。 在定義出用戶—物品—標簽圖后,我們可以用第2章提到的PersonalRank算法計算所有物品節點, 相對于當前用戶節點在圖上的相關性,然后按照相關性從大到小的排序,給用戶推薦排名最高的 N個物品。

(三)給用戶推薦標簽

給用戶推薦標簽的意義:
1 方便用戶輸入
2 提高標簽質量

這篇主要講了使用標簽進行推薦,實際中的推薦系統更多是多種推薦的組合。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/445343.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/445343.shtml
英文地址,請注明出處:http://en.pswp.cn/news/445343.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python(5)-注釋

Python注釋1.單行注釋2. 多行注釋(塊注釋)3.注釋的使用和代碼規范pyhton 的注釋 使用自己熟悉的語言(中文),解釋代碼。Python解釋器在執行文件時不會執行井號右邊邊的內容。1.單行注釋 # 井號后面跟著注釋內容 灰灰的虛…

玩具kv數據庫

介紹 用java寫一個簡陋的kv數據庫(倆小時的貨),用來復習一下java流知識、線程、socket等知識。 客戶端:很簡單的寫了一下功能:就是發送用戶的命令,還有接收數據顯示出來 服務端:redis類&#…

網絡原理知識點總結

第一章: 計算機網絡系統由資源子網和通信子網組成。 計算機網絡系統主要由網絡通信系統、操作系統和應用系統構成 互聯網基礎結構發展的三個階段: 第一階段:從單個網絡 ARPANET 向互聯網發展的過程。 第二階段:建成了三級結構…

推薦算法--時效性(05)

時效性 推薦系統應該考慮時間效應,因為用戶的興趣是有時間變化的。用戶一年前喜歡的東西現在不一定感興趣,相比于推薦過去喜歡的物品,推薦用戶近期喜歡的物品更有參考價值。而在新聞更是如此,推薦過去跟用戶興趣一致的新聞已經失去…

初識博弈論(1)

博弈論與主流經濟學的新發展1.經濟學的研究內容2.博弈論的研究內容3.博弈論的發展簡史4.經濟學發展的趨勢本系列博文主要記錄了學習張維迎老師的《博弈論與信息經濟學》一書相關內容,如果有誤之處懇請指出;或對照張老師的書籍進行學習。1.經濟學的研究內…

c語言實現排序和查找所有算法

c語言版排序查找完成,帶詳細解釋,一下看到爽,能直接運行看效果。 /* Note:Your choice is C IDE */ #include "stdio.h" #include"stdlib.h" #define MAX 10 void SequenceSearch(int *fp,int Length); void Search(int …

推薦算法--推薦系統架構(06)

外圍架構一般來說,每個網站都有一個 UI 系統,UI 系統負責給用戶展示網頁并和用戶交互。網站會通過日志系統將用戶在 UI 上的各種各樣的行為記錄到用戶行為日志中。 從上面的結構可以看到,除了推薦系統本身,主要還依賴兩個條件--界…

樹狀數組維護區間和的模型及其拓廣的簡單總結

by wyl8899 樹狀數組的基本知識已經被講到爛了,我就不多說了,下面直接給出基本操作的代碼。 假定原數組為a[1..n],樹狀數組b[1..n],考慮靈活性的需要,代碼使用int *a傳數組。 #define lowbit(x) ((x)&(-(x))…

Python(6)-算數運算符

算數運算符1.算數運算符2.優先級1.算數運算符 加 減- 乘* 除/ 取商// 取余數% 冪**(能算n次方: 2**38,一直以為只能算平方) 擴展: 乘法用于字符串:字符串重復指定的次數,要拼接的次數很長時,用乘號很方便…

推薦算法--其他信息(07)

文章目錄目錄1.利用上下文信息1.1時間上下文1.2地點上下文2.利用網絡社交數據2.1 獲取網絡社交數據途徑2.2 社交網絡數據2.3 基于社交網絡的推薦2.4 推薦算法2.5 給用戶推薦好友目錄 1.利用上下文信息 1.1時間上下文 用戶的興趣是隨著時間變化的,三天打魚兩天曬網…

動態規劃的深入探討

一、引言 動態規劃是一種重要的程序設計思想,具有廣泛的應用價值。使用動態規劃思想來設計算法,對于不少問題往往具有高時效,因而,對于能夠使用動態規劃思想來解決的問題,使用動態規劃是比較明智的選擇。 能夠用動態規…

Python(7)-程序執行的原理

程序執行的原理1.計算機中的三個核心部件2.程序執行的原理3.程序的作用1.計算機中的三個核心部件 CPU:中央處理區,超大規模的集成電路,負責處理數據、計算 內存:臨時存儲數據,斷電數據消失,讀取數據快 硬盤…

推薦系統讀書筆記(推薦系統實戰)

隨著信息技術和互聯網的發展,人們逐漸從信息匱乏的時代走入了信息過載的時代。在這個時代,無論是信息消費者還是信息生產者都遇到很大的挑戰;對于消費者,從大量信息中找到自己感興趣的信息是一件非常困難的事情;對于信…

橙白oj 2017級《算法分析與設計》-練習02

注:A題我以為給新生出的,應該賊簡單,是按順序消滅,卡了十幾分鐘,成了最后一個ac的題,真是菜的真實。 Problem A: Description 白細胞是人體與疾病斗爭的“衛士”。當病菌侵入人體體內時,白細胞…

python(9)-變量、input函數

變量、input函數1.變量的定義(不可變對象)2.變量的類型3.變量的命名規范4. 不同類型的數據計算5.類型轉換函數6.input()7.Tips程序是用來處理數據的,而變量是用來存儲數據的。 關于函數,是一個提前準備好的代碼;可以直接使用,不用…

推薦算法--總結(08)

一、推薦系統結構二、推薦引擎算法(Algorithm)1、協同過濾推薦算法1.1 關系矩陣與矩陣計算1.1.1 用戶與用戶(U-U矩陣)1.1.2 物品與物品(V-V矩陣)1.1.3 用戶與物品(U-V矩陣)1.1.4 奇異…

算法總結-1算法入門

1.0 前言 算法(Algorithm)是指解題方案的準確而完整的描述,是一系列解決問題的清晰指令,算法代表著用系統的方法描述解決問題的策略機制。也就是說,能夠對一定規范的輸入,在有限時間內獲得所要求的輸出。 …

Python(10)- 格式化輸出%

格式化輸出1. 格式化輸出浮點數2. 格式化輸出整數3. 格式化輸出浮點數4. 格式化輸出百分號%變量的格式化輸出:input函數將信息輸出到控制臺,實現變量和文字一起輸出。 %格式化操作符,和不同的字符連用,%s 字符串,%d 十…

FM系列算法解讀(FM+FFM+DeepFM)

在計算廣告中,CTR是非常重要的一環。對于特征組合來說,業界通用的做法主要有兩大類:FM系列和Tree系列。這里我們來介紹一下FM系列。   在傳統的線性模型中,每個特征都是獨立的,如果需要考慮特征與特征之間的相互作用…