今日頭條核心技術“個性推薦算法”揭秘

今日頭條核心技術“個性推薦算法”揭秘

最近面試華興資本, 他們比較關注今日頭條算法的實現, 今天特轉載網上 今日頭條算法解密

  【IT168?評論】互聯網給用戶帶來了大量的信息,滿足了用戶在信息時代對信息的需求,也使得用戶在面對大量信息時無法從中獲得對自己真正有用的那部分信息,對信息的使用效率反而降低了,而通常解決   1月20日,新生代移動互聯網企業今日頭條在北京國家會議中心舉辦了“算數·年度數據發布會”,數據發布會的主題名為“算數”,實際上指的是“算法”與“數據”。

  眾所周知,今日頭條是

  那么今日頭條是怎么做到為每一個用戶按興趣精準推薦新聞的呢?在發布會上,今日頭條的技術副總裁楊震原給我們揭秘了今日頭條的個性化推薦核心“算法”。

  今日頭條的個性化推薦算法原理

  如上圖,有3篇文章,讓3個用戶投票(注:這3個用戶是一類人,有相同屬性(喜好和偏好)),那第4個用戶應該被系統推薦的文章是那篇呢?第4個用戶與前3個用戶都是一類人,答案顯   沒錯,今日頭條的個性化推薦算法原理   今日頭條是如何來劃分人群和文章

  搞技術的朋友都知道,   上面那個例子只是很小的人群,但是現實生活中不會有這樣小的人群,而且太小的人群通過推薦投票的方式也很難推薦出很精細的內容,只能推薦出一些熱門內容,那今日頭條是如何來劃分人群?

  我們假定上圖這   根據人群不同維度,我們可以細分到一個合理的力度。特別需要注意的是:在細分的領域里面投票數既不要太多,但也不要太少,因為太多沒有個性化,僅是一個大眾關心的話題而已,而投票數太少又沒有統計意義,支持度就低了。

  人群特征可以是閱讀姓名,年齡,地域,職業等等。同理,文章也是類似的,文章有提到哪些名人,文章發布的時間,文章所屬的地區等等,也都有很多特性,這些都是可以去組合起來。

  今日頭條是怎樣判斷一個人屬于怎樣的人群

  判斷一個人屬于怎樣的人群相對簡單。比如地域,用戶的手機在什么區域,就可以認為用戶是什么地域的;比如說用戶興趣,可以根據用戶的閱讀習慣去判斷,用戶會經常去看科技的文章,那就可以判斷用戶屬于科技的人群;再比如說用戶的好友關系,用戶在今日頭條上面注冊了,用戶的好友都是娛樂圈的人,則該用戶很有可能也是娛樂圈的人;所以通過用戶在今日頭條上行為,以及用戶客觀的地理位置信息,就能判斷用戶到底屬于一個什么樣的人群。

  今日頭條的個性推薦算法公式

  精準推薦最難的不是劃分人群,也不是判斷用戶人群歸屬,更不是文章屬性判斷,一個人可以屬于多個人群,也有多個文章候選,選那個推薦才是最難的。而今日頭條的推薦內容是怎么算出來的呢?

  通過上圖的計算公式:W1*候選1的投票率+W2*候選2的投票率+W3候選3的投票率+……=最高分,最后能計算出一個得分,按得分的高低來排序,就可以得到推薦文章的一個侯選,這個過程實際上是一個比較簡單的算法,而這在今日頭條內部叫邏輯回歸。

  總的來說,個性化推薦技術本身并不神秘,歸根到底推薦算法關鍵是還在于對海量用戶行為的數據分析與挖掘,也許各家算法略有不同,但最終目的都是殊途同歸,為實現最精準的內容推薦而努力中。

  如果你看的還不過癮,欲知更多(阿里、騰訊、網易、58同城、豆瓣等)知名站點推薦系統技術內容,請點擊(牛逼站是怎樣煉成的?-推薦系統篇)

轉載于:https://www.cnblogs.com/ityz/p/6079261.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/255943.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/255943.shtml
英文地址,請注明出處:http://en.pswp.cn/news/255943.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PROFINET及其同步實時通訊分析

1 概述 PROFINET實時以太網是由Profibus International(PI)組織提出的基于以太網的自動化標準。從2004年4月開 始,PI與Interbus Club總線俱樂部聯手,負責合作開發與制定標準。PROFINET構成從I/O級直至協調治理級的基于組件的分…

【劍指offer15.二進制中1的個數】——位操作(左移右移等)

目錄 二進制的表示 二進制的位操作 應用: 劍指offer15.統計二進制中1的個數(多種方法,位右移操作、與操作等) 轉自:https://www.jianshu.com/p/3a31065a8e58 紅色為自己添加 我們都知道在計算機中所有的信息最終都…

java 異常處理機制(java 編程思想)

一、概念  “異常”這個詞有“我對此感到意外”的意思。問題出現了,你也許并不清楚該如何處理,但你的確知道不應該置之不理;你要停下來,看看是不是有別人或在別的地方,能夠處理這個問題。只是在當前的環境中還沒有足夠…

怎樣在CentOS 7.0上安裝和配置VNC服務器

這是一個關于怎樣在你的 CentOS 7 上安裝配置 VNC 服務的教程。當然這個教程也適合 RHEL 7 。在這個教程里,我們將學習什么是 VNC 以及怎樣在 CentOS 7 上安裝配置 VNC 服務器 。 我們都知道 這是一個關于怎樣在你的 CentOS 7 上安裝配置 VNC 服務的教程。當然這個教…

MOTOMAN機器人網絡控制的實現

最初程序員在Unix系統下使用Berkeley Socket編寫網絡程序,隨著Windows操作系統的普及,Microsoft、Sun等公司聯合開發了Winsock接口API。它實質上是一種進 程間通信,將之從單機環境擴展到網絡環境以適合于開發主機/客戶機通信程序。網絡通信的…

【劍指offer】——【python中return函數中的and和or表達式的返回值】

目錄 1、# and 結果為真,返回最后一個表達式的結果,若結果為假返回第一個為假的表達式的結果 2、# or 結果為真,返回第一個為真的表達式的結果,若結果為假,返回最后一個表達式的結果 3、應用[劍指 Offer 64. 求12…n…

Spring Cloud構建微服務架構:消息驅動的微服務(入門)【Dalston版】

2019獨角獸企業重金招聘Python工程師標準>>> 之前在寫Spring Boot基礎教程的時候寫過一篇《Spring Boot中使用RabbitMQ》。在該文中,我們通過簡單的配置和注解就能實現向RabbitMQ中生產和消費消息。實際上我們使用的對RabbitMQ的starter就是通過Spring C…

CXF 客服端調用報錯

服務端已經發布了WSDL,現在在客服端生成web service客服端代碼,在eclipse中新建一個project,然后new->web services->web service client生產客戶端代碼 在調用的時候報如下錯誤 解決:缺少axis相應的jar包,加入包…

20145225 《信息安全系統設計基礎》第10周學習總結

cp1.c 進行復制文件的操作,需要有源文件和目的文件,第一次命令沒有加入所以沒有正常完成復制文件的操作fileinfo.c 用來實現顯示文件信息。先判斷命令是否有操作數,有的話才能繼續進行下去,如果沒有報錯就打印出來相關文件信息&am…

做演員是圓夢 做生意學會面對現實

田樸珺是一位擁有多重身份的女性。她是一名演員,也是一位商人,還擔任過電影《中國合伙人》的制片人。 作為演員,田樸珺的作品并不是很多,也一直不溫不 火。但這并不代表她將放棄演藝生涯。她表示,如果機會合適&…

【深度學習】——模型評估指標MAP計算實例計算

目錄 一、知識儲備 1、IOU——交集面積與并集面積之比 2、混淆矩陣(TP、FP、FN、TN) 問題1:上面的TP等具體是如何計算得到的? 3、精度precision&召回率recall 二、ap計算實戰 1、計算流程 1)準備數據&#xf…

第 52 章 Web Server Optimization

系統配置 Intel(R) Xeon(TM) CPU 3.00GHzMemory 4GEthernet adapter 1000M52.1. ulimit 查看 ulimit ulimit -a core file size (blocks, -c) 0 data seg size (kbytes, -d) unlimited file size (blocks, -f) unlimited pending signals …

hdu5489 Removed Interval dp+線段樹優化

現在看這題居然直接秒了。。。去年看的時候還以為神題。。 設以第i項為結尾的lis前綴為f[i],以第j項為結尾的lis后綴為g[i],如果求出f[i]和g[j],然后枚舉i,快速找到最大的滿足a[j]>a[i]的g[j]就可以了。注意到如果將f[i]從后往…

JS原型鏈理解

1. 每個對象都有原型屬性(__proto__)2. 對象的原型(__proto__)指向其構造函數(Constructor)的prototype屬性3. 構造函數(Constructor)的prototype屬性本身也是一個對象,其原型(__proto__)亦指向其構造函數的prototype4. 如此形成一個鏈式結構,而Construc…

【深度學習】——2021年FPN特征金字塔

#!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 2021/4/22 17:06 # Author : linlianqin # Site : # File : fpn.py # Software: PyCharm # description:其搭建的基本流程和resnet是一致的,只是將每一層的卷積結果保存了起來import torch impo…

NoSQL分類及ehcache memcache redis 三大緩存的對比

NoSQL分類 由于NoSQL中沒有像傳統數據庫那樣定義數據的組織方式為關系型的,所以只要內部的數據組織采用了非關系型的方式,就可以稱之為NoSQL數據庫。目前,可以將眾多的NoSQL數據庫按照內部的數據組織形式進行如下分類: Key/Value的…

52.4. APC Cache (php-apc - APC (Alternative PHP Cache) module for PHP 5)

$ apt-cache search php-apc php-apc - APC (Alternative PHP Cache) module for PHP 5$ sudo apt-get install php-apcapc cache 狀態監控 http://pecl.php.net/package/APC 下載解包找到apc.php,放到web服務器上 原文出處:Netkiller 系列 手札 本文作者&#xff1…

樂視云計算基于OpenStack的IaaS實踐

本文作者岳龍廣,現在就職于樂視云計算有限公司,負責IaaS部門的工作。 從開始工作就混在開源世界里,在虛擬化方面做過CloudStack/Ovirt開發,現在是做以OpenStack為基礎的樂視云平臺。所以對虛擬化情有獨鐘,也對虛擬化/云…

【深度學習】——如何提高map值

目錄 代碼獲取 map原理 map提高技巧 技巧總結: 實戰: 1、效果不佳map55.55% 1)單獨調整get_dr_txt.py中的self.iou 0.3 2)單獨調整get_map,py中的minoverlap: 3)同時調整minoverlap和self.iou 本文是在faster_rcnn模型的…

每日站立會議個人博客(沖刺周)-Wednesday

時間未完成不知道如何獲取具體標簽里的內容正在做爬蟲技術之獲取標簽里的內容將要做對運用爬蟲技術獲取的數據進行處理轉載于:https://www.cnblogs.com/andibier/p/8075098.html