[轉]基于圖的機器學習技術:谷歌眾多產品和服務背后的智能

近來機器學習領域實現了很多重大的進展,這些進展讓計算機系統具備了解決復雜的真實世界問題的能力。其中,谷歌的機器學習又是怎樣的 ?

近來機器學習領域實現了很多重大的進展,這些進展讓計算機系統具備了解決復雜的真實世界問題的能力。其中之一是谷歌的大規模的、基于圖(graph-based)的機器學習平臺,該平臺由Google?Research的Expander團隊打造。

基于圖的機器學習支持著你可能每天都在使用的谷歌產品和功能,這項技術是一種強大的工具,可以被用于驅動Inbox的提醒功能和Allo的智能回復,或者與深度神經網絡聯合使用以驅動Google Photos最新的圖像識別系統。

用最少的監督進行學習

深度學習以及廣義上的機器學習領域內的許多近來的進步都可歸功于經過了在有標注的大數據集上的訓練之后具有高度預測能力的模型——其訓練樣本數量往往數以億計。這常常被稱為監督學習(supervised learning),因為它需要監督(以有標注數據的形式)來訓練機器學習系統。(相對地,一些機器學習方法則是直接運行在原始數據上,不需要任何監督,這種范式被稱為無監督學習(unsupervised learning)。)

但是,任務越困難,獲得足夠的高質量有標注數據的難度就越大。為每一個新問題都收集足夠的有標注數據在人力消耗和時間消耗上都是讓人無法接受的。這促使了Expander研究團隊研發只需最少的監督就能驅動大規模機器學習應用的新技術。

Expander的技術靈感來自于人類學習歸納和將從未見過的新信息(無標注的信息)與他們已經知道的信息(有標注的信息)聯系起來的方式。這被稱為半監督學習(semi-supervised learning),這種強大的技術讓我們可以打造出能工作在訓練數據可能很稀疏的情況下的系統。基于圖的半監督機器學習(graph-based semi-supervised machine learning)方法這一進步的關鍵是:

(a) 利用數據中的底層結構,可以在學習過程中對有標注和無標注數據聯合建模;

(b) 可以輕松地將多種類型的信號(如來自知識圖譜的關系信息和數據的原始特征)結合成一個單一的圖表征(graph representation)并在那些數據上進行學習。

這與神經網絡等其它機器學習方法不一樣——其它方法通常是首先先使用帶有特征的有標注數據訓練出一個系統,然后將訓練出的系統應用于無標注數據。

圖學習:工作方式

在 Expander 的平臺的核心,它通過構建數據的一個多圖表征(multi-graph representation)而將半監督機器學習和大規模的基于圖的學習結合到了一起;在這個多圖表征中,節點(node)對應于物體或概念,邊(edge)則對應于具有相似之處的概念之間的連接。這種圖(graph)通常既包含了有標注數據(與已知輸出類別和標簽關聯的節點)和無標注數據(沒有被提供標簽的節點)。然后Expander的框架執行半監督學習以通過在整個圖中傳播標簽信息而聯合地給所有的節點進行標注。

但是,說起來比做起來容易!我們必須:

1. 使用最少的監督(即:極少有標注數據)實現有效的規模化學習;

2. 運行在多模態數據上(即:異構的表征和各種類型的數據源);

3. 解決涉及可能帶有噪聲的高維數據的高難度預測任務(即:大而復雜的輸出空間)。

整個學習過程中的一個主要成分是圖和連接的選擇。圖有各種規模大小和形狀,可以從多個數據源結合而成。我們已經觀察到從結合了多種數據表征(如:圖像像素、物體類別和用于Allo中PhotoReply的聊天回應信息)的信息的多圖(multi-graphs)中學習往往是有利的。Expander團隊的圖學習平臺可以基于數據元素之間推理出的和已知的關系直接從數據中自動生成圖。其數據可以是結構化的(如關系數據),也可以是非結構化的(如從原始數據集提取出的稀疏或稠密的特征表征)。

要理解Expander的系統的學習方式,讓我們思考一下下面這個例子。

該圖中有兩種類型的節點:“灰色”代表無標注數據,而其它顏色則代表有標注數據。節點數據之間的關系通過邊表示,每條邊的厚度代表連接的強度。我們可以將這個簡單圖的半監督學習問題描述成:預測圖中每個節點的顏色(紅色或藍色)。注意:圖的結構和顏色的特定選擇是根據任務確定的。比如,正如我們在研究論文《Smart Reply: Automated Response Suggestion for Email》中提到的,我們為Inbox的Smart Reply功能構建的圖可將電子郵件信息表示成節點,而顏色則可代表用戶回應的語義類別(如,“yes”、“awesome”、“funny”)。

Expander圖學習框架通過將這個標注任務當作是一個優化問題進行處理而解決了這個問題。從最簡單的層面上講,它會為圖的每個節點分配一個顏色標簽,并根據節點之間的連接強度給相鄰的節點分配相似的顏色。解決這個問題的一種天真的方式是嘗試一次性為所有節點學習一個標簽分配——但這種方法無法擴展到大型的圖。相反,我們可以通過將有標注節點的顏色傳播到它們的相鄰節點,并不斷重復這個過程來優化這個問題的形式。在每一步中,都會通過檢查一個無標注節點的相鄰節點的顏色配置而給其分配一個標簽。我們可以以這種方式更新每一個節點的標簽,并不斷迭代直到整個圖都被標注上顏色。在優化這種問題上,這個過程是一種遠遠更為有效的方法;而且在這個案例中,迭代的序列會收斂成一個特定的解決方案。在圖傳播的最后的解決方案看起來像是這樣的:

在一個圖上的半監督學習

實際上,我們可以使用根據圖結構定義的復雜優化函數,其整合了額外的信息和限制,使半監督學習可以應對困難的非凸問題。但是,真正的難題是將其有效地擴展到包含了數十億個節點和數萬億條邊,用于處理涉及到數十億不同標簽類型的復雜任務的圖。

為了解決這一難題,我們創造了一種被稱為“使用流逼近的大規模分布式半監督學習(Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation)”的方法,該論文發表于去年。它介紹了一種流算法(streaming algorithm),該算法可以以一種分布式的方式處理從相鄰節點傳播來的信息,這種方式使其能夠工作在非常大型的圖上。此外,它還能解決其它實際的問題,其中值得注意的是它能夠確保系統的空間復雜性或內存需求保持恒定,而且不論任務的難度如何都可以;即:不論預測標簽的數量是2(如上面示意的圖)還是100萬甚至是10億,整個系統所使用的內存量都一樣。這能使自然語言處理、機器感知、用戶建模和甚至聯合多模態學習在涉及文本、圖像和視頻輸入等多模態數據的任務上的廣泛應用成為現實。

用于學習幽默的語言圖

情緒標注(emotion labeling)是基于圖的機器學習的一個應用案例,這也是Inbox的Smart Reply功能的一個語言理解任務,其目標是使用它們經過精細調節的情緒分類標記自然語言文本中出現的詞。首先是在文本語料庫上應用一個神經網絡模型來學習詞嵌入(word embeddings),這是每個詞的含義的數學向量表示。然后這個稠密的嵌入向量被用于構建一個稀疏的圖,其中的節點對應于詞,而邊對應于詞之間的語義關系。邊的強度通過嵌入向量之間的相似度計算得到——忽略低相似度的邊。我們使用先前已知的幾個節點的情緒標簽(例如:laugh被標注為“funny”)作為圖的基礎,然后在整個圖上應用半監督學習來發現剩余詞的情緒類別(如:ROTFL(滾地大笑)被標注為“funny”,因為它有與“laugh”的多跳語義連接(multi-hop semantic connection)。

使用構建于詞嵌入向量的圖學習情緒關聯

對于涉及大型數據集或稠密表征(可被觀察到(如圖像的像素)或使用神經網絡學習到(如嵌入向量))的應用而言,計算所有物體之間的成對的相似度來構建圖中的邊是不可行的。Expander團隊通過利用近似的線性時間圖構建算法(linear-time graph construction algorithms)解決了這個問題。

基于圖的機器智能在行動

Expander團隊的機器學習系統現在已經被用在了大型圖(包含數十億節點和數萬億邊)上,以識別和理解自然語言、圖像、視頻和查詢中的概念,并支撐著谷歌的許多應用和產品,其中包括:提醒、問答、語言翻譯、視覺物體世界、對話理解等等。

隨著近期Allo的發布,數百萬聊天用戶現在已經可以體驗Expander團隊的系統所驅動的智能消息技術了,這些技術可以理解和協助多種語言的聊天會話。另外,這項技術不只被用在了云端的大規模模型中——正如上周宣布的那樣,Android?Wear已經向開發者開放了設備本地的Smart Reply功能,讓開發者可以為任何消息應用提供智能回復。我們很期待在未來幾年內通過Expander解決更多充滿挑戰性的互聯網規模級的問題。

轉載于:https://www.cnblogs.com/Crysaty/p/6098600.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456875.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456875.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456875.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

安裝mysql后在安裝目錄下只有my-default.ini沒有my.ini文件 解決-The MySQL server is running with the --secure-file-priv

WIN10 系統環境 安裝mysql后在安裝目錄下只有my-default.ini沒有my.ini文件 。 mysql報錯 ---------- The MySQL server is running with the --secure-file-priv option so it cannot execute this statement -------- 但是更改或想要查找配置文件就需要如下操作 在 安裝…

loewe測試軟件,實測Loewe三角包 最輕的小包最貼心的設計

原標題:實測Loewe三角包 最輕的小包最貼心的設計導語:每周一期的“包治百病”又跟大家見面來啦!“包治百病”全方位評測包包的容量、重量、背法、在不同身高妹子身上的效果、各種驚人的小細節以及可能存在的問題,為有意購買這些包…

hadoop集群的搭建(分布式安裝)

集群 計算機集群是一種計算機系統,他通過一組松散集成的計算機軟件和硬件連接起來高度緊密地協同完成計算工作。集群系統中的單個計算機通常稱為節點,通常通過局域網連接。集群技術的特點:1、通過多臺計算機完成同一個工作。達到更高的效率 2…

解決:Error establishing a database connection阿里云修改數據庫密碼

今天閑來無事想把所有的二級密碼改成一致的,所以就把阿里云的mysql數據庫的密碼改了,結果,打開頁面報錯了,下邊的截圖是我問題解決后,重新復現的。如果修復這個問題后wordpress登錄頁面白板,此時不要著急&a…

機器學習各算法思想(極簡版)

讀到的一篇不錯的文章,拿來和大家分享一下。 轉自–頭條公眾號–極數蝸牛 (1)線性回歸 回歸最早是由高爾頓研究子女身高與父母身高遺傳關系提出的,發現子女平均身高總是向中心回歸而得名。其實“一分辛苦一分才”中就蘊含了線性…

PAT A 1118. Birds in Forest (25)【并查集】

并查集合并 #include<iostream> using namespace std; const int MAX 10010; int father[MAX],root[MAX]; int findfather(int x){if(xfather[x]) return x;else{int Ffindfather(father[x]);father[x]F;return F;} } void Union(int a , int b){int faAfindfather(a);i…

斯坦福計算機錄取難嗎,申請斯坦福究竟有多難? 什么樣條件的人才能被斯坦福錄取?斯坦福大學直播!...

原標題&#xff1a;申請斯坦福究竟有多難&#xff1f; 什么樣條件的人才能被斯坦福錄取&#xff1f;斯坦福大學直播&#xff01;申請斯坦福究竟有多難&#xff1f; 什么樣條件的人才能被斯坦福錄取&#xff1f;斯坦福大學直播&#xff01;西海岸小哈佛之稱的斯坦福大學&#xf…

解決:building 'twisted.test.raiser' extension安裝scrapy報錯

解決&#xff1a;building twisted.test.raiser extension error: Microsoft Visual C 14.0 is required. Get it with "Microsoft Visual C Build Tools": https://visualstudio.microsoft.com/downloads/ 安裝scrapy報錯&#xff0c;在Twisted安裝部分 解決方案…

Linux配置網絡出現Eroor adding default gateway的解決方案

最近在學習有關大數據方面的東西&#xff0c;剛開始要搭建模擬的虛擬機集群。用的是Minimal CentOS6.7版本Linux下的系統。因為我要為各個虛擬機設置靜態IP&#xff0c;所以就參考網上博客說的進行如下操作: 一、安裝完系統后先配置網絡&#xff1a; cd /etc/sysconfig/netwo…

揭秘8大自媒體平臺注冊方法,通過率百分之九十

寫在前面&#xff1a;準備材料&#xff1a;手機號&#xff0c;郵箱&#xff0c;手持照&#xff0c;輔助材料(非必選項)&#xff0c;邀請碼(非必選項)。輔助材料萬能公式&#xff1a;方法①新浪博客16級博客發8篇相關的文章&#xff0c;昵稱、描述、頭像都與所注冊自媒體號對應&…

AC日記——簡單密碼 openjudge 1.7 10

10:簡單密碼 總時間限制: 1000ms內存限制: 65536kB描述Julius Caesar曾經使用過一種很簡單的密碼。對于明文中的每個字符&#xff0c;將它用它字母表中后5位對應的字符來代替&#xff0c;這樣就得到了密文。比如字符A用F來代替。如下是密文和明文中字符的對應關系。密文A B C D…

計算機表格怎么求面積,在wps表格中怎么把數據生成面積圖?

面積圖強調數量隨時間而變化的程度&#xff0c;適用于顯示有限數量的若干組數據。可以利用面積圖來分析銷售的數據。在這里我用3種品牌的手提電腦在 2010年四個季度的銷售量作為數據源&#xff0c;使用“堆積面積圖”來顯示各種手提電腦銷售量所占大小并隨時間變化的趨勢。那么…

機器學習如何解決問題

原文 http://tech.meituan.com/mt-mlinaction-how-to-ml.html 前言 前言 隨著大數據時代的到來&#xff0c;機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界&#xff0c;機器學習都是一個炙手可熱的方向&#xff0c;但是學術界和工業界對機器學習的研究…

Linux中python2和python3的pip設置 及清華安裝源

啟動python2&#xff0c;我們可以直接在命令行輸入&#xff1a;python2 啟動python3&#xff0c;我們可以在命令行輸入&#xff1a;python或者python3. 但是pip沒有設置的話&#xff0c;在命令行輸入 pip --version 或者 pip2 --version&#xff0c;指向的都是python2. 現在…

java 循環 基本類型

1.基本if選擇結構 格式&#xff1a;if&#xff08;布爾表達式&#xff09;{ 表達式結果為true&#xff0c;則執行此代碼塊 } 例&#xff1a;if(week <5 ){ System.out.println(“上班”) } 2.if else結構 格式&#xff1a;if(布爾表達式){ 表達式結果為true&#xff0c;則執…

CodePlex關閉,建議遷移至GitHub

Microsoft決定停止提供CodePlex開源項目免費托管服務。他們建議開發人員可以遷移到GitHub或任何其他托管服務提供商。\\盡管有些人希望CodePlex關閉的消息僅僅是4月1日愚人節玩笑&#xff0c;但是Microsoft副總裁Brian Harry已經證明這并不是一個玩笑。在提供服務11年之后&…

計算機最佳參數,對使用者來說,學會計算機性能參數提取,給出性能評價很重要...

對計算機進行系統信息提取&#xff0c;并且給出性能評價&#xff0c;可以這樣做先看思維導圖&#xff1a;對計算機進行系統信息提取&#xff0c;并且給出性能評價&#xff0c;可以通過軟件測試實現&#xff01;一、 關于硬件健康的問題&#xff0c;避免買到二手配件。硬盤的使用…

word如何在任意頁開始添加頁碼

第一步&#xff0c;將光標定位到需要插入頁碼的前一頁末尾。就是說&#xff0c;如果你想從第二頁開始添加頁碼&#xff0c;那么你就將光標定位到第一頁末尾&#xff0c;如圖&#xff1a; 然后按照圖中標出的提示&#xff0c;選擇“頁面布局”選項卡&#xff0c;點擊“分隔符…

跨越請求,關于后端session會話丟失的解決辦法(轉載)

目前使用前后端分離的模式開發&#xff0c;后端提供跨域接口、前端jsonp調用&#xff0c;綁定數據&#xff0c;但是在該站點下有個人中心模塊存在的情況下&#xff0c;服務端的session會話會被跨域請求覆蓋改掉 大家都知道tomcat使用cookie中jsessionid來區分客戶端session會話…