Scala-Spark digamma stackoverflow問題

這兩天在用spark做點擊率的貝葉斯平滑,參考雅虎的論文進行了一番嘗試。

先上代碼:

 1 # click_count, show_count # this method takes time
 2 def do_smooth(data_list):
 3     import scipy.special as sp
 4     a, b, i = 1.0, 1.0, 0
 5     da, db = a, b
 6     while i < 1000 and (da > 1.0E-10 or db > 1.0E-10):
 7         x1, y1, x2 = 0.0, 0.0, 0.0
 8         for lineList in data_list:
 9             x1 += sp.digamma((lineList[0]) + a) - sp.digamma(a)
10             y1 += sp.digamma((lineList[1]) + a + b) - sp.digamma(a + b)
11             x2 += sp.digamma((lineList[1]) - (lineList[0]) + b) - sp.digamma(b)
12         na, nb = a, b
13         a *= (x1 / y1)
14         b *= (x2 / y1)
15         da, db = abs(a - na), abs(b - nb)
16         i += 1
17     print i, a, b
18     return a, b

?

這是我之前用的python代碼,改成scala也相當容易,digamma函數非常耗時,而且還要迭代1000次。最要命的是digamma在scala里面默認的實現會出現棧溢出!!!

var a, b, da, db: Double = 1.0
var index = 0
while (index < 1000 && (da > 1.0E-9 || db > 1.0E-9)) {var x1,x2,y1 = 0.0traindata.foreach(p => {x1 += MBlas.digamma(p(2) + a) - MBlas.digamma(a)y1 += MBlas.digamma(p(1) + a + b) - MBlas.digamma(a + b)x2 += MBlas.digamma(p(1) - p(2) + b) - MBlas.digamma(b)val na = aval nb = ba *= (x1 / y1)b *= (x2 / y1)da = Math.abs(a - na)db = Math.abs(b - nb)})
}

?

digamma 函數是個遞歸函數,問題就處在遞歸上了。

 1    public static double digamma(double x) {
 2         if (x > 0 && x <= S_LIMIT) {
 3             return -GAMMA - 1 / x;
 4         }
 5         if (x >= C_LIMIT) {
 6             double inv = 1 / (x * x);
 7             return FastMath.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252));
 8         }
 9         return digamma(x + 1) - 1 / x;
10     }

?

既然知道問題所在,是不是就可以重寫遞歸為非遞歸呢?在Stack Overflow上找到了一個答案

 1 val GAMMA = 0.577215664901532860606512090082
 2 val GAMMA_MINX = 1.e-12
 3 val DIGAMMA_MINNEGX = -1250
 4 val C_LIMIT = 49
 5 val S_LIMIT = 1e-5
 6 var value = 0.0
 7 var x = input
 8 while (true) {
 9     if (x >= 0 && x < GAMMA_MINX) x = GAMMA_MINX
10     if (x < DIGAMMA_MINNEGX) {
11         x = DIGAMMA_MINNEGX + GAMMA_MINX
12     } else {
13         if (x > 0 && x <= S_LIMIT) return value + -GAMMA - 1 / x
14         if (x >= C_LIMIT) {
15             val inv = 1 / (x * x)
16             return value + Math.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252))
17         }
18         value = value - 1.0 / x
19         x += 1
20     }
21 }

?

經測試,沒看出什么問題,可以用了。
不過,上面的代碼并沒有解決慢的問題,當需要計算CTR的對象比較多時(幾百萬),仍然比較耗時。所以我決定用兩個替代方法:

  1. 抽樣,抽取能在可接受時間內出結果的樣本數,得到α和β;
  2. 直接使用平均值作為α和β
  3. 使用平均值做迭代初值(推薦)

參考:
1. 雅虎專家的論文,如上
2. Stack Overflow 網友代碼,如上

?

轉載于:https://www.cnblogs.com/longwind09/p/7588324.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/253332.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/253332.shtml
英文地址,請注明出處:http://en.pswp.cn/news/253332.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

IIS接口詳細介紹

1. 概述 I2S Inter-IC Sound Integrated Interchip Sound IIS&#xff0c;是飛利浦在1986年定義&#xff08;1996年修訂&#xff09;的數字音頻傳輸標準&#xff0c;用于數字音頻數據在系統內器件之間傳輸&#xff0c;例如編解碼器CODEC、DSP、數字輸入/輸出接口、ADC、DAC…

UVA - 10934 Dropping water balloons(裝滿水的氣球)(dp)

題意&#xff1a;有k個氣球&#xff0c;n層樓&#xff0c;求出至少需要多少次實驗能確定氣球的硬度。氣球不會被實驗所“磨損”。 分析&#xff1a; 1、dp[i][j]表示第i個氣球&#xff0c;測試j次所能確定的最高樓層。 2、假設第i-1個氣球測試j-1次所確定的最高樓層是a, 若第i個…

繼承進階

先講一個例子&#xff1a; #老師有生日&#xff0c;怎么組合哪&#xff1f; class Birthday: # 生日def __init__(self,year,month,day):self.year yearself.month monthself.day dayclass Teacher: # 老師<br>def __init__(self,name,birth):self.name nameself.b…

PCM接口詳細介紹--TDM方式

1. 概述 PCM = Pulse Code Modulation 是通過等時間隔(即采樣率時鐘周期)采樣將模擬信號數字化的方法。圖為4 bit 采樣深度的PCM數據量化示意圖: PCM數字音頻接口,說明接口傳輸的音頻數據是通過PCM方式采樣得到的,區別于PDM形式;IIS傳輸的也是PCM類型數據,屬于其一個特…

網站同源策略

所謂"同源"指的是"三個相同"&#xff1a;協議&#xff0c;域名&#xff0c;端口。 舉例來說&#xff0c;http://www.example.com/dir/page.html這個網址&#xff0c;協議是http://&#xff0c;域名是www.example.com&#xff0c;端口是80&#xff08;默認端…

Kconfig文件結構(圖文)簡介

1 Kconfig和Makefile 毫不夸張地說&#xff0c;Kconfig和Makefile是我們瀏覽內核代碼時最為依仗的兩個文件。基本上&#xff0c;Linux 內核中每一個目錄下邊都會有一個Kconfig文件和一個Makefile文件。Kconfig和Makefile就好似一個城市的地圖&#xff0c;地圖引導我們去 認識一…

PDM接口介紹

1. 概述 PDM Pulse Density Modulation是一種用數字信號表示模擬信號的調制方法。 PDM則使用遠高于PCM采樣率的時鐘采樣調制模擬分量&#xff0c;只有1位輸出&#xff0c;要么為0&#xff0c;要么為1。因此通過PDM方式表示的數字音頻也被稱為Oversampled 1-bit Audio。相比P…

js正則學習分享

http://www.cnblogs.com/rubylouvre/archive/2010/03/09/1681222.htmlhttp://www.cnblogs.com/tylerdonet/p/4262251.html //正整數 /^[0-9]*[1-9][0-9]*$/; //負整數 /^-[0-9]*[1-9][0-9]*$/; //正浮點數 /^(([0-9]\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9])|([0-9]*[1…

Linux系統下UDP發送和接收廣播消息小例子

分類&#xff1a; 網絡通信 2013-01-07 10:54 1336人閱讀 評論(6) 收藏 舉報 [cpp] view plaincopyprint?// 發送端 #include <iostream> #include <stdio.h> #include <sys/socket.h> #include <unistd.h> #include <sys/types.h>…

Kaggle 泰坦尼克

入門kaggle&#xff0c;開始機器學習應用之旅。 參看一些入門的博客&#xff0c;感覺pandas&#xff0c;sklearn需要熟練掌握&#xff0c;同時也學到了一些很有用的tricks&#xff0c;包括數據分析和機器學習的知識點。下面記錄一些有趣的數據分析方法和一個自己擼的小程序。 1…

語音交互設備 前端信號處理技術和語音交互過程介紹

一、前端信號處理 1. 語音檢測&#xff08;VAD&#xff09; 語音檢測&#xff08;英文一般稱為 Voice Activity Detection&#xff0c;VAD&#xff09;的目標是&#xff0c;準確的檢測出音頻信號的語音段起始位置&#xff0c;從而分離出語音段和非語音段&#xff08;靜音或噪…

css中偽類與偽元素的區別

一&#xff1a;偽類&#xff1a;1:定義&#xff1a;css偽類用于向某些選擇器添加特殊效果。 偽類其實與普通的css類相類似&#xff0c;可以為已有的元素添加樣式&#xff0c;但是他只有處于dom無法描述的狀態下才能為文檔樹中的元素添加樣式&#xff0c;所以將其稱為偽類。 2:偽…

【BZOJ1500】[NOI2005]維修數列 Splay

【BZOJ1500】[NOI2005]維修數列 Description Input 輸入的第1 行包含兩個數N 和M(M ≤20 000)&#xff0c;N 表示初始時數列中數的個數&#xff0c;M表示要進行的操作數目。第2行包含N個數字&#xff0c;描述初始時的數列。以下M行&#xff0c;每行一條命令&#xff0c;格式參見…

bzoj2588: Spoj 10628. Count on a tree(樹上第k大)(主席樹)

每個節點繼承父節點的樹&#xff0c;則答案為query(root[x]root[y]-root[lca(x,y)]-root[fa[lca(x,y)]]) #include<iostream> #include<cstring> #include<cstdlib> #include<cstdio> #include<algorithm> using namespace std; const int maxn1…

圖文詳解YUV420數據格式

YUV格式有兩大類&#xff1a;planar和packed。 對于planar的YUV格式&#xff0c;先連續存儲所有像素點的Y&#xff0c;緊接著存儲所有像素點的U&#xff0c;隨后是所有像素點的V。 對于packed的YUV格式&#xff0c;每個像素點的Y,U,V是連續交*存儲的。 YUV&#xff0c;分為三個…

USB通信接口介紹

1. 概述 Usb Universal Serial Bus全稱通用串行總線&#xff0c;是一種支持熱插拔的高速串行傳輸總線&#xff0c;使用差分信號來傳輸數據。 USB設備可以直接和host通信&#xff0c;或者通過hub和host通信。一個USB系統中僅有一個USB主機&#xff0c;設備包括功能設備和hub&…

關于java中BufferedReader的read()及readLine()方法的使用心得

BufferedReader的readLine()方法是阻塞式的, 如果到達流末尾, 就返回null, 但如果client的socket末經關閉就銷毀, 則會產生IO異常. 正常的方法就是使用socket.close()關閉不需要的socket. 從一個有若干行的文件中依次讀取各行&#xff0c;處理后輸出&#xff0c;如果用以下方法…

HDCVI——一種創新性的高清視頻傳輸方案

什么是HDCVI 2012年11月&#xff0c;大華技術股份有限公司發布了具有自主知識產權的同軸高清傳輸接口技術HDCVI。HDCVI技術是一種基于已有SYV75-3或SYV75-5同軸電纜的高清視頻傳輸方法&#xff0c;能夠在低成本和較低質量的同軸電纜上實現超長距離高清視頻信號的可靠傳輸。相比…

typedef struct 用法

如果在c程序中我們寫&#xff1a;    typedef struct     {    int num;    int age;    }aaa,bbb,ccc;    這算什么呢&#xff1f;    我個人觀察編譯器&#xff08;VC6&#xff09;的理解&#xff0c;這相當于    typedef struct     …

智能機器人品牌簡介

隨著科技的發展&#xff0c;硬件的計算速度和大數據支撐&#xff0c;越來越多的智能化設備和產品出現在我們的面前&#xff0c;為我們的生活帶來更多便利。其中包括智能機器人&#xff0c;這種產品是有自己的“大腦”&#xff0c;可以接收人為指令&#xff0c;為人服務&#xf…