php 計算數據偏離度,關于偏離度的測算方法

2015年6月技術總結

——關于偏離度的測算方法

研究院公用事業部路璐

引言

《原理》中說“偏離度是指每一種償債來源與財富創造能力的距離，所體現的是償債來源對債務安全的保障程度，唯有通過揭示償債來源與財富創造能力偏離度才能真正區別每一種償債來源的風險程度，科學判斷償債能力”。

偏離度是描述償債來源與財富創造能力之間的接近程度的指標，命名為“距離”，“距離”越小的償債來源與財富創造能力越具有相似性。采用什么樣的方法計算距離是很講究，甚至關系到判斷償債能力的正確與否。

根據偏離度的兩個分量償債來源與財富創造能力的特性，我們發現，他們的量綱，也就是單位是不一樣的，測算時需要考慮分量的分布(期望，方差等)。

以下三種算法，需要具體數據測試，校正，驗證，再校正。

第一種偏離度算法的思路：先將分量償債來源與財富創造能力都“標準化”到均值、方差相等。假設樣本集X的均值為m，標準差為s，那么X的“標準化變量”表示為：而且標準化變量的數學期望為0，方差為1。因此樣本集的標準化過程用公式描述就是：

標準化后的值 = (標準化前的值－分量的均值) /分量的標準差

經過簡單的推導就可以得到兩個n維向量償債來源a(x11,x12,…,x1n)與財富創造能力b(x21,x22,…,x2n)間的偏離度的公式：

如果將方差的倒數看成是一個權重，這個公式可以看成是一種加權偏離度。

Matlab計算第一種偏離度：

計算(0,0)、(1,0)、(0,2)兩兩間的偏離度 (假設兩個分量的標準差分別為0.5和1)

X= [0 0 ; 1 0 ; 0 2]

D= pdist(X, 'seuclidean',[0.5,1])

結果：D= 2.0000?2.0000?2.8284

第二種偏離度算法思路：幾何中夾角余弦可用來衡量兩個向量方向的差異，利用這一概念來衡量樣本向量之間的差異，即偏離度。

在二維空間中向量A(X1,Y1)與向量B(X2,Y2)的夾角余弦公式：

兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夾角余弦，對于兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)，可以使用類似于夾角余弦的概念來衡量償債來源與財富創造能力間的偏離度。

即：

偏離度取值范圍為[-1,1]。偏離度夾角余弦越大表示向量償債來源與財富創造能力的夾角越小，偏離度夾角余弦越小表示向量償債來源與財富創造能力的夾角越大。當償債來源與財富創造能力的方向重合時夾角余弦取最大值1，當向量償債來源與財富創造能力的方向完全相反夾角余弦取最小值-1。

Matlab計算第二種偏離度算法：

計算(1,0)、( 1,1.732)、(-1,0)兩兩間的偏離度。

X= [1 0 ; 1 1.732 ; -1 0]

D=1-pdist(X,'cosine')%

Matlab中的pdist(X,'cosine')得到的偏離度是1減夾角余弦的值

結果：D=0.5000?-1.0000?-0.5000

第三種偏離度算法：

偏離度是衡量償債來源X與財富創造能力Y相關程度的一種方法，偏離度的取值范圍是[-1,1]。偏離度的絕對值越大，則表明償債來源X與財富創造能力Y相關度越高。當X與Y線性相關時，偏離度取值為1(正線性相關)或-1(負線性相關)。

偏離距離的定義：

Matlab計算(1, 2 ,3 ,4 )與( 3 ,8 ,7 ,6 )之間的偏離度與偏離距離

X = [1 2 3 4 ; 3 8 7 6]

C = corrcoef(X') %將返回偏離度矩陣

D = pdist(X, 'correlation')

結果：C=

1.0000?0.4781

0.4781?1.0000

D=0.5219,?其中0.4781就是偏離度，0.5219是偏離距離。

三種偏離度測算方法，需要與實際數據結合，經過反復多次測試，校正，驗證，再校正的過程，得到最佳偏離度測算方案。有關算法校正和驗證方法，日后討論。

公用事業部

二〇一五年六月十九日

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/457170.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/457170.shtml
英文地址，請注明出處：http://en.pswp.cn/news/457170.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！