數據審計 -本福德定律 Benford’s law
準備工作,可以去下載 classicmodels 數據庫資源如下
[ 點擊:classicmodels]
也可以去我的博客資源下載
文章目錄
- 數據審計 -本福德定律 Benford's law
- 前言
- 一、什么是 本福德定律?
- 二、數學公式
- 三、應用領域
- 四、應用(看看是否有 會計、審計和欺詐檢測。)
- 總結
前言
假設 classicmodels 公司的 CEO 想知道 自己的 公司的數據是可能造假,于是找到了 小Tom kk 幫他分析數據。
一、什么是 本福德定律?
本福特定律,也稱為本福德法則,說明一堆從實際生活得出的數據中,以1為首位數字的數的出現機率約為總數的三成,接近期望值1/9的3倍。推廣來說,越大的數,以它為首幾位的數出現的機率就越低。它可用于檢查各種數據是否有造假。
本福特定律最早由數學家暨天文學家紐康伯(Simon Newcomb)在1881年觀察到,而通用電器公司的物理學家本福特(Frank Benford)博士在1938年正式將其公開發表。這一定律因其貢獻而被命名為本福特定律。本福特通過對各種數值數據的分析,確定了從1到9中以任意數字n作為第一位數的概率為log10(1+1/n)。
在我們的日常生活中,以數字1開頭的數字在各個領域中出現的頻率似乎要高于其他數字。這就是著名的本福特定律,也被稱為“第一位數定律”或者“首位數現象”。本文將詳細介紹本福特定律的歷史背景、原理,并且探討它的應用領域和實際意義。
大家可以去看 下 百度的文章,
二、數學公式
以n開頭的數的出現概率為log10(1 + 1/n)。
三、應用領域
會計欺詐檢測
在刑事審判中的使用
宏觀經濟數據
價格數字分析
基因組數據
四、應用(看看是否有 會計、審計和欺詐檢測。)
也稱為第一位數字定律,規定在來自許多(但不是全部)現實生活數據源的數字列表中,前導數字以特定的、不均勻的方式分布。準確地說,P(d) = log 10 (1 + 1/d),其中 d 是 1-9 范圍內的數字。因此,如果您對某列有 n 個觀察值,則每個數字的預期值為 n*log 10 (1 + 1/d)
編寫 SQL 代碼來計算 Payments 中金額第一位數字的觀察值和預期值。
您需要使用卡方統計量來檢驗觀察到的數據是否遵循本福德定律。
本福德定律
SELECT LEFT(amount,1) as Digit, COUNT(*) as Observed,
ROUND((SELECT COUNT(*) FROM Payments)*LOG10(1+1/left(amount,1)),0) as Expected
FROM Payments
GROUP BY Digit, Expected
ORDER BY Digit;
卡方統計
excel 永遠是神器
用CHISQ.TEST進行卡方檢驗,得到P值,如果P值小于0.05,則拒絕觀察的樣本跟期望的樣本比例一致。
總結
本福德定律在在統計學用的比較多。特別是上市公司財報。最后謝謝大家。
希望大家喜歡 , 謝謝大家,我一直在一邊面試,一邊學習,一邊考證,一邊寫作,充實自己。