數據分析一定要會Excel、SQL和Python?非常肯定地回答您,Python、R語言、Excel函數和VBA,以及高級數據分析軟件,都學不到,您將學到:5個有效的數據分析利器,以及分析思維
一、描述性統計分析
在進行分析前,總需要有數據預處理,這里略。
1. 平均數、中位數
平均數和中位數通常結合來使用,主要用于觀察數據的分布情況。
- 平均數>中位數:數據可能出現右偏(右長尾),即偏大的數據居多,拉高了整體均值。
- 平均數<中位數:數據可能出現左偏(左長尾),即偏小的數據居多,拉低了整體均值。
2. 方差、標準差
方差,指數據的離散程度。方差和標準差可以將微小的變化顯著放大,即更直觀地觀察到業務的風險問題。
- 大方差和標準差:指標波動大,業務穩定性低,經營風險高。
- 小方差和標準差:指標波動小,業務穩定性高,經營風險低。
3. 分位數與異常值
通常使用IQR方法來檢測異常值,IQR = Q3 - Q1,Q為n分位數,箱線圖的上界:Q1 - 1.5 × IQR;箱線圖的下界:Q1 + 1.5 × IQR;超出箱體上界或下界的即認為是異常值。
4. 使用Excel進行描述性統計分析
文件 》選項 》在“加載項”中找到“分析工具庫” 》點擊轉到 》勾選“分析工具庫”,點擊確定
在“數據”選項卡找到“數據分析”,并點擊,選擇“描述性統計”,并填寫相關信息
然后就可以看到數據的描述性統計了
而箱線圖可以使用插入圖表功能來繪制箱線圖,略。
二、變化分析
指標變化,說明業務環境發生了變化。變化包括上升、下跌、不變三種,無論是哪種變化,不能說明絕對好壞,如不變不一定是好事。意味著我們對指標的3種變化都要進行分析。
2.1 同比
本期數據與同期數據對比,主要是消除季節性或周期性變化的影響,而忽略周期間的變化。周同比、月同比、季度同比、年同比等。
計算方式:(數據A - 數據B)/ 數據B
例子:第3周周一的訪客數同比第1周周一增長了250%
適用場景:判斷是否比去年好
2.2 環比
環比,與相鄰時期(上一個時間段),主要是考察業務的連續波動情況,會被周期性波動影響。日環比、月環比、季度環比、年環比等。
計算方式:同上
例子:第二周周六周日的訪客數分別為120和150,則第二周周日環比增長25%
適用場景:判斷是否比上期好
2.3 使用Excel條件格式進行變化分析
除了使用公式計算環比和同比進行變化分析,也可以使用Excel的條件格式進行變化分析(包括數據條,色階,突出規則等)
三、指標體系
3.1 指標
指標定義
MECE原則,即完全窮盡,相互獨立,無重復,無遺漏。
- 非MECE分類:一個客戶可能既是老客戶又是 VIP,也可能既活躍又 VIP,互斥性不滿足,且可能遺漏新客戶。
- MECE分類:新客戶、老客戶(又可以分為活躍老客戶、流失老客戶)
指標的特性:
- 必須是數值,不能是文本、日期等字符
- 必須是通過匯總得來的,即復合指標。(除不能再拆分的原子指標外)
- 有清晰明確的業務含義的(強業務意義性)
- 動態變化
指標絕不可以輕易更改!!!
理論上,北極星指標應該只有一個,清晰、可衡量,并能對齊整個組織的努力方向。但在實際操作中,不同團隊或子產品可以擁有自己的“局部北極星指標”作為支持性指標,構成完整的指標體系。
北極星指標、虛榮指標
北極星指標,又叫唯一關鍵指標(OMTM),是指在當前運營階段最重要的指標,目的是通過北極星指標專注和聚焦在當前階段最重要的問題上。
- 一個故事理解北極星指標:早在Facebook之前,MySpace已是互聯網社交產品的領頭羊,對于MySpace,其戰略指標是“總注冊用戶數”,以表示MySpace的用戶規模。反觀Facebook,卻用“活躍用戶數”作為戰略指標。很明顯兩家社交平臺關注的戰略指標完全不一樣,一個是關注注冊用戶數,典型的規模類指標,很明顯MySpace是在追求用戶規模,對應的策略就是大量擴張新用戶;一個是關注活躍用戶數,典型的質量類指標,很明顯Facebook更關心用戶的質量,對應的策略就是從產品功能、運營策略上不斷去滿足用戶需求。因為關注的戰略指標不同,導致兩個公司截然不同的經營策略,最終結果大家均知,MySpace已不知去向,而Facebook成為互聯網社交大佬。
在產品運營中,與北極星指標相對應的是虛榮指標。北極星指標是當前產品階段戰略層面的指標,而虛榮指標是無法體現當前階段戰略方向的,僅僅是數字上很漂亮的指標,故謂之虛榮指標。最著名的虛榮指標就是累計注冊用戶數。虛榮指標有一個特別有趣的特性:只增不減
北極星指標并非固定不變!!!產品本身是有生命周期的,在不同的生命周期產品承擔的使命也不同,在誕生期的產品,其核心目的是迅速擴大用戶規模,盡快占有市場,以取得先發優勢;在發展期的產品,其核心目的是提升用戶質量,盡可能黏住用戶并完成營收轉化。所以在產品的不同生命周期,其產品特性、商業模式和經營策略都不盡相同。
3.2 維度
維度概念:維度是描述指標的不同角度,如地理維度(其中包括國家、地
區、省以及城市等級別的內容)、時間維度(其中包括年、季、月、
周、日等級別的內容),維度既可以是文本也可以是數值。
維度操作:
-
維度上卷:維度上卷是從明細數據到匯總數據進行分析的過程。例如在分析用戶地區的銷售額時,首先分析的是城市維度的銷售額,然后逐步匯總到省份的銷售額。通過維度上卷,可以從整體了解數據變化的影響程度,做出正確的決策。
-
維度下鉆:維度下鉆是從匯總計算的數據逐步拆解到明細數據的分析過程。例如在分析用戶地區的銷售額時,首先分析的是省份維度的銷售額,然后逐步細分到城市的銷售額。
3.3 如何用“指標體系”來分析指標變化的原因
尋找指標變化原因時,通常采用多維度分析方法,多維分析包括如
下兩個層面:
3.3.1 基于指標的業務口徑來尋找原因(規模)
例如,電商的收入規模類指標GMV,即成交金額,其標準業務口徑包含已付款和拍下未付款兩部分。當GMV發生變化時,按照指標的業務口徑分析,即分析已付款和拍下未付款的變化分別是什么,可以分為以下幾種情況:
- GMV上漲,已付款上漲,拍下未付款上漲。
- GMV上漲,已付款上漲,拍下未付款下降或不變。
- GMV上漲,已付款下降或不變,拍下未付款上漲。
- GMV下跌 … 等
- …
然后再去尋找已付款由哪些部分組成,或拍下未付款由哪些部分
組成,追蹤這兩個指標的業務口徑,繼續排查原因。
3.3.2 基于指標關聯的維度來尋找原因(即指標的構成角度)
例如,產品的DAU(每日活躍用戶),按照指標的維度來分析,標準分析過程是按照新客、老客、沉默喚醒、流失召回四大客群的DAU分別進行分析,來尋找產品整體DAU的變化原因。整體DAU=新客DAU+老客DAU+沉默喚醒DAU。繼續細分,排查原因。
四、相關性分析
4.1 定義
相關性分析,指對兩個或多個指標進行分析,評估它們兩兩之間聯系或相互影響的程度。相關性分析的應用范圍非常廣,除了互聯網產品,傳統行業和線下業務也可以用,原因在于相關性分析支持幾乎所有的業務指標類型,包括連續型指標和離散型指標。離散型指標又分為二分類型、無序型、有序型。
!!!切記:相關性 ≠ 因果,相關性是指一個變量變化的同時,另一個變量也會伴隨發生變化,但不能確定一個變量變化是不是另一個變量變化的原因。因果關系,是指一個變量的存在一定會導致另一個變量的產生。
4.2 相關性分析的3種算法
相關性分析的2個前提條件:無異常值、指標間務必相互獨立,互不影響。
4.2.1 連續型指標 vs 連續型指標:皮爾遜相關系數(Pearson)
Pearson的前提條件:
- 指標服從正態分布
- 兩個指標的數據要一一對應,成對出現
- 無異常值
說明: Pearson 相關系數 𝑟 衡量的是樣本中兩個變量之間的線性相關強度,但它僅僅是樣本估計值,不能直接推斷總體的關系是否顯著,因此需要顯著性檢驗(假設檢驗,通常使用t檢驗)來確認相關性是否可信。
4.2.2 有序離散型指標 vs 有序離散型指標:斯皮爾曼等級相關系數(Spearman)或肯德爾秩相關系數(Kendall)
前提條件:
- 指標不服從正態分布
- 兩個指標的數據要一一對應,成對出現
- 無異常值
4.2.3 無序離散型指標和連續型指標的相關性算法:對不起,無相關性
指標 A | 指標 B | 相關性算法 | 應用示例 |
---|---|---|---|
連續型 | 連續型 | Pearson | 藥品曝光量和購買轉化率 |
有序離散型 | 有序離散型 | Spearman、Kendall | 用戶等級和活躍度 |
無序離散型 | 無序離散型 | 卡方檢驗、Fisher 檢驗 | 手機品牌和年齡段 |
二分類目標 | 連續型 | Point-biserial | 性別和閱讀率 |
二分類目標 | 有序離散型 | Biserial | 性別和滿意度評分 |
有序離散型 | 連續型 | 無直接算法,建議轉換后處理 | 商品評分和購買轉化率 |
4.3 在Excel中進行“相關性分析”
4.3.1 如何尋找對購買轉化率貢獻最大的渠道
目標:評估哪些渠道的用戶對整體購買轉化率貢獻最大。
過程:
-
“數據”選項卡找到“數據分析”,選擇相關系數(只有默認的Pearson系數)進行相關性分析
-
相關性分析結果:渠道B購買轉化率與整體的最相關,因此,需要重點關注發展渠道B的業務。
五、趨勢預測
預測分析是典型的數據挖掘應用,通過分析序列進行合理預測,做到提前掌握未來發展趨勢,為業務經營決策提供依據。大數據有4個特性,即4V:Volume(大量),Velocity(高速),Variety(多樣)和Value(價值)。
可以“趨勢預測”是因為:
- 足夠大的樣本量和足夠豐富的樣本維度。
- 考察概率而不是準確率!!!。置信度、置信區間、可能性的字眼,它們都是在說明分析的結果有多少可信度,而不是有多少準確性。
- 相關而非因果。影響指標變化的因素也是多維的,實際業務經營中尋找原因遠比尋找相關因素要困難得多。
5.1 基于時間序列的趨勢預測
時間序列預測,認為指標的歷史數據是有一定延續性的,即歷史上指標的趨勢在未來也會大概率延續,同時接受一定程度的指標波動,認為是合理的隨機事件,并把這種波動也考慮到未來走勢中,所以時間序列預測輸出的趨勢以及波動性,是和歷史數據的趨勢與波動性大概率高度一致的。因此,時間序列預測屬于定量分析,也叫方向性分析,是找出未來可能的走勢方向,其輸出的趨勢值僅供參考。
5.2 基于回歸分析的趨勢預測
回歸分析,是指定量分析兩種或兩種以上指標間相互依賴關系的分析方法。回歸分析支持兩個或多個指標間的關系。
5.3 在Excel中實現時間序列趨勢預測
在Excel中,能夠實現時間序列預測的叫預測工作表,這個工作表在“數據”選項卡。
操作流程:
-
檢查數據是否符合要求。要求數據為兩列,第一列必須是時間序列,且間隔均勻,即必須是連續、等差的時間數據,不能出現缺漏的情況。
-
選中所有數據,點擊“數據”選項卡,找到并點擊“預測工作表”,彈出時間序列配置窗口。
-
通常Excel會自動分析數據的季節性和周期性,并輸出預測線。檢查各項配置無誤后,單擊“確定”按鈕即可。
5.4 在Excel中實現回歸分析趨勢預測
在Excel中,能夠實現回歸分析的叫趨勢線,是圖表的附屬功能。
操作步驟:
- 選中所有數據,點擊“插入”選項卡,選擇柱狀圖
- 在柱狀圖的數據柱上單擊右鍵,找到“添加趨勢線”,點擊“添加趨勢線”,彈出趨勢線配置窗口
- 勾選“顯示R平方值”,切換不同的回歸算法,選擇R2接近于1的算法(一般情況下用線性或指數,其他算法較少使用)
- 在趨勢線配置窗口找到“向前”,輸入預測周期