數據分析方法

什么是數據分析

從數據到信息的這個過程，就是數據分析。數據本身并沒有什么價值，有價值的是我們從數據中提取出來的信息。

分類

分類分析的目標是：給一批人(或者物)分成幾個類別，或者預測他們屬于每個類別的概率大小。

　　舉個栗子：“京東的用戶中，有哪些會在618中下單?”這就是個典型的二分類問題：買or不買。

　　分類分析(根據歷史信息)會產出一個模型，來預測一個新的人(或物)會屬于哪個類別，或者屬于某個類別的概率。結果會有兩種形式：

　　形式1：京東的所有用戶中分為兩類，要么會買，要么不會買。

　　形式2：每個用戶有一個“會買”，或者“不會買”的概率(顯然這兩個是等效的)。“會買”的概率越大，我們認為這個用戶越有可能下單。

　　如果為形式2畫一道線，比如0.5，大于0.5是買，小于0.5是不買，形式2就轉變成形式1了。
　　

回歸

回歸任務的目標是：給每個人(或物)根據一些屬性變量來產出一個數字(來衡量他的好壞)。

舉個栗子：每個用戶在618會為京東下單多少錢的?

注意回歸和分類的區別在：分類產出的結果是固定的幾個選項之一，而回歸的結果是連續的數字，可能的取值是無限多的。

聚類

聚類任務的目標是：給定一批人(或物)，在不指定目標的前提下，看看哪些人(或物)之間更接近。

注意聚類和上面的分類和回歸的本質區別：分類和回歸都會有一個給定的目標(是否下單，貸款是否違約，房屋價格等等)，聚類是沒有給定目標的。

舉個栗子：給定一批用戶的購買記錄，有沒有可能分成幾種類型?(零食狂魔，電子愛好者，美妝達人……)

相似匹配

相似匹配任務的目標是：根據已知數據，判斷哪些人(或物)跟特定的一個(一批)人(或物)更相似。

舉個栗子：已知一批在去年雙十一下單超過10000元的用戶，哪些用戶跟他們比較相似?

頻繁集發現

頻繁集發現的目標是：找出經常共同出現的人(或物)。這就是大名鼎鼎的“啤酒和尿布”的例子了。這個例子太容易擴展，就不再舉栗子啦。

“啤酒與尿布”的故事產生于20世紀90年代的美國沃爾瑪超市中，沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難于理解的現象：在某些特定的情況下，“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中，這種獨特的銷售現象引起了管理人員的注意，經過后續調查發現，這種現象出現在年輕的父親身上。

在美國有嬰兒的家庭中，一般是母親在家中照看嬰兒，年輕的父親前去超市購買尿布。父親在購買尿布的同時，往往會順便為自己購買啤酒，這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一，則他很有可能會放棄購物而到另一家商店，直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象，開始在賣場嘗試將啤酒與尿布擺放在相同的區域，讓年輕的父親可以同時找到這兩件商品，并很快地完成購物；而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件，從而獲得了很好的商品銷售收入，這就是“啤酒與尿布”故事的由來。

統計(屬性、行為、狀態)描述

統計描述任務的目標是最好理解的：具有哪些屬性的人(或物)在什么狀態下做什么什么事情。

舉個栗子：5月份一個月內每個用戶在京東7天內無條件退貨的次數

統計描述常常用戶欺詐檢測，試想一個用戶一個月退貨100+次，這會是一種什么情況?

連接預測

連接預測的目標是：預測本應該有聯系(暫時還沒有)的人(或物)。

舉個栗子：你可能認識xxx?你可能想看xxx?

數據壓縮

數據壓縮的目的是：減少數據集規模，增加信息密度。

舉個栗子：豆瓣想分析用戶關于國外電影的喜好，將國內電影的評分數據都排除

大數據，也不是數據越多越好，數據多帶來的信息多，但是噪聲也會變多。

因果分析

顧名思義，因果分析的目標是：找出事物間相互影響的關系。

舉個栗子：廣告的效果提升的原因是廣告內容好?還是投放到了更精準的用戶?

這里最常見的手段就是A/B test。

在運營過程中，AB測試用得更加普遍，比如發送郵件或者廣告，先拿小樣本，測試多個版本，數據表明哪一個廣告或郵件的轉化率高，就用哪一個郵件或廣告。

1 什么是A/B測試？

A/B測試是一種流行的網頁優化方法，可以用于增加轉化率注冊率等網頁指標。簡單來說，就是為同一個目標制定兩個方案（比如兩個頁面），將產品的用戶流量分割成 A/B 兩組，一組試驗組，一組對照組，兩組用戶特點類似，并且同時運行。試驗運行一段時間后分別統計兩組用戶的表現，再將數據結果進行對比，就可以科學的幫助決策。比如在這個例子里，50%用戶看到 A 版本頁面，50%用戶看到 B 版本頁面，結果 A 版本用戶轉化率 23%，高于 B 版本的 11%，在試驗流量足夠大的情況下，我們就可以判定 A 版本勝出，然后將 A 版本頁面推送給所有的用戶。

AB測試本質上是個分離式組間實驗，以前進行AB測試的技術成本和資源成本相對較高，但現在一系列專業的可視化實驗工具的出現，AB測試已越來越成為網站優化常用的方法。

A/B測試其實是一種“先驗”的實驗體系，屬于預測型結論，與“后驗”的歸納性結論差別巨大。A/B測試的目的在于通過科學的實驗設計、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實驗結論，并確信該結論在推廣到全部流量可信。