數據分析方法

數據分析方法

什么是數據分析

從數據到信息的這個過程,就是數據分析。數據本身并沒有什么價值,有價值的是我們從數據中提取出來的信息。

分類

分類分析的目標是:給一批人(或者物)分成幾個類別,或者預測他們屬于每個類別的概率大小。

  舉個栗子:“京東的用戶中,有哪些會在618中下單?”這就是個典型的二分類問題:買or不買。

  分類分析(根據歷史信息)會產出一個模型,來預測一個新的人(或物)會屬于哪個類別,或者屬于某個類別的概率。結果會有兩種形式:

  形式1:京東的所有用戶中分為兩類,要么會買,要么不會買。

  形式2:每個用戶有一個“會買”,或者“不會買”的概率(顯然這兩個是等效的)。“會買”的概率越大,我們認為這個用戶越有可能下單。

  如果為形式2畫一道線,比如0.5,大于0.5是買,小于0.5是不買,形式2就轉變成形式1了。
  

回歸

回歸任務的目標是:給每個人(或物)根據一些屬性變量來產出一個數字(來衡量他的好壞)。

舉個栗子:每個用戶在618會為京東下單多少錢的?

注意回歸和分類的區別在:分類產出的結果是固定的幾個選項之一,而回歸的結果是連續的數字,可能的取值是無限多的。

聚類

聚類任務的目標是:給定一批人(或物),在不指定目標的前提下,看看哪些人(或物)之間更接近。

注意聚類和上面的分類和回歸的本質區別:分類和回歸都會有一個給定的目標(是否下單,貸款是否違約,房屋價格等等),聚類是沒有給定目標的。

舉個栗子:給定一批用戶的購買記錄,有沒有可能分成幾種類型?(零食狂魔,電子愛好者,美妝達人……)

相似匹配

相似匹配任務的目標是:根據已知數據,判斷哪些人(或物)跟特定的一個(一批)人(或物)更相似。

舉個栗子:已知一批在去年雙十一下單超過10000元的用戶,哪些用戶跟他們比較相似?

頻繁集發現

頻繁集發現的目標是:找出經常共同出現的人(或物)。這就是大名鼎鼎的“啤酒和尿布”的例子了。這個例子太容易擴展,就不再舉栗子啦。

“啤酒與尿布”的故事產生于20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售數據時發現了一個令人難于理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關系的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過后續調查發現,這種現象出現在年輕的父親身上。

在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店,直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,并很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布”故事的由來。

統計(屬性、行為、狀態)描述

統計描述任務的目標是最好理解的:具有哪些屬性的人(或物)在什么狀態下做什么什么事情。

舉個栗子:5月份一個月內每個用戶在京東7天內無條件退貨的次數

統計描述常常用戶欺詐檢測,試想一個用戶一個月退貨100+次,這會是一種什么情況?

連接預測

連接預測的目標是:預測本應該有聯系(暫時還沒有)的人(或物)。

舉個栗子:你可能認識xxx?你可能想看xxx?

數據壓縮

數據壓縮的目的是:減少數據集規模,增加信息密度。

舉個栗子:豆瓣想分析用戶關于國外電影的喜好,將國內電影的評分數據都排除

大數據,也不是數據越多越好,數據多帶來的信息多,但是噪聲也會變多。

因果分析

顧名思義,因果分析的目標是:找出事物間相互影響的關系。

舉個栗子:廣告的效果提升的原因是廣告內容好?還是投放到了更精準的用戶?

這里最常見的手段就是A/B test。

在運營過程中,AB測試用得更加普遍,比如發送郵件或者廣告,先拿小樣本,測試多個版本,數據表明哪一個廣告或郵件的轉化率高,就用哪一個郵件或廣告。

1 什么是A/B測試?

A/B測試是一種流行的網頁優化方法,可以用于增加轉化率注冊率等網頁指標。簡單來說,就是為同一個目標制定兩個方案(比如兩個頁面),將產品的用戶流量分割成 A/B 兩組,一組試驗組,一組對照組,兩組用戶特點類似,并且同時運行。試驗運行一段時間后分別統計兩組用戶的表現,再將數據結果進行對比,就可以科學的幫助決策。比如在這個例子里,50%用戶看到 A 版本頁面,50%用戶看到 B 版本頁面,結果 A 版本用戶轉化率 23%,高于 B 版本的 11%,在試驗流量足夠大的情況下,我們就可以判定 A 版本勝出,然后將 A 版本頁面推送給所有的用戶。

AB測試本質上是個分離式組間實驗,以前進行AB測試的技術成本和資源成本相對較高,但現在一系列專業的可視化實驗工具的出現,AB測試已越來越成為網站優化常用的方法。

A/B測試其實是一種“先驗”的實驗體系,屬于預測型結論,與“后驗”的歸納性結論差別巨大。A/B測試的目的在于通過科學的實驗設計、采樣樣本代表性、流量分割與小流量測試等方式來獲得具有代表性的實驗結論,并確信該結論在推廣到全部流量可信。

相關連接

  1. A/B 測試
  2. 啤酒與尿布
  3. 什么是A/B測試

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/536075.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/536075.shtml
英文地址,請注明出處:http://en.pswp.cn/news/536075.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

RAID陣列基礎知識

RAID陣列基礎知識 獨立硬盤冗余陣列 (RAID, Redundant Array of Independent Disks),舊稱廉價磁盤冗余陣列(Redundant Array of Inexpensive Disks),簡稱磁盤陣列。 RAID的種類 這里我們只介紹比較常用的RAID類型&am…

timeshift備份你的Linux系統

timeshift備份你的Linux系統 安裝 打開終端(ctrl alt T)并逐個執行以下命令 sudo apt-add-repository -y ppa:teejee2008/ppa sudo apt-get update sudo apt-get install timeshift 創建 點擊Create按鈕 默認不能備份用戶下的文件,所以…

Go語言vscode環境配置

Go語言vscode環境配置 此教程在GO已經安裝成功的前提下。 安裝vscode擴展 在vscode擴展里面搜索go,然后下載擴展。 安裝go 插件 在$GOPATH目錄下創建bin,pkg,src切換到$GOPATH/bin目錄下,打開終端輸入以下命令,不需要翻墻: go…

Angular實現懸浮球組件

Angular實現懸浮球組件 在手機 App 上,我們經常會看到懸浮球的東東,用著可能很舒服,但是 web 網頁上卻很少見,今天我們就通過 Angular 來實現,當然使用其他框架也是可以的。 功能要求: 支持設置直徑支持點擊觸發信號支持設置鼠標按壓時間實現的過程中省略的部分天填坑過…

Docker+Nginx部署Angular國際化i18n

Docker+Nginx部署Angular國際化i18n 在Angular項目中添加default.conf文件 default.conf 為了支持局域網,增加一個域名,即本地的局域網ip地址。 server {listen 80;server_name localhost;server_name 192.168.2.172;location / {root /usr/share/nginx/html;lo…

消息隊列-Message Queue

消息隊列-Message Queue 目前隨著互聯網的普及以及上網用戶的增多,擁有一套 安全、穩定、低耦合、高性能的內部通信工具尤為重要。 什么是消息隊列? 消息隊列(英語:Message queue)是一種進程間通信或同一進程的不同線…

Angular 第一章 開始

第一章 開始 用 JavaScript 開發應用程序是一個很大的挑戰。由于它的延展性和缺少類型檢查,在 JavaScript 中構建一個適當大小的應用程序是很困難的。除此之外,我們對所有類型的處理都使用JavaScript,例如用戶界面(UI),操作、客戶端-服務器交互和業務處理/驗證。因此,我們…

Typescript實現單例之父類調用子類

Typescript實現單例之父類調用子類 設計要求 在程序中,需要一個對象可以全局使用,并且只有一個實例Breakpoint 類是一個可以被繼承的類,然后子類必須實現 updateView函數updateView 這個函數可以被自動調用,當窗口發生變化的時候構思 UML 圖 Layout 是一個單例類,也就是全局只…

Angular性能優化之臟檢測

Angular性能優化之臟檢測 當我們在使用 Angular 框架搭建項目時,隨著組件越來越多,頁面也來越復雜,性能會越來越低,主要表現在 CPU 使用率 很高。所以我們要對項目做一定的優化。 Angular臟檢查(Change Detection)機制 Angular 的臟檢測主要是指 zone.js,這是一個開源的…

第一章、第一節 Angular基礎

第一章、第一節 Angular基礎 讓我們先來看看Angular是如何實現組件模式的。 組件模式 Angular 應用程序使用組件模式。你可能聽說過這個模式,它不僅用于軟件開發,還用于制造、建筑和其他領域。簡單地說,它涉及到將更小的、離散的構建塊組合…

Angular Chart.js第三方庫ng-chartjs基礎使用

Angular Chart.js第三方庫ng-chartjs基礎使用 項目github地址 這個項目支持基本的Chart.js圖表,并且支持內聯插件和全局插件的使用。 Demo地址 支持圖表類型 linebarradarpiepolarArea安裝 npm install ng-chartjs --save npm install chart.js --save導入 正常導入模塊i…

linux一鍵安裝node+npm

分享一個linux下一鍵安裝nodenpm腳本。 使用方式為: ./install-node.sh,然后輸入版本號,node.js版本查詢 切記不需要加 sudo 執行!!! 默認安裝10.15.0。 #! /bin/bash############################################################ # …

Angular Material 陰影使用

Angular Material 陰影使用 依托于 Angular Material 庫,可以直接使用通用的符合 Material Design 風格的陰影。 使用 使用方式有兩種: 外聯樣式設定,即在css或scss中設定通過class名稱設定,即 元素的class名稱方式一:外聯樣式使用 在scss或css文件中導入@import ~@ang…

typescript或javascript深拷貝Object json

typescript或javascript深拷貝Object json Object的json對象很多時候我們需要深拷貝,我寫了兩個工具函數,供大家參考。 deepCopyObject 深拷貝一個Object對象,返回深復制的對象。 /** * method 深復制一個json對象 * param source 需要深復制的對象 * return 返…

linux安裝zsh終端

linux安裝zsh終端 ZSH 已經被收錄到了 Ubuntu 18.04 LTS 的官方軟件包存儲庫中了 sudo apt install zshZSH Shell 安裝好之后,可以使用如下命令查看其版本: zsh --version取代bash,設為默認shell sudo usermod -s /bin/zsh username也可以…

HTML meta使用

HTML meta使用 meta標簽是什么? meta標簽是HTML語言head區的一個輔助性標簽。 meta標簽是干什么用的? meta標簽用來描述一個HTML網頁文檔的屬性,例如作者、日期和時間、網頁描述、關鍵詞、頁面刷新等。它提供的信息雖然用戶不可見&#x…

共享圖片方案

共享圖片方案 安裝chrome插件 極簡圖床安裝,鏈接地址 插件使用 使用阿里云 OSS 存儲圖片 阿里云 OSS 提供了安全、低成本、高可靠的云存儲服務,極簡圖床針對阿里云 OSS 做了整合,通過簡單的設置,即可方便地將圖片上傳到阿里…

javascript復制到黏貼板之完美兼容

javascript復制到黏貼板之完美兼容 很多時候我們需要給用戶方便,提供一鍵復制的功能,但是在實現的過程中遇到各式各樣的坑。 原生解決方案 document.execCommand()方法 MDN上的定義: which allows one to run commands to manipulate the contents of the edita…

制作windows啟動盤-大于4GB鏡像

制作windows啟動盤-大于4GB鏡像 制作一個 Windows 安裝 U 盤是很容易的,使用 UltraISO 這樣的刻錄工具量產一個 iso 鏡像文件到 U 盤即可。然而隨著 Windows 10 版本號的提升,鏡像變得越來越大,終于 FAT32 文件系統不再能夠容納得下安裝鏡像…

DIY 主機 所有AMD IntelCPU及主板

DIY 主機 所有AMD IntelCPU及主板 查看intel的cpu及amd的cpu或者對應的主板可以查看這個項目。diy-pc