64個數據分析常用術語

導讀:本篇文章,我們來講講數據分析常用語。

內容綜合整理自網絡

01 絕對數和相對數

  • 絕對數:是反應客觀現象總體在一定時間、一定地點下的總規模、總水平的綜合性指標,也是數據分析中常用的指標。比如年GDP,總人口等等。

  • 相對數:是指兩個有聯系的指標計算而得出的數值,它是反應客觀現象之間的數量聯系緊密程度的綜合指標。相對數一般以倍數、百分數等表示。相對數的計算公式:相對數=比較值(比數)/基礎值(基數)

02 百分比和百分點

  • 百分比:是相對數中的一種,它表示一個數是另一個數的百分之幾,也稱為百分率或百分數。百分比的分母是100,也就是用1%作為度量單位,因此便于比較。

  • 百分點:是指不同時期以百分數的形式表示的相對指標的變動幅度,1%等于1個百分點。

03 頻數和頻率

  • 頻數:一個數據在整體中出現的次數。

  • 頻率:某一事件發生的次數與總的事件數之比。頻率通常用比例或百分數表示。

04 比例與比率

  • 比例:是指在總體中各數據占總體的比重,通常反映總體的構成和比例,即部分與整體之間的關系。

  • 比率:是樣本(或總體)中各不同類別數據之間的比值,由于比率不是部分與整體之間的對比關系,因而比值可能大于1。

05 倍數和番數

  • 倍數:用一個數據除以另一個數據獲得,倍數一般用來表示上升、增長幅度,一般不表示減少幅度。

  • 番數:指原來數量的2的n次方。

06 同比和環比

  • 同比:指的是與歷史同時期的數據相比較而獲得的比值,反應事物發展的相對性。

  • 環比:指與上一個統計時期的值進行對比獲得的值,主要反映事物的逐期發展的情況。

07 變量

變量來源于數學,是計算機語言中能儲存計算結果或能表示值抽象概念。變量可以通過變量名訪問。

08 連續變量

在統計學中,變量按變量值是否連續可分為連續變量與離散變量兩種。在一定區間內可以任意取值的變量叫連續變量,其數值是連續不斷的,相鄰兩個數值可作無限分割,即可取無限個數值。如:年齡、體重等變量。

09 離散變量

離散變量的各變量值之間都是以整數斷開的,如人數、工廠數、機器臺數等,都只能按整數計算。離散變量的數值只能用計數的方法取得。

10 定性變量

又名分類變量:觀測的個體只能歸屬于幾種互不相容類別中的一種時,一般是用非數字來表達其類別,這樣的觀測數據稱為定性變量。可以理解成可以分類別的變量,如學歷、性別、婚否等。

11 均值

即平均值,平均數是表示一組數據集中趨勢的量數,是指在一組數據中所有數據之和再除以這組數據的個數。

12 中位數

對于有限的數集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數。如果觀察值有偶數個,通常取最中間的兩個數值的平均數作為中位數。

13 缺失值

它指的是現有數據集中某個或某些屬性的值是不完全的。

14 異常值

指一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值。

15 方差

是衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值。

16 標準差

又常稱均方差,是離均差平方的算術平均數的平方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的兩組數據,標準差未必相同。

17 皮爾森相關系數

皮爾森相關系數是用來反映兩個變量線性相關程度的統計量。相關系數用r表示,其中n為樣本量,分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大表明相關性越強。

18 PV(Page View)頁面瀏覽量

指某段時間內訪問網站或某一頁面的用戶的總數量,通常用來衡量一篇文章或一次活動帶來的流量效果,也是評價網站日常流量數據的重要指標。PV可重復累計,以用戶訪問網站作為統計依據,用戶每刷新一次即重新計算一次。

19 UV(Unique Visitor)獨立訪客

指來到網站或頁面的用戶總數,這個用戶是獨立的,同一用戶不同時段訪問網站只算作一個獨立訪客,不會重復累計,通常以PC端的Cookie數量作為統計依據。

20 Visit 訪問

指用戶通過外部鏈接來到網站,從用戶來到網站到用戶在瀏覽器中關閉頁面,這一過程算作一次訪問。

21 Bounce Rate 跳出率

指用戶通過鏈接來到網站,在當前頁面沒有任何交互就離開網站的行為,這就算作此頁面增加了一個“跳出”,跳出率一般針對網站的某個頁面而言。

跳出率=在這個頁面跳出的用戶數/PV

22 退出率

一般針對某個頁面而言。指用戶訪問某網站的某個頁面之后,從瀏覽器中將與此網站相關的所有頁面全部關閉,就算此頁面增加了一個“退出“。

退出率=在這個頁面退出的用戶數/PV

23 Click 點擊

一般針對付費廣告而言,指用戶點擊某個鏈接、頁面、banner的次數,可重復累計。比如我在PC端看到一則新聞鏈接點進去看了一會就關了,過了一會又點進去看了一遍,這就算我為這篇新聞貢獻兩次點擊。

24 avr.time 平均停留時長

指某個頁面被用戶訪問,在頁面停留時長的平均值,通常用來衡量一個頁面內容的質量。

avr.time=訪客數量/用戶總停留時長

25 CTR 點擊率

指某個廣告、Banner、URL被點擊的次數和被瀏覽的總次數的比值。一般用來考核廣告投放的引流效果。

CTR=點擊數(click)/被用戶看到的次數

26 Conversion rate 轉化率

指用戶完成設定的轉化環節的次數和總會話人數的百分比,通常用來評價一個轉化環節的好壞,如果轉化率較低則需優化該轉化環節。

轉化率=轉化會話數/總會話數

27 漏斗

通常指產生目標轉化前的明確流程,比如在淘寶購物,從點擊商品鏈接到查看詳情頁,再到查看顧客評價、領取商家優惠券,再到填寫地址、付款,每個環節都有可能流失用戶,這就要求商家必須做好每一個轉化環節,漏斗是評價轉化環節優劣的指標。

28 投資回報率(ROI:Return On Investment )

反映投入和產出的關系,衡量我這個投資值不值得,能給到我多少價值的東西(非單單的利潤),這個是站在投資的角度或長遠生意上看的。

其計算公式為:投資回報率(ROI)=年利潤或年均利潤/投資總額×100%,通常用于評估企業對于某項活動的價值,ROI高表示該項目價值高。

29 重復購買率

指消費者在網站中的重復購買次數。

30 流失分析(Churn Analysis/Attrition Analysis)

描述哪些顧客可能停止使用公司的產品/業務,以及識別哪些顧客的流失會帶來最大損失。流失分析的結果用于為可能要流失的顧客準備新的優惠。

31 顧客細分&畫像(Customer Segmentation & Profiling)

根據現有的顧客數據,將特征、行為相似的顧客歸類分組。描述和比較各組。

32 顧客的生命周期價值 (Lifetime Value, LTV)

顧客在他/她的一生中為一個公司產生的預期折算利潤。

33 購物籃分析(Market Basket Analysis)

識別在交易中經常同時出現的商品組合或服務組合,例如經常被一起購買的產品。此類分析的結果被用于推薦附加商品,為陳列商品的決策提供依據等。

34 實時決策(Real Time Decisioning, RTD)

幫助企業做出實時(近乎無延遲)的最優銷售/營銷決策。比如,實時決策系統(打分系統)可以通過多種商業規則或模型,在顧客與公司互動的瞬間,對顧客進行評分和排名。

35 留存/顧客留存(Retention / Customer Retention)

指建立后能夠長期維持的客戶關系的百分比。

36 相關性分析(Correlation analysis)

是一種數據分析方法,用于分析變量之間是否存在正相關,或者負相關。

37 生存分析(Survival Analysis)

估測一名顧客繼續使用某業務的時間,或在后續時段流失的可能性。此類信息能讓企業判斷所要預測時段的顧客留存,并引入合適的忠誠度政策。

38 算法(Algorithms)

可以完成某種數據分析的數學公式。

39 商業智能(Business Intelligence)

分析數據、展示信息以幫助企業的執行者、管理層、其他人員進行更有根據的商業決策的應用、設施、工具、過程。

40 分類分析(Classification analysis)

從數據中獲得重要的相關性信息的系統化過程;這類數據也被稱為元數據(meta data),是描述數據的數據。

41 聚類分析(Clustering analysis)

它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數據間的差異和相似性。

42 對比分析(Comparative analysis)

在非常大的數據集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果。

43 數據分析(Data Analysis)

是指根據分析目的,用適當的分析方法及工具,對數據進行處理與分析,提取有價值的信息,形成有效結論的過程。

44 數據處理(Data Processing)

數據處理是指根據數據分析的目的,將收集到的數據進行加工、整理,形成適合數據分析的樣式,它是數據分析前必不可少的階段。

45 數據挖掘(Data mining)

數據挖掘是通過使用復雜的模式識別技術,從而找到有意義的模式,并得出大量數據的見解。

46 數據清洗(Data cleansing)

對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。

47 數據質量(Data Quality)

有關確保數據可靠性和實用價值的過程和技術。高質量的數據應該忠實體現其背后的事務進程,并能滿足在運營、決策、規劃中的預期用途。

48 數據建模(Data modelling)

使用數據建模技術來分析數據對象,以此洞悉數據的內在涵義。

49 數據集(Data set)

大量數據的集合。

50 判別分析(Discriminant analysis)

將數據分類,按不同的分類方式,可將數據分配到不同的群組,類別或者目錄。是一種統計分析法,可以對數據中某些群組或集群的已知信息進行分析,并從中獲取分類規則。

51 探索性分析(Exploratory analysis)

在沒有標準的流程或方法的情況下從數據中發掘模式。是一種發掘數據和數據集主要特性的一種方法。

52 機器學習(Machine learning)

人工智能的一部分,指的是機器能夠從它們所完成的任務中進行自我學習,通過長期的累積實現自我改進。

53 網絡分析(Network analysis)

分析網絡或圖論中節點間的關系,即分析網絡中節點間的連接和強度關系。

54 異常值檢測(Outlier detection)

異常值是指嚴重偏離一個數據集或一個數據組合總平均值的對象,該對象與數據集中的其他它相去甚遠,因此,異常值的出現意味著系統發生問題,需要對此另加分析。

55 模式識別(Pattern Recognition)

通過算法來識別數據中的模式,并對同一數據源中的新數據作出預測。

56 預測分析(Predictive analysis)

大數據分析方法中最有價值的一種分析方法,這種方法有助于預測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網站,做某些事情或者產生某種行為。通過使用各種不同的數據集,例如歷史數據,事務數據,社交數據,或者客戶的個人信息數據,來識別風險和機遇。

57 回歸分析(Regression analysis)

確定兩個變量間的依賴關系。這種方法假設兩個變量之間存在單向的因果關系(注:自變量,因變量,二者不可互換)。

58 路徑分析(Routing analysis)

針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優路徑,以達到降低燃料費用,提高效率的目的。

59 情感分析(Sentiment Analysis)

通過算法分析出人們是如何看待某些話題。

60 SQL

在關系型數據庫中,用于檢索數據的一種編程語言。

61 時序分析(Time series analysis)

分析在重復測量時間里獲得的定義良好的數據。分析的數據必須是良好定義的,并且要取自相同時間間隔的連續時間點。

62 文本挖掘(Text Mining)

對包含自然語言的數據的分析。對源數據中詞語和短語進行統計計算,以便用數學術語表達文本結構,之后用傳統數據挖掘技術分析文本結構。

63 可視化(Visualization)

只有正確的可視化,原始數據才可被投入使用。這里的“可視化”并非普通的圖型或餅圖,可視化指是的復雜的圖表,圖表中包含大量的數據信息,但可以被很容易地理解和閱讀。

64 儀表板(Dashboard)

使用算法分析數據,并將結果用圖表方式顯示于儀表板中。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/284460.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/284460.shtml
英文地址,請注明出處:http://en.pswp.cn/news/284460.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

redis 的bitmap 開源包 bitmapist的應用

2019獨角獸企業重金招聘Python工程師標準>>> 原理:http://my.oschina.net/u/1458120/blog/545224 bitmap包:https://github.com/Doist/bitmapist 要求redis> 2.6.0 bitmapist-master.zip 安裝自己下載解壓 python setup.py install &…

Django Views(視圖函數)

http請求中產生兩個核心對象: http請求:HttpRequest對象 http響應:HttpResponse對象 所在位置:django.http 之前我們用到的參數request就是HttpRequest 檢測方法:isinstance(request,HttpRequest) 1 HttpRequest對象…

Android 4 +https(如何啟動TLS1 1 and TLS1 2)

之前用的網絡請求框架是鴻洋的OkHttpUtils,網絡請求在5.0手機上使用https沒有問題,但是最近突然使用了一個4.4的系統,就報錯SSLException ....咋地咋地 然后 我們的副總給我們找一個博客,如何解決4.系統出現的這個問題&#xff0…

massCode 一款優秀的開源代碼片段管理器

本文將介紹一款適合程序員使用的個人代碼片段管理工具 massCode[1]。massCode小時候,也許我們每個人都會被老師要求有一個到處摘錄優美句子段落的作文素材本 —— 采蜜集。不可否認,這對我們的寫作水平的提高確實有很大的幫助。對開發人員來說當然也需要…

【ArcGIS Pro微課1000例】0021:Win10系統ArcGIS Pro3.0.1安裝教程(附ArcGIS Pro下載)

本文講解Win10系統上ArcGIS Pro3.0.1安裝教程,附軟件包下載。 文章目錄 一、 軟件安裝步驟1. 安裝.net Runtime 62. 安裝ArcGIS Pro3. 安裝中文語言4. 刪除代理二、軟件下載地址一、 軟件安裝步驟 [軟件名稱]: ArcGIS Pro 3.0.1 [軟件大小]:4.33GB [安裝環境]: Win 11/Win …

iOS逆向工程——非越獄調試

其實iOS的逆向分析業界已經十分成熟了,網上也有許多有趣的嘗試(一步一步實現iOS微信自動搶紅包(非越獄)。本文著重于如何在非越獄機器上進行調試,出于學習及總結的目的,記錄于此。 本文以破解游戲夢幻西游為例,逐步講解整個調試流…

[轉]2022 Flutter 宣布發布 Windows 正式版

原文鏈接: https://medium.com/flutter/announcing-flutter-for-windows-6979d0d01fed 自從推出 Flutter 以來,我們一直專注于為漂亮的定制應用提供跨平臺解決方案,這些應用被編譯為機器代碼并充分利用設備的底層圖形硬件功能。 今天這一愿景…

電腦經常彈出“不支持的硬件”解決辦法

電腦經常彈出“不支持的硬件”解決辦法。 通過微軟官方查證,這是由于以上處理器需要最新的Windows10系統才會這樣子的,而大多出現該提示的都安裝了Win7或是Win8.1系統。 來至微軟官方的說明 此錯誤出現的原因是各代新處理器要求最新Windows版本以獲得支持。 例如,Windows 1…

使用 Web API 上傳和下載多個文件

原文作者:Jay Krishna Reddy原文鏈接:https://www.c-sharpcorner.com/article/upload-and-download-multiple-files-using-web-api/翻譯:沙漠盡頭的狼(谷歌翻譯加持,文中版本使用.NET 6升級)---正文開始---…

詳解T-SQL的聯接機制

T-SQL的聯接分三種類型: 交叉聯接 ( cross join ) 內部聯接 (inner join) 外部聯接 (outer join) 每種聯接在邏輯上經歷不同的階段,分為笛卡爾乘積、篩選、添加外部行,如圖: 聯接類型 階段 交叉聯接 笛卡兒乘積 內部聯接…

Android FrameWork學習(一)Android 7 0系統源碼下載 編譯

最近計劃著研究下 Android 7.0 的系統源碼,之前也沒做過什么記錄,這次正好將學習的內容記錄下來,方便以后復習鞏固。 既然要學習我們的系統源碼,那我們第一步要做的就是下載源碼并進行編譯了。 #硬件環境要求 ###1. 編譯環境 按照…

【MapGIS精品教程】002:GDB本地數據庫的使用

本文主要內容為MapGISGDB本地數據庫的使用,包括:GDB企業管理器的認識、GDB本地數據庫的創建方法、GDB本地數據庫的備份和恢復。 1. GDB企業管理器的認識 GDB是地理數據的資源管理器,主要對空間數據進行有序組織與管理。 GDB數據管理包括&…

RabbitMQ學習3----運行和管理RabbitMQ

1.服務為管理 Erlang天生就是為了讓應用程序無需知道對方是否存在同一臺機器上即可互相通信。 Erlang節點:Erlang虛擬機的每個實例。多個Erlang應用程序可以運行在同一個節點之上。節點之間可以進行本地通信(不管他們是運行在同一臺服務器之上&#xff0…

各代移動網絡性能

摘自《中國元宇宙白皮書》 下載整書完整版https://www.aliyundrive.com/s/gXQvRLM22kD

EFCore高級Saas系統下單DbContext如何支持不同數據庫的遷移

前言隨著系統的不斷開發和迭代默認的efcore功能十分強大,但是隨著Saas系統的引進efcore基于表字段的多租戶模式已經非常完美了,但是基于數據庫的多租戶也是可以用的,但是也存在缺點,缺點就是沒有辦法支持不同數據庫,mi…

poj 1679: The Unique MST【次小生成樹】

題目鏈接 參考博客 希望注釋足夠清楚。。歡迎指出不足~ #include<cstdio> #include<cstring> #include<algorithm> using namespace std;const int maxn110; const int INF0x3f3f3f3f;int n,m; int mp[maxn][maxn]; int maxlen[maxn][maxn]; //maxlen…

51. Python 數據處理(2)

1.Python 修改excel文件import xlrd import xlutils.copy excelr xlrd.open_workbook("hello.xlsx") excelw xlutils.copy.copy(excelr) sheet1 excelw.get_sheet(0) sheet1.write(3, 5, "xlutils.copy test test") excelw.save("hello.xlsx"…

人工智能十大流行算法

導讀&#xff1a;本文為有志于成為數據科學家或對此感興趣的讀者們介紹最流行的機器學習算法。 作者&#xff1a;Fahim ul Haq 譯者&#xff1a;劉志勇&#xff0c;策劃&#xff1a;趙鈺瑩 來源&#xff1a;InfoQ&#xff08;ID&#xff1a;infoqchina&#xff09; 機器學習是…

Win7+Win10雙系統安裝全攻略

安裝雙系統,不僅能給你非凡的體驗,還可以滿足工作中因系統版本,兼容性,處理器等原因帶來的不便。本文講解Win7+Win10雙系統安裝全攻略,親測可用。 1. 硬盤分區 本文講解利用固態硬盤+機械硬盤的分區方式。 固態硬盤:為了絕對提高系統運行的速度,將固態硬盤作為雙系統的…

[矩形并-掃描線-線段樹]Picture

最近在補數學和幾何&#xff0c;沒啥好寫的&#xff0c;因為已經決定每天至少寫一篇了&#xff0c;今天隨便拿個題水水。 題目大意&#xff1a;給你N個邊平行于坐標軸的矩形&#xff0c;求它們并的周長。(N<5000) 思路&#xff1a;這個數據范圍瞎暴力就過了&#xff0c;但我…