做數據分析為何要學統計學(5)——什么問題適合使用卡方檢驗?

卡方檢驗作為一種非常著名的非參數檢驗方法(不受總體分布因素的限制),在工程試驗、臨床試驗、社會調查等領域被廣泛應用。但是也正是因為使用的便捷性,造成時常被誤用。本文參閱相關的文獻,對卡方檢驗的適用性進行粗淺的論述。

首先,從技術角度來看,(1)卡方檢驗的樣本涉及的因素(也就是變量)需要兩個(含)以上,而且是定性變量(分類變量,定類變量),其值可以是數字,也可以符號,但是即使是數字也不具備數量的含義,只是用于區分。比如性別變量,它的值可以是男或女,也可以是0或1,A或B;(2)其樣本數據是由多個因素在不同水平(取值)情況下共同決定的數據,直觀上表現為列聯表(交互分類表,交叉表),形如下表。

某項產品的地區調查(人)
北京上海
滿意600480
一般120150
不滿意8070

上表涉及的因素(變量)有兩個,分別是地區和滿意度,其值分別是[北京,上海]和[滿意,一般,不滿意]。而樣本是由兩個變量的不同取值作用下的統計數據,可以是總和,也可以是平均數,或者其他統計量。

其次,從應用的角度來看,我們的目的是要進行無差異推斷,或者不相關推斷(無差異等價于不相關)。比如上述問題可以回答北京、上海兩地對該產品的滿意度是否無差異,或者說對該產品的滿意度是否與上述地區不相關。通過即調用卡方檢驗函數,獲得p=0.00472,在顯著性水平0.05下,兩地滿意度無差異(或與地區不相關)的假設被拒絕。于是我們可以認為“兩地對某產品的滿意度是有差異的”或“某產品的滿意度與地區有相關性”。代碼如下:

#chi2_contingency是卡方檢驗函數
from scipy.stats import chi2_contingency
import numpy as np
#定義樣本數據
X= np.array([[600,120,80],[480,150,70]])
chi2_contingency(X)
結果:(10.714285714285714, 0.004714356473549276, 2, array([[576., 144.,  80.],[504., 126.,  70.]]))。這些數值分別為卡方值、p值、自由度和理論值。

還有一種特殊情況,就是樣本數據只有一組,也就是說表面上看因素只有一個,這種情況實際是進行“試驗值(實際值,經驗值)與理論值的無差異”推斷。如下例:

進行拋硬幣試驗,進行七輪,每輪拋20次,數據如下表所示。是否可以認為硬幣正面與反面(只有這兩種情況)朝上的概率相同。

硬幣正面向上的頻數
第一輪第二輪第三輪第四輪第五輪第六輪第七輪
812107989

乍一看,此樣本只有一組數據,而結合要解答的問題,實際上還有一組數據,即理論值。該理論值是等概率條件下硬幣正面向上的次數,也就是每輪都是10。于是樣本就變成了

硬幣正面向上的頻數
第一輪第二輪第三輪第四輪第五輪第六輪第七輪
812107989
10101010101010

通過將上述樣本數據帶入卡方檢驗函數,p=0.98928。即在顯著性水平0.05下,我們接受“硬幣正面與反面朝上的概率相同”這一假設。

再來看一個例子,某餐廳對一年內每周內每天的營業額進行統計(均值),看看營業情況是否存在時間方面的差異,數據如下。

一周的營業額統計(萬元)

周一周二周三周四周五周六周日
9116781510

該問題同樣是一種“試驗值(實際值,經驗值)與理論值的無差異”推斷問題。只不過理論值的與上例不同。如果我們認為營業額與時間無關,也就意味的每天營業額是相同的,于是理論值將由每天營業額的均值來體現。即樣本數據為:

一周的營業額統計(萬元)

周一周二周三周四周五周六周日
9116781510
9.429.429.429.429.429.429.42

通過將上述樣本數據帶入卡方檢驗函數,p=0.85073。即在顯著性水平0.05下,我們接受“營業額不存在時間方面的差異”這一假設。盡管從表面來看,該結果不太容易被接受,似乎周末營業情況更好,但是放眼總體(更長的時間范圍),并不能支持直觀感受。

***********************接下來劃重點,舉一個非常有代表性的誤用卡方檢驗的例子***************

某調查機構調查了不同收入水平話費支出的情況,試圖分析收入水平是否與話費支出水平相關。數據如下

收入

3000

4000500060007000800010000
話費90100150180200300400

然后對兩組數據進行了卡方檢驗,p=0.000006。結論:拒絕兩者不相關的假設。也就是說收入水平與話費支出水平是相關的。從結果來看是沒有問題的,兩組數據確實是顯著正相關的,其皮爾遜相關系數corr=0.9758。但是從樣本數據本身來看,不符合使用卡方檢驗的適用條件。因為:

(1)收入和話費兩個因素不是定性變量,而是定量變量。

(2)樣本值也不是兩個因素共同確定的數值,而是歸屬于每個因素本身。

對于此類問題使用相關系數才是合理的。

如果上述調查結果改為不同收入水平和話費支出水平下的用戶數量,則可以應用卡方檢驗。比如數據轉換為

30004000500060007000800010000
<=90853024718123
90-100710011291295
100-150152075141068
150-2005459019161
200-250698350113
250-300316151415806
>30029419132090

使用卡方檢驗后1.12896*10^{-300}<0.05,于是我們可以拒絕收入水平與話費支出水平不相關的假設,也就是說收入水平會影響(或決定)話費支出水平。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/215717.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/215717.shtml
英文地址,請注明出處:http://en.pswp.cn/news/215717.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

原來使用代碼也可以畫時序圖,用這個Mermaid就行,真香

本文首發于我的個人掘金博客&#xff0c;看到很多人都比較喜歡這篇文章&#xff0c;分享給大家。 個人博客主頁&#xff1a;https://www.aijavapro.cn 個人掘金主頁&#xff1a;juejin.cn/user/2359988032644541/posts 個人知識星球: 覺醒的新世界程序員 一、背景 在軟件開發和…

spring數據校驗

我是南城余&#xff01;阿里云開發者平臺專家博士證書獲得者&#xff01; 歡迎關注我的博客&#xff01;一同成長&#xff01; 一名從事運維開發的worker&#xff0c;記錄分享學習。 專注于AI&#xff0c;運維開發&#xff0c;windows Linux 系統領域的分享&#xff01; 本…

數據庫(一)| 數據庫概述、基本概念、關系型數據庫特點、超鍵候選碼等

文章目錄 1 數據庫的一些基礎概念1.1 數據庫和數據庫管理系統1.2 關系模式和關系實例1.3 數據庫模式和數據庫實例 2 數據庫組織形式2.1 數據采用文件的缺點2.2 使用數據庫管理系統的 優點 3 關系型數據庫特點4 三個層次的數據抽象Data Abstraction5 超鍵、候選碼、主碼、外碼 1…

php之jwt使用

PHP JWT&#xff08;JSON Web Token&#xff09;是一種用于身份驗證和授權的開放標準。JWT是一個包含有關用戶或實體身份信息的安全令牌&#xff0c;它由三部分組成&#xff1a;頭部&#xff08;Header&#xff09;、載荷&#xff08;Payload&#xff09;和簽名&#xff08;Sig…

計算機網絡編程

網絡編程 Java 是第一大編程語言和開發平臺。它有助于企業降低成本、縮短開發周期、推動創新以及改善應用服務。如今全球有數百萬開發人員運行著超過 51 億個 Java 虛擬機&#xff0c; Java 仍是企業和開發人員的首選開發平臺。 課程內容的介紹 1. 計算機網絡基礎 2. So…

數據結構基礎介紹

一.起源及重要性 1968 年&#xff0c;美國的高德納 Donakl E . Kn uth 教授在其所寫的《 計算機程序藝術》第一卷《基本算法 》 中&#xff0c;較系統地闡述了數據的邏輯結構和存儲結構及其操作&#xff0c; 開創了數據結構的課程體系 &#xff0c;數據結構作為一門獨立的…

B029-JDBC增強

目錄 PreparedStatement 查詢1.sql注入2.Statement分析 (面試題)3.PreparedStatement (面試題) 登錄功能的完善事務鏈接池概念實現DBCP連接池實現第一種配置方式第二種配置方式 返回主鍵BaseDao的抽取 PreparedStatement 查詢 1.sql注入 就是在sql的字符串拼接的時候&#xf…

基于單片機的定時插座在智能家居中的應用

近年來&#xff0c;隨著科學技術的發展迅速&#xff0c;人們對智能化的要求越來越高。越來越多的智能化產品進入千家萬戶&#xff0c;如電腦電視、掃地機器人、智能空氣凈化器等。這些家居電器和電子產品大都需要連接電源&#xff0c;為滿足多種用電器的正常使用&#xff0c;延…

DevEco Studio 生成HPK文件

DevEco Studio 生成HPK文件 一、安裝環境 操作系統: Windows 10 專業版 IDE:DevEco Studio 3.1 SDK:HarmonyOS 3.1 二、生成HPK文件 生成的HPK文件存放在entry文件夾下。下圖是未生成HPK的樣式。 生成HPK&#xff1a;菜單Build->Build Hap(s)/APP(s)->Build Hap(s)…

啟動jar包命令

一、Windows環境 找到jar包的位置&#xff1b; 按shift鍵&#xff0c;點擊鼠標右鍵&#xff0c;選中在此處打開PowerShell窗口&#xff1b; 此時進入命令行工具 輸入java -jar .\java_web-0.0.1-SNAPSHOT.jar&#xff08;注意空格&#xff09;。 二、Linux環境 2.1 方式一 …

039.Python面向對象_三大特性綜合案例2

我 的 個 人 主 頁&#xff1a;&#x1f449;&#x1f449; 失心瘋的個人主頁 &#x1f448;&#x1f448; 入 門 教 程 推 薦 &#xff1a;&#x1f449;&#x1f449; Python零基礎入門教程合集 &#x1f448;&#x1f448; 虛 擬 環 境 搭 建 &#xff1a;&#x1f449;&…

一、微前端目標、前端架構的前生今世、微前端架構優勢和劣勢、軟件設計原則與分層

1、目標 2、前端架構的前世今生 ① 初始&#xff1a;無架構&#xff0c;前端代碼內嵌到后端應用中 ② 后端 MVC 架構&#xff1a;將視圖層、數據層、控制層做分離 缺點&#xff1a;重度依賴開發環境&#xff0c;代碼混淆嚴重&#xff08;在調試時&#xff0c;需要啟動后端所有…

小型洗衣機哪個牌子質量好?迷你洗衣機排名前十名

隨著內衣洗衣機的流行&#xff0c;很多小伙伴在糾結該不該入手一款內衣洗衣機&#xff0c;專門來洗一些貼身衣物&#xff0c;答案是非常有必要的&#xff0c;因為我們現在市面上的大型洗衣機只能做清潔&#xff0c;無法對我們的貼身衣物進行一個高強度的清潔&#xff0c;而小小…

【CCF BDCI 2023】多模態多方對話場景下的發言人識別 Baseline 0.71 NLP 部分

【CCF BDCI 2023】多模態多方對話場景下的發言人識別 Baseline 0.71 NLP 部分 概述NLP 簡介文本處理詞嵌入上下文理解 文本數據加載to_device 函數構造數據加載樣本數量 len獲取樣本 getitem 分詞構造函數調用函數輪次嵌入 RobertaRoberta 創新點NSP (Next Sentence Prediction…

23種設計模式之裝飾者模式(被裝飾者,接口層,裝飾抽象層,具體裝飾者)

23種設計模式之裝飾者模式 文章目錄 23種設計模式之裝飾者模式設計思想裝飾者模式的優點裝飾者模式的缺點裝飾者模式的優化方法UML 解析預設場景 代碼釋義總結 設計思想 原文:裝飾器模式&#xff08;Decorator Pattern&#xff09;允許向一個現有的對象添加新的功能&#xff0…

應用在LED燈光控制觸摸屏中的觸摸芯片

LED燈光控制觸摸屏方法&#xff0c;包括&#xff1a;建立觸摸屏的觸摸軌跡信息與LED燈光驅動程序的映射關系&#xff1b;檢測用戶施加在觸摸屏上的觸摸軌跡&#xff0c;生成觸摸軌跡信息&#xff1b;根據生成的觸摸軌跡信息&#xff0c;調用對應的LED燈光驅動程序&#xff0c;控…

HJ14 字符串排序

一、題目 描述 給定 n 個字符串&#xff0c;請對 n 個字符串按照字典序排列。數據范圍&#xff1a; 1 \le n \le 1000 \1≤n≤1000 &#xff0c;字符串長度滿足 1 \le len \le 100 \1≤len≤100 輸入描述&#xff1a; 輸入第一行為一個正整數n(1≤n≤1000),下面n行為n個字符…

智能優化算法應用:基于頭腦風暴算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼

智能優化算法應用&#xff1a;基于頭腦風暴算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼 文章目錄 智能優化算法應用&#xff1a;基于頭腦風暴算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼1.無線傳感網絡節點模型2.覆蓋數學模型及分析3.頭腦風暴算法4.實驗參數設定5.算法結果6.…

說說React中的虛擬dom?在虛擬dom計算的時候diff和key之間有什么關系?

虛擬 DOM&#xff08;Virtual DOM&#xff09;是 React 中的一種機制&#xff0c;通過在內存中構建一棵輕量級的虛擬 DOM 樹來代替操作瀏覽器 DOM&#xff0c;從而提高組件的渲染性能和用戶體驗。 在 React 中&#xff0c;當組件的 Props 或 State 發生變化時&#xff0c;Reac…

智能優化算法應用:基于蝙蝠算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼

智能優化算法應用&#xff1a;基于蝙蝠算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼 文章目錄 智能優化算法應用&#xff1a;基于蝙蝠算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼1.無線傳感網絡節點模型2.覆蓋數學模型及分析3.蝙蝠算法4.實驗參數設定5.算法結果6.參考文獻7.MA…