1 分布分析
分布分析能揭示數據的分布特征和分布類型。對于定量數據,欲了解其分布形式是對稱的還是非對稱的,發現某些特大或特小的可疑值,可通過繪制頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進行直觀地分析;對于定性分類數據,可用餅圖和條形圖直觀地顯示分布情況。
1.1 定量數據分布分析
對于定量變量而言,選擇“組數”和“組寬”是做頻率分布分析時最需要考慮的問題。
1.1.1 步驟求極差 max-min
決定組距與組數 組數*組距=極差
決定分點
列出頻率分布表
繪制頻率分布直方圖
1.1.2 原則各組之間必須互斥
各組必須將所有數據包含在內
各組的組寬最后相等
一個數據不能同時屬于兩個組且分點也要包含在內,所以一般都是一致的半閉區間
直方圖繪制
plt.hist(x,y) //x為待繪制直方圖的一維數組,y為分成多少組
//也可以是列表,手動指定分界點
1.2 定性數據的分布分析
對于定性變量,常常根據變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布。
餅狀圖繪制
plt.pie(size)
2 對比分析
適用于指標間的橫縱向比較、時間序列的比較分析(一般都是畫折線圖)。選擇合適的對比標準十分重要。
2.1 形式
2.1.1 絕對數比較
利用現有的數值直接比較,尋找差異。
2.1.2 相對數比較
由兩個有聯系的指標對比計算,用以反映客觀現象之間數量聯系程度的綜合指標。其數值表現為相對數。由于研究目的和對比基礎不同,相對數可以分為以下幾種。
結構相對數
將同一總體內部分數值與全部數值對比求得比重,用以說明事物的性質、結構或質量。如居民視頻支出額占消費支出總額比重、產品合格率。
比例相對數
將同一總體內不同部分的數值進行對比,表明總體內各部分的關系。如人口性別比例、投資與消費比例。
比較相對數
將同一時期兩個性質相同的指標數值進行對比,說明同類現象在不同空間條件下的數量對比關系。如不同地區商品價格對比,不同行業、不同企業間某項指標對比等。
強度相對數
將兩個性質不同但有一定聯系的總量指標進行對比,用以說明現象的強度、密度和普遍程度。如人均國內生產總值用“元/人”表示,人口密度用“人/平方公里”表示,也有用百分數或千分數表示的,如人口出生率用%。表示。
計劃完成程度相對數
是某一時期實際完成數與計劃數的對比,用以說明計劃完成程度。
動態相對數
將同一現象在不同時期的指標數值對比,用以說明發展方向和變化的速度,如發展速度,增長速度等。
3 統計量分析
用統計指標對定量數據進行統計描述,常從集中趨勢和離中趨勢兩個方面進行分析。
3.1 集中趨勢度量
3.1.1 均值
有時為了去掉極端值的影響,會選擇截斷均值(去掉高低極端值的平均數)。
3.1.2 中位數
3.1.3 眾數
3.2 離中趨勢度量
3.2.1 極差
num=max-min
但是忽略了中間數據時的分布情況。
3.2.2 標準差
3.2.3 變異系數
主要用來比較兩個或多個具有不同單位或不同波動幅度的數據集的離中趨勢。
3.2.4 四分位數間距
其值越大,說明數據變異程度越大。
上傳的附件