在這個數據分析項目中,利用Pandas等Python庫對美國2020年7月22日至2020年8月20日期間的超過75萬條捐贈數據進行了深入的探索和分析。通過這一分析,他們揭示了這段時間內美國選民對總統候選人的偏好和捐款情況。以下是對文章中的主要步驟和內容的進一步描述:
-
數據集處理: 作者首先加載候選人信息、候選人和委員會關系、個人捐贈數據等多個數據集。他們使用Pandas庫創建DataFrame對象,并對數據集的列名進行了指定,以確保數據按照預期的格式加載。
-
關聯數據表: 作者通過候選人和委員會關系表,將候選人信息與個人捐贈數據進行關聯。通過候選人和委員會的標識(CMTE_ID和CAND_ID),他們將捐贈數據與候選人的相關信息連接起來,以便后續分析。
-
數據探索和清洗: 在關聯后的數據中,作者進行了一系列的探索性數據分析。他們統計了各州的捐款總額,并使用Matplotlib創建了美國地圖的熱度圖,將各州的捐款情況以不同顏色展示在地圖上,使讀者能夠直觀地了解捐款分布情況。
-
候選人捐贈趨勢分析: 為了深入了解獲得捐贈額最多的三位候選人的捐贈趨勢,作者針對這三位候選人分別計算了每日的捐贈總額。他們使用Matplotlib創建了折線圖,將時間作為橫軸,捐贈金額作為縱軸,以顯示這三位候選人在這段時間內的捐贈變化情況。
-
詞云可視化: 針對獲得捐款額最多的候選人,作者從個人捐贈者的姓名中提取出數據,然后使用WordCloud庫創建了一個詞云圖。該詞云圖以候選人的形象作為背景,將捐贈者