我用AI做數據分析之數據清洗
AI與數據分析的融合效果怎樣?
這里描述自己在使用AI進行數據分析(數據清洗)過程中的幾個小故事:
1. 變量名的翻譯
有一個項目是某醫生自己收集的數據,變量名使用的是中文,分析的時候一般會變化成英文更方便一些,傳統的手段需要查找變量名的中文,然后使用代碼替換原來的列名,不復雜,無奈變量名較多,處理起來還是會花費不少的時間。
這種情況下,我嘗試著將數據表格提交給AI,使用自然語言讓它把“列名翻譯成英文全稱并符合python的命名方式”,效果可以說是非常不錯,返回的新數據表中,正確地給出了符合要求的列名,也很效率。
2. 英文縮寫改全稱
另外一個項目,列名是縮寫,有一些我自己都不知道什么含義,在我沒有詳細提供上下文的情況下,讓AI把縮寫改成英文全稱。
AI也很好地完成了這個工作,并在對話框中解釋了變量名的含義。
3. 糾正錄入錯誤
在另外的一個項目中,部分的變量里面誤錄入了制表符-“\tyes”等,平時不太處理這種情況,一個一個檢查也很繁瑣,所以嘗試使用AI來處理這個問題。與AI交流過程中,我并沒有具體指出是什么樣的錄入錯誤,只說檢查可能的錄入錯誤,AI就能夠將這些錯誤檢查出來并進行糾正。
令人意外的是AI還檢測出一個數值型數據的錄入錯誤,這是沒有專業知識,不容易發現的。
類似的情況,還有在自己收集的一些數據中,錄入不統一的情況,比如有的中文“是”,有的是英文“yes”, 自然語言描述起來很容易,代碼寫起來就很復雜,我覺得AI也可以處理。
以上體驗是基于豆包AI數據分析模塊的體驗,總體來說都屬于語言相關的范疇,感覺是AI可以表現很好的環節,因為AI本身是LLM(大語言模型)。這一部分,嚴格說沒有涉及LLM生成代碼的部分,因為代碼是在AI發現了問題之后,用來修改數據表使用的。
結論是在這一部分上AI的表現是相當合格的。AI的能力在逐步增強,如何改變即有的數據分析流程,讓我們拭目以待,我也會通過一些具體的小例子來向大家描述AI在數據分析過程中的表現。