我用AI做數據分析之數據清洗

AI與數據分析的融合效果怎樣？
這里描述自己在使用AI進行數據分析（數據清洗）過程中的幾個小故事：

1. 變量名的翻譯

有一個項目是某醫生自己收集的數據，變量名使用的是中文，分析的時候一般會變化成英文更方便一些，傳統的手段需要查找變量名的中文，然后使用代碼替換原來的列名，不復雜，無奈變量名較多，處理起來還是會花費不少的時間。

這種情況下，我嘗試著將數據表格提交給AI，使用自然語言讓它把“列名翻譯成英文全稱并符合python的命名方式”，效果可以說是非常不錯，返回的新數據表中，正確地給出了符合要求的列名，也很效率。

2. 英文縮寫改全稱

另外一個項目，列名是縮寫，有一些我自己都不知道什么含義，在我沒有詳細提供上下文的情況下，讓AI把縮寫改成英文全稱。
AI也很好地完成了這個工作，并在對話框中解釋了變量名的含義。
在這里插入圖片描述

3. 糾正錄入錯誤

在另外的一個項目中，部分的變量里面誤錄入了制表符-“\tyes”等，平時不太處理這種情況，一個一個檢查也很繁瑣，所以嘗試使用AI來處理這個問題。與AI交流過程中，我并沒有具體指出是什么樣的錄入錯誤，只說檢查可能的錄入錯誤，AI就能夠將這些錯誤檢查出來并進行糾正。

令人意外的是AI還檢測出一個數值型數據的錄入錯誤，這是沒有專業知識，不容易發現的。

類似的情況，還有在自己收集的一些數據中，錄入不統一的情況，比如有的中文“是”，有的是英文“yes”，自然語言描述起來很容易，代碼寫起來就很復雜，我覺得AI也可以處理。
在這里插入圖片描述
以上體驗是基于豆包AI數據分析模塊的體驗，總體來說都屬于語言相關的范疇，感覺是AI可以表現很好的環節，因為AI本身是LLM（大語言模型）。這一部分，嚴格說沒有涉及LLM生成代碼的部分，因為代碼是在AI發現了問題之后，用來修改數據表使用的。
結論是在這一部分上AI的表現是相當合格的。AI的能力在逐步增強，如何改變即有的數據分析流程，讓我們拭目以待，我也會通過一些具體的小例子來向大家描述AI在數據分析過程中的表現。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/71369.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/71369.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/71369.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！