一、結論:可在部分環節嵌入,無法直接處理大量數據
1.非本地部署的AI應用處理非機密文件沒問題,內部文件要注意數據安全風險。
2.AI(指高規格大模型)十分適合探索性研究分析,對復雜報告無法全流程執行,主要應用于快速搭建分析框架輔助人工分析,例如:提供背景需求→生成分析大綱(人工修訂)→根據大綱統計各維度數據(人工執行:提供統計模板→生成統計腳本/AI執行:直接統計源數據需注意驗證)→數據解讀(人工修訂)。
3.AI不完全適合固定模版的統計分析,對復雜模板的生成穩定性不足,大模型對同一指令的多次輸出都會有偏差,在復雜的清洗環節有一定可行性,無法全流程執行。對簡單模板的生成算力消耗高、性價比對于傳統自動化程序而言不高,但在非本地化部署、非自主開發的情況下,某些場景使用各大模型商的產品或許能達到不錯的效果。
4.目前體驗有潛力的適合非技術人員使用的工具是WPS AI,對標OFFICE 365+Copilot?非廣告,先說結論:難以適應實戰(= 。=),優點是集成對WPS接口的調用,可直接操作文檔和表格,相比各網頁版大模型上傳EXCEL后進行問答分析,或輸出公式、腳本,省去了間接學習操作和復制粘貼的步驟。缺點是還比較弱智。
5.大模型分析(含清洗、統計、解讀)表格數據主要有三種模式,一是提供方法教學(模擬專家,只教不做),自己再去用別的工具來實現(比如教你用Excel和Python)。二是用大模型的原生能力(直接做),本質是把數據降維,類似轉換文本向量,相當于長文檔總結,但因大模型幻覺、未在垂直領域微調、源數據未清洗等,不能保障分析質量,且對用戶的prompt工程能力要求也較高。三是自動執行腳本(Agent,集成其他工具的工作流),類似WPS AI,理解用戶需求后生成清洗、統計和可視化腳本,在底層調用插件(解釋器)執行代碼,再將結果返回頁面展示,好處是數據清洗和統計是準確的,大模型主要負責設計分析思路和對統計結果進行解讀。個人可按情況選用,企業級開發應按Agent方向。
二、數據分析流程替代率預估
分析大綱設計(30%至60%,AI提供分析思路、制定報告大綱,但初級分析師不主動思考可能會過于依賴AI)
→采集(3%至10%,絕大部分結構化數據還是需要定制爬蟲程序,但如“近十年XX產業重點企業清單”這類需求可用AI聯網搜索,或者是去收集需要爬的目標網站)
→清洗(5%至30%,規則較模糊、傳統程序處理精度不高的用AI效果會好一點,例如:對大段口水話描述文本進行分類、提取)
→統計(10%至30%,適合非技術人員使用,對具備技術基礎的分析人員而言,清洗質量高的數據用python統計有顯著的速度優勢)
→分析解讀(10%至30%,對已經統計好的數據進行解讀,表述上優于初級分析師,對源數據直接分析也可提供總結框架)
→各類交付形式(10%至30%,穩定輸出有難度,還需人力修正,若需求方對格式模板無嚴格要求就比較好用)
三、主要難題
1.基于數據安全,理論上不應將內部業務數據上傳給非本地AI進行分析。
解決方向:(非要上傳的話)脫敏用密文表示分析對象,上傳AI分析輸出后再轉換回來?更復雜的體系,如結合隱私計算有一定技術門檻。或勇敢相信各大模型商的安全協議?
2.個人現有條件下本地部署大模型性能表現不及官方API。
解決方向:emmm調優?分析師不必在這上面硬磕,交給研發團隊吧,讓老板買服務器吧。
3.簡單的模擬數據處理效果尚可,暫無法適應復雜的真實分析任務,審核成本高,計算精度、輸出穩定性、流程可驗證性不足,長期使用可能哪天出錯了也發現不了,因為AI最擅長的就是一本正經的胡說八道。把AI比作實習生,它可能要很久才能轉正(隨著技術進步也可能很快),總是不能放心直接使用它輸出的東西。
解決方向:長期試驗調優。
四、WPS AI數據分析體驗案例
AI表格助手:理解需求后通過自動生成執行js宏來直接操作表格,更方便快捷,適合清洗和格式整理。
AI數據分析:理解需求后通過自動生成執行python來間接操作表格,銜接不夠流暢,只能做清洗和統計,不利于格式整理。
上述功能均需拆解分析流程,通過多輪指令逐步引導AI執行才能有較好效果,“一句話指令”分析不夠智能。指定細節和等待響應的時間成本較高,對精通Excel和Python的分析師而言比較雞肋,但這種模式還算是未來可期吧。測試示例如下: