AI數據分析:用DeepSeek做數據清洗

在當今數據驅動的時代,數據分析已成為企業和個人決策的重要工具。隨著人工智能技術的快速發展,AI 驅動的數據分析工具正在改變我們處理和分析數據的方式。本文將著重介紹如何使用 DeepSeek 進行數據清洗。

數據清洗是數據分析的基礎,其目的是確保數據的準確性、完整性和一致性。常見的數據問題包括:

  1. 缺失值:數據中的某些字段為空。

  2. 重復值:數據中存在重復記錄。

  3. 異常值:數據中存在明顯偏離正常范圍的數值。

  4. 不一致性:數據格式或單位不統一。

如果不進行數據清洗,這些問題會導致分析結果偏差,甚至誤導決策。

以下是一個使用 DeepSeek 清洗銷售數據的實際案例。

假設我們有一個銷售數據表

訂單ID商品ID商品名銷量銷售額(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E1500
1007102商品B8400
1008103商品C251250
1009106商品F00
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1017109商品I00
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G60
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1029107商品G552750
1030108商品H1809000

接下來我們用PromptIDE-提示詞開發工具幫我們生成一個數據清洗的提示詞。

生成的提示詞如下:


# 角色: 
數據分析與數據預處理專家## 背景: 
用戶在處理數據時遇到數據質量問題,需要對數據進行清洗以確保數據的準確性、完整性和一致性,從而為后續的數據分析或機器學習模型訓練提供高質量的數據基礎## 注意:
1、數據清洗是一個復雜且耗時的過程,但它是確保數據質量的關鍵步驟。
2、通過有效的數據清洗,可以顯著提高數據分析的準確性和可靠性。## 技能:
1、熟悉數據清洗的常用技術和工具。
2、具備強大的數據處理和分析能力。
3、能夠識別和處理數據中的異常值和缺失值。
4、能夠設計和實施數據清洗流程。## 目標:
1、識別并處理數據中的異常值。
2、填補或刪除數據中的缺失值。
3、標準化數據格式,確保數據一致性。
4、去除重復數據。
5、驗證數據清洗后的質量。## 約束:
1、確保數據清洗過程不會引入新的錯誤。
2、遵守數據隱私和安全的相關規定。
3、在數據清洗過程中保持數據的原始結構和含義。## 輸出:
1、清洗后的數據應以結構化表格形式輸出。
2、數據清洗報告,包括詳細記錄清洗過程、問題發現及解決方法。
3、建議的進一步數據預處理步驟。## 工作流:
1、接收并分析用戶提供的數據集和清洗規則。
2、識別數據中的異常值和缺失值。
3、根據清洗規則處理異常值和缺失值。
4、標準化數據格式,去除重復數據。
5、驗證數據清洗后的質量,生成清洗報告。## 初始化:
Initialization: 在第一次對話中,請直接輸出以下:歡迎使用數據清洗服務。請提供您需要清洗的數據文件,我將按照數據隱私和安全原則,為您進行高效、透明的數據清洗。您可以上傳數據文件,告訴我您關注的數據質量問題,我將為您提供專業的解決方案。

接下來我們將這個提示詞發給大模型看看效果。

數據清洗報告

1. 數據問題識別

通過初步分析,發現以下數據質量問題:

  1. 重復值:訂單ID為?1029?的記錄出現重復。
  2. 缺失值:訂單ID為?1021?的記錄中,銷售額(元)?缺失。
  3. 異常值
    • 銷量?為 0,但?銷售額(元)?也為 0(訂單ID:1009?和?1017),可能是無效記錄。
    • 銷量?和?銷售額(元)?的比例異常(例如:訂單ID:1006,銷量為 1,銷售額為 500,可能存在輸入錯誤)。

2. 數據清洗過程
2.1 刪除重復值

刪除訂單ID為?1029?的重復記錄。

2.2 填充缺失值

對于訂單ID為?1021?的缺失值,根據商品G的平均單價進行填充:

  • 商品G的銷售額 = 銷量 × 單價
  • 計算商品G的平均單價:(2500 + 2750) / (50 + 60) ≈ 48.18
  • 訂單ID?1021?的銷售額 =?60 × 48.18 ≈ 2891?元

填充后:

訂單ID商品ID商品名銷量銷售額(元)
1021107商品G602891
2.3 標準化異常值處理
  1. 銷量為 0 的記錄

    • 刪除訂單ID為?1009?和?1017?的記錄,因為其銷量和銷售額均為 0,屬于無效數據。
  2. 比例異常記錄

    • 對于訂單ID?1006(銷量為 1,銷售額為 500),根據商品E的平均單價分析:
      • 商品E的平均單價 =?(500 + 100 + 150 + 200) / (1 + 2 + 3 + 4) = 950 / 10 = 95?元
      • 修正訂單ID?1006?的銷售額為?1 × 95 = 95?元。

修正后:

訂單ID商品ID商品名銷量銷售額(元)
1006105商品E195

3. 數據清洗結果

清洗后的數據集如下:

訂單ID商品ID商品名銷量銷售額(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E195
1007102商品B8400
1008103商品C251250
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G602891
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1030108商品H1809000

4. 下一步建議
  1. 數據驗證:對清洗后的數據進行統計分析,確保數據分布合理,無異常值。
  2. 特征工程:如果需要構建機器學習模型,建議進一步對數據進行特征提取和標準化。
  3. 數據監控:建議建立數據質量監控機制,定期檢查數據中的異常情況。


總之,我們借助PromptIDE+deepseek就可以輕松幫我們完成數據清洗了。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/72179.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/72179.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/72179.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

rust學習~tokio的io

await Suspend execution until the result of a Future is ready. 暫停執行,直到一個 Future 的結果就緒。 .awaiting a future will suspend the current function’s execution until the executor has run the future to completion. 對一個 Future 使用 .awa…

騰訊2025年軟件測試面試題

以下是基于騰訊等一線互聯網公司軟件測試崗位的面試趨勢和技術要求,025年出現的軟件測試面試題。這些問題涵蓋了基礎知識、自動化測試、性能測試、安全測試、編程能力等多個方面,供參考和準備。 一、基礎知識 軟件測試的基本概念

數據結構(陳越,何欽銘) 第四講 樹(中)

4.1 二叉搜索樹 4.1.1 二叉搜索樹及查找 Position Find(ElementTyoe X,BinTree BST){if(!BST){return NULL;}if(X>BST->Data){return Find(X,BST->Right)}else if(X<BST->Data){return Find(X,BST->Left)}else{return BST;} } Position IterFind(ElementTyp…

GEE學習筆記 28:基于Google Earth Engine的Landsat8纓帽變換土壤指數反演——亮度、綠度與濕度分量的提取

1.纓帽變換介紹 纓帽變換(Tasseled Cap Transformation,TCT),也稱為纓帽特征空間或纓帽系數,是一種用于遙感圖像分析的線性變換方法。它最初由美國農業部的研究人員E. Kauth和G. Thomas在1976年提出,用于增強陸地衛星(Landsat)圖像中的特定地表特征,如植被、土壤和城市…

【現代Web布局與動畫技術:卡片組件實戰分享】

&#x1f4f1; 現代Web布局與動畫技術&#xff1a;卡片組件實戰分享 &#x1f680; 引言 &#x1f31f; 在過去的開發過程中&#xff0c;我們共同實現了一個功能豐富的卡片組件&#xff0c;它不僅美觀&#xff0c;還具有交互性和響應式設計。這篇文章將分享這個組件背后的技術…

學習路之PHP --TP6異步執行功能 (無需安裝任何框架)

學習路之PHP --異步執行功能 &#xff08;無需安裝任何框架&#xff09; 簡介一、工具類二、調用三、異步任務的操作四、效果&#xff1a; 簡介 執行異步任務是一種很常見的需求&#xff0c;如批量發郵箱&#xff0c;短信等等執行耗時任務時&#xff0c;需要程序異步執行&…

STM32之影子寄存器

預分頻寄存器計數到一半的時候&#xff0c;改變預分頻值&#xff0c;此時不會立即生效&#xff0c;會等到計數完成&#xff0c;再從影子寄存器即預分頻緩沖器里裝載修改的預分頻值。 如上圖&#xff0c;第一行是內部時鐘72M&#xff0c;第二行是時鐘使能&#xff0c;高電平啟動…

Deepseek API接入IDE【VSCode Cline Cursor ChatBox Deepseek deepseek-reasoner】

本文解決以下疑難雜癥: 使用deepseek的最新接模型接入ide 使用deepseek的最新接模型接入vscode 使用deepseek的最新接模型接入vscode中的Cline 使用deepseek的最新接模型接入Cline 使用deepseek的最新接模型接入ChatBox 使用cursor接入Deepseek官方的的deepseek-reasoner…

微信小程序讀取寫入NFC文本,以及NFC直接啟動小程序指定頁面

一、微信小程序讀取NFC文本(yyy優譯小程序實現),網上有很多通過wx.getNFCAdapter方法來監聽讀取NFC卡信息,但怎么處理讀取的message文本比較難找,現用下面方法來實現,同時還解決幾個問題,1、在回調方法中this.setData不更新信息,因為this的指向問題,2、在退出頁面時,…

在Linux桌面上創建Idea啟動快捷方式

1、在桌面新建idea.desktop vim idea.desktop [Desktop Entry] EncodingUTF-8 NameIntelliJ IDEA CommentIntelliJ IDEA Exec/home/software/idea-2021/bin/idea.sh Icon/home/software/idea-2021/bin/idea.svg Terminalfalse TypeApplication CategoriesApplication;Developm…

VUE2生命周期頁面加載順序

使用 Vue CLI 4.5 運行 vue create myvue 創建項目&#xff0c;并通過 npm run serve 運行后&#xff0c;會生成一個標準的 Vue 項目目錄結構。以下是生成目錄的詳細說明&#xff0c;以及運行 localhost:8080 后 Vue 頁面的加載順序。 1. 生成目錄結構 運行 vue create myvue …

SV基礎(一):System Verilog與Verilog核心區別詳解

文章目錄 **1. 設計增強功能****數據類型擴展****接口(Interface)****2. 驗證功能增強****斷言(Assertions)****約束隨機測試****功能覆蓋率****3. 面向對象編程(OOP)****4. 測試平臺(Testbench)改進****5. 語法簡化****6. 其他關鍵區別****學習建議**System Verilog 是…

如何用 Python 進行機器學習

文章目錄 前言1. 環境準備Python安裝選擇Python開發環境安裝必要庫 2. 數據收集與加載3. 數據探索與可視化4. 數據預處理5. 模型選擇與訓練6. 模型評估7. 模型調優8. 模型部署 前言 使用 Python 進行機器學習一般可以按照以下步驟進行&#xff0c;下面將詳細介紹每個步驟及對應…

2021-05-27 C++找出矩陣數組中值最大的元素和它在數組中的位置

緣由各位大佬&#xff0c;這個應該怎么做_編程語言-CSDN問答 void 找出數組中值最大的元素和它在數組中的位置() {//緣由https://ask.csdn.net/questions/7436585?spm1005.2025.3001.5141int a[4][4], aa 0, aaa 0, d 0, x 0;while (aa < 4 && aaa < 4)std…

在 IntelliJ IDEA 中啟動多個注冊到 Nacos 的服務

使用場景&#xff1a;邊改代碼&#xff0c;邊和前端聯調。 在微服務架構中&#xff0c;服務注冊與發現是核心功能之一。Nacos 作為一款流行的開源服務注冊與配置管理工具&#xff0c;被廣泛應用于微服務架構中。本文將介紹如何在 IntelliJ IDEA 中配置并啟動多個注冊到 Nacos …

DeepSeek開源周Day2:DeepEP - 專為 MoE 模型設計的超高效 GPU 通信庫

項目地址&#xff1a;https://github.com/deepseek-ai/DeepEP 開源日歷&#xff1a;2025-02-24起 每日9AM(北京時間)更新&#xff0c;持續五天 (2/5)&#xff01; ? ? 引言 在大模型訓練中&#xff0c;混合專家模型&#xff08;Mixture-of-Experts, MoE&#xff09;因其動…

HTTP學習——————(四)TLS等加密算法

前文學習&#xff1a; 一、二、三 學習來源網站 &#xff1a; 極客時間 TLS 目的&#xff1a;身份驗證、保密性、完整性 解決問題&#xff1a; Record記錄協議——對稱加密 Handshake握手協議———1.驗證通訊雙方身份 2.交換加解密安全套件 3.協商加密參數 有密鑰交換算法…

FastExcel vs EasyExcel vs Apache POI:三者的全面對比分析

一、核心定位與歷史沿革 Apache POI&#xff08;1990s-&#xff09; 作為Java生態中最古老的Excel處理庫&#xff0c;提供對.xls/.xlsx文件的全功能支持。其核心價值在于對Excel規范的完整實現&#xff0c;包括單元格樣式、公式計算、圖表操作等深度功能。但存在內存消耗大&…

辛格迪客戶案例 | 鼎康生物電子合約系統(eSign)項目

01 案例企業 鼎康(武漢)生物醫藥有限公司于2013年06月19日成立 &#xff0c;是一家總部位于湖北武漢的CDMO公司&#xff0c;堅持以客戶為中心&#xff0c;以及時、經濟和高質量為服務導向。鼎康生物擁有先進的150,000平方英尺的生產廠房&#xff0c;生產設施位于中國武漢的Bio…

multer 依賴詳解

multer 是一個用于處理 multipart/form-data 類型表單數據的 Node.js 中間件&#xff0c;主要用于文件上傳。它基于 busboy 構建&#xff0c;使用起來非常方便。 一、安裝 npm install multer 二、基本使用 const express require("express");const multer req…