HCIA-AI人工智能筆記3:數據預處理

統講解數據預處理的核心技術體系,通過Python/Pandas與華為MindSpore雙視角代碼演示,結合特征工程優化實驗,深入解析數據清洗、標準化、增強等關鍵環節。

一、數據預處理技術全景圖

graph TD
A[原始數據] --> B{數據清洗}
B --> B1[缺失值處理]
B --> B2[異常值檢測]
B --> B3[重復值刪除]
A --> C{特征工程}
C --> C1[標準化/歸一化]
C --> C2[離散化分箱]
C --> C3[特征交叉]
A --> D{數據增強}
D --> D1[圖像變換]
D --> D2[文本增強]
D --> D3[SMOTE過采樣]

二、結構化數據預處理實戰

1. 數據清洗技術矩陣

問題類型 | 處理方法 | 華為ModelArts工具鏈
缺失值 | KNN插值/多重填充 | DSW數據清洗工作臺
異常值 | 3σ原則/IQR檢測 | ModelArts異常檢測API
重復值 | 基于主鍵去重 | 分布式Deduplicate算子
Python代碼示例:

import pandas as pd
from sklearn.impute import KNNImputer# 加載華為消費者數據集
data = pd.read_csv('huawei_sales.csv')# KNN缺失值填充(k=3)
imputer = KNNImputer(n_neighbors=3)
data[['age', 'income']] = imputer.fit_transform(data[['age', 'income']])# IQR異常值處理
Q1 = data['sales'].quantile(0.25)
Q3 = data['sales'].quantile(0.75)
data = data[~((data['sales'] < (Q1 - 1.5*IQR)) | (data['sales'] > (Q3 + 1.5*IQR)))]

三、分布式數據預處理優化

1. 昇騰平臺加速方案

# 啟用硬件加速
from mindspore.dataset import config
config.set_enable_shared_mem(False)  # 關閉共享內存提升性能
config.set_numa_enable(True)         # 啟用NUMA優化# 分布式數據加載
dataset = ds.ImageFolderDataset(dataset_dir, num_parallel_workers=16, shuffle=True, num_shards=8, shard_id=rank)

2. 性能對比實驗

在這里插入圖片描述

四、預處理流水線構建

1. 端到端Pipeline示例

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformernum_pipe = Pipeline([('imputer', KNNImputer()),('scaler', StandardScaler())
])cat_pipe = Pipeline([('encoder', TargetEncoder())
])preprocessor = ColumnTransformer([('num', num_pipe, ['age', 'income']),('cat', cat_pipe, ['city'])
])# 華為ModelArts一鍵部署
from modelarts.pipeline import deploy_pipeline
deploy_pipeline(preprocessor, name='sales_preprocessor')

掌握數據預處理技術是構建高質量AI模型的基礎,建議重點實踐:
構建自動化特征工程流水線
實現TB級數據的分布式處理
優化端側推理數據預處理耗時

歡迎在評論區提交您的數據預處理挑戰案例或性能優化方案!
想要快人一步了解更詳細的內容可以搜索“博睿谷”

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/73076.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/73076.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/73076.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

G-Star 校園開發者計劃·黑科大|開源第一課之 Git 入門

萬事開源先修 Git。Git 是當下主流的分布式版本控制工具&#xff0c;在軟件開發、文檔管理等方面用處極大。它能自動記錄文件改動&#xff0c;簡化合并流程&#xff0c;還特別適合多人協作開發。學會 Git&#xff0c;就相當于掌握了一把通往開源世界的鑰匙&#xff0c;以后參與…

MySQL錯誤 “duplicate entry ‘1‘ for key ‘PRIMARY‘“ 解決方案

文章目錄 1. 錯誤原因分析2. 快速解決方法場景1:手動插入重復值場景2:自增主鍵沖突場景3:批量插入沖突3. 長期預防策略4. 高級排查技巧該錯誤通常由主鍵沖突引起,表示嘗試插入或更新的主鍵值已存在于表中。以下是分步排查和解決方法: 1. 錯誤原因分析 主鍵唯一性約束:表…

WEB攻防-PHP反序列化-字符串逃逸

目錄 前置知識 字符串逃逸-減少 字符串逃逸-增多 前置知識 1.PHP 在反序列化時&#xff0c;語法是以 ; 作為字段的分隔&#xff0c;以 } 作為結尾&#xff0c;在結束符}之后的任何內容不會影響反序列化的后的結果 class people{ public $namelili; public $age20; } var_du…

把生產隊的大模型Grok 3 beta用來實現字帖打磨

第一個版本&#xff0c;就是簡單的田字格&#xff0c;Grok 3 beta 思考了15s就得到了html前端代碼&#xff0c;javascript; 然而還不完美&#xff1b; 第二個版本&#xff0c;進一步&#xff0c;通過pinyin項目給漢字加上注音&#xff0c;米字格和四線格&#xff1b;&#xff…

windows+ragflow+deepseek實戰之一excel表查詢

ragflows平臺部署參考文章 Win10系統Docker+DeepSeek+ragflow搭建本地知識庫 ragflow通過python實現參考這篇文章 ragflow通過python實現 文章目錄 背景效果1、準備數據2、創建知識庫3、上傳數據并解析4、新建聊天助理5、測試會話背景 前面已經基于Win10系統Docker+DeepSeek+…

OpenCV圖像處理基礎2

接著上一篇OpenCV圖像處理基礎1繼續說。 圖像閾值處理 1、簡單閾值處理 ret, thresholded_image = cv2.threshold(image, thresh, maxval, cv2.THRESH_BINARY)thresh 是閾值,maxval 是最大值。 2、自適應閾值處理 thresholded_image = cv2.adaptiveThreshold(image, maxv…

go安裝lazydocker

安裝 先安裝go環境 https://blog.csdn.net/Yqha1/article/details/146430281?fromshareblogdetail&sharetypeblogdetail&sharerId146430281&sharereferPC&sharesourceYqha1&sharefromfrom_link 安裝lazydocker go install github.com/jesseduffield/laz…

【架構】單體架構 vs 微服務架構:如何選擇最適合你的技術方案?

文章目錄 ?前言?一、架構設計的本質差異&#x1f31f;1、代碼與數據結構的對比&#x1f31f;2、技術棧的靈活性 ?二、開發與維護的成本博弈&#x1f31f;1、開發效率的階段性差異&#x1f31f;2、維護成本的隱形陷阱 ?三、部署與擴展的實戰策略&#x1f31f;1、部署模式的本…

C#實現分段三次Hermite插值

目錄 一、Hermite插值介紹 1、功能說明 2、數學方法 二、代碼實現 1、CubicHermiteInterpolator類封裝 2、應用示例 三、導數值的獲取方式 1、數學方法介紹 2、代碼應用示例 四、其它封裝的分段三次Hermite插值類 1、方式一 &#xff08;1&#xff09;封裝代碼 &…

重要重要!!fisher矩陣元素有什么含義和原理; Fisher 信息矩陣的形式; 得到fisher矩陣之后怎么使用

fisher矩陣元素有什么含義和原理 目錄 fisher矩陣元素有什么含義和原理一、對角線元素( F i , i F_{i,i} Fi,i?)的含義與原理二、非對角線元素( F i , j F_{i,j} Fi,j?)的含義與原理Fisher 信息矩陣的形式矩陣的寬度有位置權重數量決定1. **模型參數結構決定矩陣維度**2.…

【STM32】uwTick在程序中的作用及用法,并與Delay函數的區別

一、uwTick 的作用 1.系統時間基準 uwTick 是一個全局變量&#xff08;volatile uint32_t&#xff09;&#xff0c;記錄系統啟動后的毫秒級時間累計值。默認情況下&#xff0c;它由 SysTick 定時器每 ?1ms 自動遞增一次&#xff08;通過 HAL_IncTick() 函數。例如&#xff0…

docker速通

docker 鏡像操作搜索鏡像拉取鏡像查看鏡像刪除鏡像 容器操作!查看容器運行容器run命令詳細介紹 啟動容器停止容器重啟容器查看容器狀態查看容器日志刪除容器進入容器 保存鏡像提交保存加載 分享社區登錄命名推送 docker存儲目錄掛載卷映射查看所有容器卷創建容器卷查看容器卷詳…

OpenCV旋轉估計(5)圖像拼接的一個函數waveCorrect()

操作系統&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 編程語言&#xff1a;C11 算法描述 waveCorrect 是OpenCV中用于圖像拼接的一個函數&#xff0c;特別適用于全景圖拼接過程中校正波浪形失真&#xff08;Wave Correction&#xff09…

Python、MATLAB和PPT完成數學建模競賽中的地圖繪制

參加數學建模比賽時&#xff0c;很多題目——諸如統計類、數據挖掘類、環保類、建議類的題目總會涉及到地理相關的情景&#xff0c;往往要求我們制作與地圖相關的可視化內容。如下圖&#xff0c;這是21年亞太賽的那道塞罕壩的題目&#xff0c;期間涉及到溫度、降水和森林覆蓋率…

深入了解 C# 中的 LINQ:功能、語法與應用解析

1. 什么是 LINQ&#xff1f; LINQ&#xff08;Language Integrated Query&#xff0c;語言集成查詢&#xff09;是 C# 和其他 .NET 語言中的一種強大的查詢功能&#xff0c;它允許開發者在語言中直接執行查詢操作。LINQ 使得開發者可以使用 C# 語法&#xff08;或 VB.NET&…

DeepSeek R1 本地部署指南 (3) - 更換本地部署模型 Windows/macOS 通用

0.準備 完成 Windows 或 macOS 安裝&#xff1a; DeepSeek R1 本地部署指南 (1) - Windows 本地部署-CSDN博客 DeepSeek R1 本地部署指南 (2) - macOS 本地部署-CSDN博客 以下內容 Windows 和 macOS 命令執行相同&#xff1a; Windows 管理員啟動&#xff1a;命令提示符 CMD ma…

【總結】Pytest vs Behave,BDD 測試框架哪家強?

引言 在測試驅動開發(TDD)和行為驅動開發(BDD)流行的今天&#xff0c;Pytest和 Behave 成為了 Python 生態中最常見的自動化測試框架。那么&#xff0c;究竟該選擇哪一個&#xff1f;它們各自有哪些優缺點&#xff1f;本篇文章將為你全面解析&#xff01; 1. 什么是 Pytest&a…

k8s中service概述(二)NodePort

NodePort 是 Kubernetes 中一種用于對外暴露服務的 Service 類型。它通過在集群的每個節點上開放一個靜態端口&#xff08;NodePort&#xff09;&#xff0c;使得外部用戶可以通過節點的 IP 地址和該端口訪問集群內部的服務。以下是關于 NodePort Service 的詳細說明&#xff1…

HTML5 Video標簽詳細教程

HTML5 Video標簽詳細教程 簡介 HTML5引入的<video>標簽為網頁提供了原生視頻播放功能&#xff0c;無需依賴Flash等第三方插件。它使得在網頁中嵌入和控制視頻內容變得簡單而強大。本教程將詳細介紹<video>標簽的使用方法、屬性、事件以及相關技術。 基本用法 最…

Linux系統崩潰破案實錄

現代計算環境中&#xff0c;系統的穩定性和可靠性至關重要。然而&#xff0c;即使是最優化的系統也可能會由于硬件故障、軟件漏洞或配置錯誤而崩潰。為了解決這一問題&#xff0c;Linux系統提供了強大的內核崩潰轉儲機制&#xff0c;本文介紹如何收集和分析崩潰日志&#xff0c…