【數據分析五:Feature Engineering】特征工程

一、特征工程定義

在數據預處理以后(或者數據預處理過程中),如何從數據中提取有效的特征,使這些特征能夠盡可能的表達原始數據中的信息,使得后續建立的數據模型能達到更好的效果,就是特征工程所要做的工作。

特征越好,靈活性越強
特征越好,構建的模型越簡單
特征越好,模型的性能越出色

二、設計特征的方法

獨熱特征表示 One-hot Representation

將每個屬性表示成一個很長的向量(每維代表一個屬性值,如詞語)

函數:[0, 0, 1, 0, 0, …, 0, 0, 0, 0]

圖像:[0, 0, 0, 0, 0, …, 0, 0, 0, 1]

優點:直觀,簡潔

缺陷:

????????“維度災難” 問題:尤其是我們所構建的語料庫包含的詞語數據非常多的時候,獨熱表征在空間和時間上的開銷都是十分巨大的

????????“語義鴻溝” 現象:任意兩個詞之間都是完全孤立的,是無法刻畫句子中詞語的語序信息的(之前提到的詞袋模型也是如此)。例如,我們是無法通過獨熱表征來判斷“函數”與“偶函數”之間的聯系的(但實際上這兩個詞語是非常相關的)。

TF-IDF(詞頻-逆文檔率)

????????算法簡單高效,工業界用于最開始的數據預處理

????????主要思想:找到能代表該文檔中的“關鍵詞”

詞頻 (TF, Term Frequency)

????????TF = 某個詞(特征值)在句子(數據)中出現的頻率

逆文檔率 (IDF, Inverse Document Frequency)

????????IDF = log(語料庫(數據庫)的句子(數據)總數)?/ 包含該詞(特征值)的句子(數據)總數)

每個特征值(詞)的重要性

?w_{ij}= tf\times idf = TF_{ij}\times \log(N/DF_i )

舉個直觀例子:

很多推薦系統都使用該方法,根據用戶搜索的信息內容,計算詞頻等,來推薦相關的信息

三、利用標準數據集進行特征學習(特征預訓練)

作用:模型效果驗證 & 應用問題中的模型預訓練

圖像數據預訓練:ImageNet

ImageNethttp://www.image-net.org/

????????????????1400萬張圖片數據,2萬類別,已標注

????????????????常用模型:ResNet,AlexNet,VGG等

????????????????常見應用:圖像分類、目標檢測、目標定位,場景分類等

文本數據預訓練:Twitter,Wiki

GloVe: Global Vectors for Word RepresentationGloVe: Global Vectors for Word Representationhttps://nlp.stanford.edu/projects/glove/

????????????????2 Billon tweets, 27 Billion 詞數,1.2M 詞表

????????????????常用模型:CBOW,Skip-gram,Glove等Word2Vec模型

????????????????常見應用:文本分類,文本推理,翻譯等

?

訓練好的特征可以直接作為其他模型的輸入來使用


筆者時間問題,還是不把課程內容之外的特征工程評價這一塊拿上來。因為其中涉及損失函數(傳統特征工程)、CNN、RNN(深度學習)等方法,可以去有關機器學習、深度學習的課程,或者西瓜書、花書一類的經典教輔學習!

下一講又是全新的章節!加油!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/85506.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/85506.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/85506.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

標桿確立!永洪科技位于IDC報告Data Analytics領域象限排頭位!

近日,全球知名市場研究機構IDC發布的《數據管理分析與生成式AI發展趨勢及最佳實踐》報告,為正處于數字化轉型深水區的企業描繪了清晰的技術演進藍圖。在這幅權威繪制的產業圖譜中,“Data Analytics”(數據分析)作為連接…

啟動tomcat控制臺日志出現亂碼

當我們啟動tomcat控制臺日志出現亂碼怎么辦? 解決方案: 在tomcat根目錄中config文件夾下將log.properties文件中將默認控制臺日志輸出編碼UTF修改成GBK或者GB2312都可以。 java.util.logging.ConsoleHandler.encoding UTF-8 修改為: j…

【橘子的AI | 每日一課】Day4!機器學習 (ML) 基礎

機器學習 (ML) 基礎介紹 一、機器學習的定義 從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數據,訓練出模型,然后使用模型預測的…

【C語言】藥店藥品管理系統 -丨完整源碼與實現解析

系統概述 這是一個功能完善的藥店藥品管理系統,使用C語言開發,基于鏈表數據結構實現。系統提供藥品信息的增刪改查、排序和持久化存儲功能,適用于藥店日常藥品管理工作。 數據結構設計 #define MAX_NAME_LEN 50 #define MAX_ID_LEN 20 #de…

sass-loader與webpack版本沖突解決方案

#npm i 錯誤解決記錄# 最開始錯誤 :拉取代碼,增加依賴時,報錯 問題: 在安裝sass-loader10.1.1時,發現與現有的webpack版本有沖突。 當前項目已經安裝了webpack4.28.4(通過peer dependency requirements f…

常見誤區解讀之三:超融合只適合外圍/輕量業務場景,無法承載數據庫等關鍵業務?

作者:SmartX 金融團隊 祝志剛 在前兩期“超融合常見誤區解讀”中,我們分別解讀了如何以超融合建云并進行大規模部署。而對于生產業務場景,部分行業用戶和業界人士可能還會有這樣的認知: “超融合管理簡單、成本也低,…

Kafka重平衡機制深度解析:原理、觸發條件與應對策略

引言 在Kafka分布式消息系統中,重平衡(Rebalance)是一個至關重要的機制,它確保消費者組中的各個消費者實例能夠公平地分擔主題分區的消費任務。然而,重平衡過程也可能帶來短暫的消費停頓和性能波動,處理不…

使用 Docker Compose 安裝 Milvus(單機版)

1. 創建專用目錄并進入 mkdir milvus-standalone && cd milvus-standalone 2. 下載 docker-compose.yml 文件 使用官方提供的配置文件(以 Milvus v2.3.3 為例): wget https://github.com/milvus-io/milvus/releases/download/v2.3…

【MySQL篇05】:事務的 ACID 性(數據庫原理篇)

文章目錄 一、事務的ACID特性二、數據庫原理例題與 ACID 特性判斷三、拓展(undolog 與 redolog) 一、事務的ACID特性 綜述: 原子性(Atomicity):事務是不可分割的最小操作單元,要么全部成功&…

crawl4ai 框架的入門講解和實戰指南——基于Python的智能爬蟲框架,集成AI(如NLP/OCR)實現自動化數據采集與處理

一、crawl4ai 框架簡介 1. 框架定位 核心功能:基于Python的智能爬蟲框架,集成AI(如NLP/OCR)實現自動化數據采集與處理 關鍵特性: 零配置快速啟動(自動識別網頁結構) 內置反反爬機制&#xff…

受夠垃圾翻譯!CodeBuddy 8 分鐘造神器,劃詞秒翻 + 自動適配所有網頁

本文所使用的 CodeBuddy 免費下載鏈接:騰訊云代碼助手 CodeBuddy - AI 時代的智能編程伙伴 前言 作為一個天天泡在 GitHub 上扒項目的人,翻譯問題簡直是我 “挖寶” 路上的頭號絆腳石!想研究國外大神的優質開源項目,不是被機翻軟…

零基礎設計模式——總結與進階 - 2. 反模式

第五部分:總結與進階 - 2. 反模式 (Anti-Patterns) 在軟件開發中,我們追求良好的設計模式以構建健壯、可維護的系統。然而,同樣存在一些常見的、導致不良后果的解決方案,這些被稱為“反模式”。理解反模式,可以幫助我…

音視頻流媒體高級開發-學習路線

原文作者:Linux 原文鏈接:音視頻流媒體高級開發-學習路線 如果你想往音視頻方向發展,那么本文一定要認真閱讀~ 大家都知道音視頻開發薪資高、門檻高、發展空間大,心里蠢蠢欲動,卻不知道怎么入門,怎么進階…

LINUX 通過rsync同步 免密備份

1,增加免密碼用戶密碼 useradd backup echo "5566777" | passwd --stdin backup echo "backup ALL(ALL) ALL" >> /etc/sudoers # 源服務器操作 ssh client_usersource_server ssh-keygen -t rsa # 一路回車 ssh-copy-id serv…

在使用 HTML5 的 <video> 標簽嵌入視頻時,有時會遇到無法播放 MP4 文件的問題

原因分析: 只能播放聲音,卻無法播放視頻。這通常是由于視頻編碼格式不兼容導致的。雖然 MP4 是一種常見的視頻格式,但它包含多種編碼方式,并非所有編碼方式都受 HTML5 支持。 解決方案: 確認視頻編碼格式: …

【bugfix】記一次Spring Boot 配置層級錯誤導致數據庫連接失敗

前言:為什么你的數據庫配置讀不到? 在 Spring Boot 項目中,配置文件的層級(prefix) 是決定屬性能否被正確解析的核心因素。一個看似微小的縮進錯誤,可能導致整個應用的數據庫連接失敗、服務啟動異常&#…

wpf 隊列(Queue)在視覺樹迭代查找中的作用分析

文章目錄 隊列(Queue)在視覺樹迭代查找中的作用分析示例代碼一、隊列的核心作用1. 替代遞歸的迭代機制2. 實現廣度優先搜索(BFS) 二、隊列的工作流程1. 初始化階段2. 處理循環 三、隊列操作的詳細步驟查找過程分解: 四、為什么使用隊列而不是其他數據結構1. 與棧(St…

快手數據開發面試SQL題:取窗口內排名第一和排名倒數第一的作為兩個字段輸出

目錄 問題描述 樣例數據表 sales 解決方案 第三步:使用條件聚合將多行合并為單行輸出" 步驟1:計算排名的中間結果 中間結果輸出: 步驟2:最終查詢(處理并列情況) 最終輸出結果: 關鍵點解釋: RANK() OVER (PARTITION BY group_id ORDER BY amount DESC):…

第十六屆藍橋杯國賽(2025)C/C++B組 藍橋星數字 獨家解析

這題我中午是12點以后開始做的,只剩下1個小時了,12點50的時候完成了框架,但是細節總是實現不對,現在晚上來復盤的時候才把這題A出來了。 但是,就像高考的導數你整個思路都會,你死在了求導上。。。&#xf…

Google 的 Protocol Buffers 介紹

Protocol Buffers(簡稱 Protobuf)是由 Google 開發的一種高效、靈活、跨語言的數據序列化協議,廣泛用于網絡通信、分布式系統、持久化存儲等場景。 一、什么是 Protocol Buffers? Protocol Buffers 是一種結構化的數據交換格式,類似于 XML 和 JSON,但更小、更快、更簡單…