1、自然語言處理任務全流程

自然語言處理黃金九步法,葵花寶典,請珍藏心間

目錄

需求分析:問題定義

1.文本分類任務

2.序列標注任務

3.文本生成任務

4.文本理解任務

5.信息抽取任務

6.文本匹配任務

7.多模態任務

一、數據獲取

1、發現可用數據集

2、常用的數據集

3、哪里去尋找數據集

4、數據集成

5、生成數據

6、網絡爬蟲

7、數據標注

二、數據探索(Exploratory Data Analysis,EDA)

三、數據清理與預處理

四、分割數據集

五、特征工程

六、建模

七、評估

八、推理

任務的工時占比


需求分析:問題定義

問題定義決定了整個項目的成敗

1.文本分類任務

Text Classification Text Categorization TC

? 1.情感分析應用場景

  • ? 情感分析廣泛應用于電商領域,通過分析用戶評論幫助企業了解產品口碑。在社交媒體上,情感? ?分析可監測品牌聲譽,為品牌策略調整提供數據支持。

? ? 2.主題分析應用場景

  • ? 通過主題分類管理海量文檔,提供查詢效率

2.序列標注任務

  • ? 命名實體識別NER

3.文本生成任務

Nature Language Generation NLG

  • ? 文本生成代碼

  • ? 機器翻譯

  • ? ?自動摘要

4.文本理解任務

Natural Language Understanding NLU

  • 閱讀理解
  • 自然語言推理任務 NLI

5.信息抽取任務

Information Extraction IE

  • 關系抽取
  • 事件抽取

6.文本匹配任務

text matching

  • 語義相似度計算

7.多模態任務

  • 圖像描述生成

一、數據獲取

人工智能是一門數據驅動的科學,數據決定我們能把這件事做的多好!

1、發現可用數據集

  • 尋找已有的數據集
    • 使用 benchmark 數據集來快速評估我們的想法
      • 使用多個小型或者中型數據集去進行超參的調整
      • 對于深度學習的模型使用超大規模的數據
  • 收集新數據

2、常用的數據集

根據不同任務,常用的數據集如下

3、哪里去尋找數據集

https://datasetsearch.research.google.com/

The latest in Machine Learning | Papers With Code

Open Data on AWS

Kaggle: Your Machine Learning and Data Science Community

4、數據集成

  • 把多個數據源的數據結合到一個數據存儲中
  • 生成數據一般分散的存儲在不同的數據表中
    • 比如:一張表存儲房屋數據,一張表存儲銷售記錄,一張表列出中介
  • Join 數據表

5、生成數據

  • GAN
  • 數據增強

6、網絡爬蟲

7、數據標注

  • 使用數據標注平臺標注數據

label-studiohttps://github.com/heartexlabs/label-studio

  • 眾包團隊推薦:
    • 數據堂DATATANG
    • 龍貓數據
    • 科樂園
    • MagicData

二、數據探索(Exploratory Data Analysis,EDA)

獲取數據后,我們需要持續了解數據

工具:Python (Pandas, Matplotlib, Seaborn)

  • 文本統計
  • 停用詞分析
  • 詞頻分析
  • Ngram分析
  • 主題分析
  • 情感分析
  • NER分析
  • 詞性探索
  • 文本復雜度分析

三、數據清理與預處理

了解數據后我們要清理掉沒用的數據,修正不好的數據,補充不夠的數據,構建高質量數據集

  • 去除換行 清除html標簽? 清除鏈接 清除空格 去停用詞

四、分割數據集

分割方法:獨立分割、時間分割、交叉驗證、蜂窩交叉驗證

五、特征工程

六、建模

  • 選擇合適的模型對數據進行建模
  • 選擇模型后,要把數據格式處理成模型要求的格式
  • 分詞
  • 標準化

七、評估

八、推理

任務的工時占比

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/84612.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/84612.shtml
英文地址,請注明出處:http://en.pswp.cn/web/84612.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

可編程密碼學(Part 1)

1. 引言 當前密碼學正處于一次代際轉變之中,從special-purpose cryptography專用密碼學過渡到programmable cryptography可編程密碼學。 1)所謂“專用密碼學”,指的是那些只能執行單個操作且具有密碼學安全保證的協議。 公鑰加密和簽名方案…

Linux運維新人自用筆記(Ubuntu磁盤命名規則、新磁盤分區、主流文件系統類型、mkfs命令格式化文件系統、臨時和永久掛載、掛載報錯、dd指令)

內容全為個人理解和自查資料梳理,歡迎各位大神指點! 每天學習較為零散。 day21 一、磁盤維護流程 新硬盤(虛擬機可添加) 新硬盤需要做lvm管理 數據庫遷移(夜間網站停機維護): 停止數據庫監…

騰訊云輕量級服務器Ubuntu系統與可視化界面

以云服務器的方式搭建Linux workstation對比在電腦本地安裝虛擬機的優勢在于,不需要占用本地電腦資源空間,網絡環境等相對穩定,可以用手機等輕量移動設備連接管理等。本文主要介紹使用騰訊云服務器,搭建Ubuntu Linux系統以及可視化…

如何在MacOS系統和Windows系統安裝節點小寶遠程工具

如何在MacOS系統和Windows系統安裝節點小寶遠程工具 摘要 本文講述如何在MacOS系統和Windows系統安裝節點小寶遠程工具,并詳細介紹了配置和使用遠程控制的步驟。無論是在個人電腦還是手機、平板設備之間的遠程連接,您都可以通過本教程輕松實現。 文章…

60天python訓練營打卡day38

學習目標: 60天python訓練營打卡 學習內容: DAY 38 Dataset和Dataloader類 知識點回顧: 1.Dataset類的__getitem__和__len__方法(本質是python的特殊方法) 2.Dataloader類 3.minist手寫數據集的了解 作業&#xff1a…

Python 鄰接表詳細實現指南

鄰接表是圖數據結構的一種高效表示方法,特別適合表示稀疏圖。下面我將用 Python 詳細講解鄰接表的多種實現方式、操作方法和實際應用。 一、鄰接表基礎概念 鄰接表的核心思想是為圖中的每個頂點維護一個列表,存儲與該頂點直接相連的所有鄰接頂點。 鄰…

Nginx反向代理解決跨域問題詳解

Nginx反向代理解決跨域問題詳解 核心原理 Nginx反向代理解決跨域的核心思路是讓客戶端請求同域名下的接口,由Nginx將請求轉發到目標服務器,從而規避瀏覽器的同源策略限制。 客戶端(同源:www.domain.com)↓Nginx&…

單片機測ntc熱敏電阻的幾種方法

在單片機中測量NTC(負溫度系數)熱敏電阻的阻值,通常需要將其轉換為電壓或頻率信號,再通過單片機進行采集和處理。以下是幾種常見的方法及其詳細說明: 1. 分壓法(最常用)?? ??原理??&…

一套基于粒子群優化(PSO)算法的天線波束掃描MATLAB實現方案

以下是一套基于粒子群優化(PSO)算法的天線波束掃描MATLAB實現方案,包含完整代碼、數學原理和詳細注釋。該方案針對均勻線性陣列(ULA)的波束方向圖優化,通過調整陣元相位實現主瓣指向目標方向并抑制旁瓣。 %% 天線波束掃描的PSO算法實現 % 作者:DeepSeek % 創建日期:20…

增量學習ASAP的源碼剖析:如何實現人形的運動追蹤和全身控制(核心涉及HumanoidVerse中的agents模塊)

前言 過去一周,我司「七月在線」長沙分部的具身團隊在機械臂和人形上并行發力 關于機械臂 一方面,在IL和VLA的路線下,先后采集了抓杯子、桌面收納、插入耳機孔的數據,然后云端訓-本地5090推理 二方面,在RL的路線下&a…

計算機網絡學習筆記:應用層概述、動態主機配置協議DHCP

文章目錄 一、應用層概述1.1、C/S架構1.2、P2P架構 二、動態主機配置協議DHCP2.1、DHCP發現報文2.2、DHCP提供報文2.3、DHCP請求報文2.4、DHCP確認報文2.5、DHCP的續約與終止 總結 一、應用層概述 應用層位于計算機網絡結構的最上層,用于解決應用進程的交互以實現特…

為服務器SSH登錄增加2FA驗證

安裝NTP模塊并設置時區 安裝NTP模塊 一般的服務器NTP服務默認是不安裝的,需要安裝NTP模塊【7】并啟用。 運行以下指令檢查你的NTP模塊是否已啟用,已啟用則忽略安裝NTP模塊的內容 timedatectl 如果你的返回內容和以下圖片一樣,則表示NTP未…

AI大模型提示詞工程研究報告:長度與效果的辯證分析

一、核心問題:提示詞長度與模型性能的平衡 核心矛盾:提示詞長度增加 → 信息豐富度↑ & 準確性↑ ? 計算成本↑ & 響應延遲↑ 二、詳細機制分析 (一)長提示詞的優勢(實證數據支持) 案例類型短提…

HttpServletResponse源碼解析

Java Servlet API 中 HttpServletResponse 接口的源碼,這是 Java Web 開發中非常核心的一個接口,用于向客戶端(通常是瀏覽器)發送 HTTP 響應。 public interface HttpServletResponse extends ServletResponse {int SC_CONTINUE …

AI基礎概念

目錄 1、ASR和STT區別 2、流式輸出 定義 原理 應用場景 優點 缺點 3、Ollama 4、mindspore和deepseek r1 v3 5、DeepSeek R1/V3 用的哪個底層AI框架 6、HAI-LLM比tensorflow、pytorch還強么 1. 核心優勢對比 2. 性能表現 3. 適用場景 總結 7、openai用的什么底層…

ubuntu20.04速騰聚創airy驅動調試

1.下載相關資料 下載包括:速騰airy產品手冊.pdf、RSView(用于顯示激光雷達數據)、3d數模文件、 RS-LiDAR-16用戶手冊 以下鏈接進行下載 https://www.robosense.cn/resources 2.連接線路后通過Wireshark抓包后進行本地IP配置 2.1按照線路連…

Redis的大key和熱key如何解決

文章目錄 Redis大Key一、什么是Redis大Key二、大Key的產生原因三、大Key的影響四、大Key的解決方案1. 檢測大Key2. 解決方案(1) 數據拆分(2) 使用壓縮算法(3) 使用合適的數據結構(4) 設置合理的過期時間(5) 合理清理(6) 配置優化 五、預防措施總結 Redis熱key一、熱Key問題的本…

恒溫晶振與溫補晶振的區別

在電子設備領域,晶振如同精準的“心臟起搏器”,為電路提供穩定的時鐘信號。恒溫晶振(OCXO)和溫補晶振(TCXO)作為兩類重要的晶體振蕩器,在不同的應用場景中發揮著關鍵作用,它們的區別…

基于SpringBoot的在線考試智能監控系統設計與實現

目錄 一.🦁前言二.🦁開源代碼與組件使用情況說明三.🦁核心功能1. ?算法設計2. ?Java開發語言3. ?Vue.js框架4. ?部署項目 四.🦁演示效果1. 管理員模塊1.1 用戶管理 2. 教師模塊2.1 考試管理2.2 瀏覽試題列表2.3 添加試題2.4 成…

0基礎學Python系列【16】自動化郵件發送的終極教程:Python庫smtplib與email詳解

大家好,歡迎來到Python學習的第二站!?? Python自帶了一些超好用的模塊,可以讓你不必從頭寫代碼就能實現很多功能。比如數學計算、文件操作、網絡通信等。花姐會挑選常用的一些模塊來講解,確保你能在實際項目中用到。?? 本章要學什么? 接下來花姐會深入淺出的講解下面…