【人工智能124種任務大集合】-集齊了自然語言處理(NLP),計算機視覺(CV),語音識別,多模態等任務

大家好，我是微學AI，今天給大家介紹一下人工智能124種任務大集合，任務集合主要包括4大類：自然語言處理（NLP）、計算機視覺（CV）、語音識別、多模態任務。
在這里插入圖片描述

我這里整理了124種應用場景任務大集合，每個任務目錄如下：

句子嵌入（Sentence Embedding）：將句子映射到固定維度的向量表示形式。
文本排序（Text Ranking）：對一組文本進行排序，以確定它們與給定查詢的相關性。
分詞（Word Segmentation）：將連續的文本切分成單詞或詞塊的過程。
詞性標注（Part-of-Speech）：對句子中的每個詞匯標注其相應的詞性。
標記分類（Token Classification）：將輸入的文本序列中的每個標記分類為預定義的類別。
命名實體識別（Named Entity Recognition）：識別文本中具有特定意義的命名實體，如人名、地點、組織等。
關系抽取（Relation Extraction）：從文本中抽取出實體之間的關系或聯系。
信息抽取（Information Extraction）：從非結構化文本中提取結構化的信息，如實體、關系和屬性等。
句子相似度（Sentence Similarity）：衡量兩個句子之間的語義相似度或相關性。
文本翻譯（Translation）：將一種語言的文本轉換為另一種語言的過程。
自然語言推理（NLI：Natural Language Inference）：判斷給定的前提和假設之間的邏輯關系，包括蘊含、矛盾和中立等。
情感分類（Sentiment Classification）：將文本分為積極、消極或中性等情感類別。
人像摳圖（Portrait Matting）：從圖像中準確地分離人物主體與背景。
通用摳圖（Universal Matting）：從圖像中準確地分離目標物體與背景，不限于人像。
人體檢測（Human Detection）：檢測圖像或視頻中的人體位置。
圖像目標檢測（Image Object Detection）：在圖像中檢測和定位多個目標對象。
圖像去噪（Image Denoising）：降低圖像中的噪聲水平，改善圖像質量。
圖像去模糊（Image Deblurring）：恢復模糊圖像的清晰度和細節。
視頻穩定化（Video Stabilization）：對視頻進行抖動校正，使其穩定且平滑。
視頻超分辨率（Video Super-Resolution）：通過增加視頻的像素級別細節來提高其分辨率。
文本分類（Text Classification）：將文本分類為預定義的類別或標簽。
文本生成（Text Generation）：根據給定輸入生成連續文本的過程。
零樣本分類（Zero-Shot Classification）：將數據分類為模型從未在訓練階段見過的類別。
任務導向對話（Task-Oriented Conversation）：進行與特定任務相關的對話和問答。
對話狀態跟蹤（Dialog State Tracking）：跟蹤多輪對話中的用戶意圖和系統狀態的變化。
表格問答（Table Question Answering）：根據表格數據回答相關問題。
文檔導向對話生成（Document-Grounded Dialog Generation）：基于文檔內容生成相關對話回復。
文檔導向對話重新排序（Document-Grounded Dialog Rerank）：對生成的對話回復進行排序，以選擇最佳回復。
文檔導向對話檢索（Document-Grounded Dialog Retrieval）：從候選對話中檢索與文檔相關的最佳對話。
文本糾錯（Text Error Correction）：自動糾正文本中的拼寫錯誤或語法錯誤。
圖像字幕生成（Image Captioning）：根據圖像內容生成對圖像的描述性文字。
視頻字幕生成（Video Captioning）：根據視頻內容生成對視頻的描述性文字。
圖像人像風格化（Image Portrait Stylization）：將圖像中的人物主體應用藝術風格轉換。
光學字符識別（OCR Detection）：從圖像中檢測和識別文字。
表格識別（Table Recognition）：從圖像中自動識別表格結構和內容。
無線表格識別（Lineless Table Recognition）：從無線表格圖像中自動識別表格結構和內容。
文檔視覺語義嵌入（Document-VL Embedding）：將文檔映射到視覺語義空間的向量表示形式。
車牌檢測（License Plate Detection）：在圖像中檢測和定位車輛的車牌區域。
填充掩碼（Fill-Mask）：根據上下文和部分信息填充給定的掩碼。
特征提取（Feature Extraction）：從輸入數據中提取有意義的特征表示。
動作識別（Action Recognition）：識別視頻中的動作或行為。
動作檢測（Action Detection）：在視頻中檢測和定位特定動作或行為。
直播分類（Live Category）：對直播視頻進行分類，如體育、新聞、游戲等。
視頻分類（Video Category）：對視頻進行分類，如電影、音樂、體育等。
多模態嵌入（Multi-Modal Embedding）：將多種不同模態的數據映射到共享的向量空間。
生成式多模態嵌入（Generative Multi-Modal Embedding）：將多模態數據映射到向量表示，并且能夠生成與之相關的數據。
多模態相似度（Multi-Modal Similarity）：衡量多模態數據（例如圖像和文本）之間的相似性或相關性。
視覺問答（Visual Question Answering）：根據給定的圖像和問題回答相關問題。
視頻問答（Video Question Answering）：根據給定的視頻和問題回答相關問題。
視頻嵌入（Video Embedding）：將視頻序列映射到固定維度的向量表示形式。
文本到圖像合成（Text-to-Image Synthesis）：根據給定的文本描述合成相應的圖像。
文本到視頻合成（Text-to-Video Synthesis）：根據給定的文本描述合成相應的視頻。
人體二維關鍵點（Body 2D Keypoints）：檢測和跟蹤圖像中的人體關鍵點。
人體三維關鍵點（Body 3D Keypoints）：在三維空間中檢測和跟蹤人體關鍵點。
手部二維關鍵點（Hand 2D Keypoints）：檢測和跟蹤圖像中的手部關鍵點。
卡片檢測（Card Detection）：在圖像中檢測和定位特定類型的卡片。
內容檢查（Content Check）：檢查文本或圖像中是否存在不良、敏感或違法內容。
人臉檢測（Face Detection）：檢測圖像或視頻中的人臉位置。
人臉活體檢測（Face Liveness）：判斷圖像或視頻中的人臉是否為真實的活體，而非照片或視頻。
人臉識別（Face Recognition）：識別圖像或視頻中的人臉，并將其與已知的身份進行匹配。
面部表情識別（Facial Expression Recognition）：識別圖像或視頻中人臉的表情狀態，如快樂、悲傷、憤怒等。
面部屬性識別（Face Attribute Recognition）：識別圖像或視頻中人臉的屬性，如年齡、性別、種族等。
面部二維關鍵點（Face 2D Keypoints）：檢測和跟蹤圖像中的面部關鍵點。
面部質量評估（Face Quality Assessment）：評估圖像或視頻中人臉圖像的質量。
視頻多模態嵌入（Video Multi-Modal Embedding）：將多模態數據（如圖像和文本）映射到共享的向量空間。
圖像色彩增強（Image Color Enhancement）：增強圖像的色彩飽和度、對比度和亮度等。
虛擬試衣（Virtual Try-On）：通過計算機生成的技術，將虛擬服裝應用到真實人體圖像上，以實現在線試穿效果。
圖像上色（Image Colorization）：將灰度圖像恢復為彩色圖像的過程。
視頻上色（Video Colorization）：將黑白視頻恢復為彩色視頻的過程。
圖像分割（Image Segmentation）：將圖像分成多個不同的區域或對象。
圖像駕駛感知（Image Driving Perception）：利用計算機視覺技術提取圖像中與駕駛相關的信息，如車道線、交通標志等。
圖像深度估計（Image Depth Estimation）：根據單目或雙目圖像估計場景中物體的深度或距離。
室內布局估計（Indoor Layout Estimation）：根據室內圖像估計房間的布局結構。
視頻深度估計（Video Depth Estimation）：根據視頻中的幀間信息估計場景中物體的深度或距離。
全景深度估計（Panorama Depth Estimation）：在全景圖像中估計場景中物體的深度或距離。
圖像風格遷移（Image Style Transfer）：將一個圖像的風格應用到另一個圖像上，以生成具有新風格的圖像。
面部圖像生成（Face Image Generation）：生成逼真的面部圖像，可以用于人臉數據增強、數據生成等應用。
圖像超分辨率（Image Super-Resolution）：通過增加圖像的像素級細節來提高其分辨率。
圖像去塊效應（Image Debanding）：減少圖像中由壓縮引起的塊狀偽影或條紋噪聲。
圖像人像增強（Image Portrait Enhancement）：改善圖像中人物主體的外觀、膚色等特征。
商品檢索嵌入（Product Retrieval Embedding）：將商品映射到向量表示形式，以支持商品相關性檢索。
圖像到圖像生成（Image-to-Image Generation）：根據給定的輸入圖像生成相應的輸出圖像。
圖像分類（Image Classification）：將圖像分類為預定義的類別或標簽。
光學字符識別（OCR Recognition）：從圖像中檢測和識別印刷體或手寫體的文字。
美膚（Skin Retouching）：對人臉圖像進行美化處理，去除皮膚瑕疵、磨皮等。
常見問題解答（FAQ Question Answering）：根據常見問題回答用戶的提問。
人群計數（Crowd Counting）：根據圖像或視頻中的人群密度估計人數。
視頻單目標跟蹤（Video Single Object Tracking）：在視頻序列中跟蹤單個目標對象。
圖像人物再識別（Image ReID - Person）：根據圖像中的人物外觀特征進行身份再識別。
文本驅動分割（Text-Driven Segmentation）：根據給定的文本描述，對圖像或視頻中的對象進行分割。
電影場景分割（Movie Scene Segmentation）：將電影或視頻分割為不同的場景，每個場景代表一個獨立的情節或事件。
商店分割（Shop Segmentation）：將商店內的物體或區域從圖像或視頻中分割出來，用于商品展示、智能監控等應用。
圖像修復（Image Inpainting）：根據已有的圖像內容，填補缺失或損壞的部分，恢復原始圖像的完整性。
圖像按范例繪制（Image Paint-By-Example）：根據給定的范例圖像，將其他圖像修改為具有相似繪畫風格或效果的圖像。
可控圖像生成（Controllable Image Generation）：通過控制輸入參數或向量，生成具有特定屬性、風格或特征的圖像。
視頻修復（Video Inpainting）：根據已有的視頻內容，填補缺失或損壞的幀或區域，恢復原始視頻的完整性。
視頻人像摳像（Video Human Matting）：將視頻中的人物從背景中分割出來，以便進行后續的編輯或特效處理。
人體重建（Human Reconstruction）：基于給定的圖像、視頻或傳感器數據，重建人體的三維模型或姿態信息。
視頻幀插值（Video Frame Interpolation）：對給定的兩個視頻幀之間的幀進行生成，以增加視頻的幀率或平滑過渡。
視頻去隔行（Video Deinterlace）：將隔行掃描的視頻轉換為逐行掃描，提高視頻播放的質量和流暢度。
全身人體關鍵點檢測（Human Wholebody Keypoint Detection）：在圖像或視頻中檢測和定位人體的關鍵點，例如頭部、手、腳等。
靜態手勢識別（Hand Static）：通過分析手掌形狀、手指姿勢等信息，識別圖像或視頻中的靜態手勢。
人臉、人體和手部檢測（Face-Human-Hand Detection）：檢測和定位圖像或視頻中的人臉、人體和手部區域。
人臉情緒分析（Face Emotion）：通過分析人臉表情，判斷圖像或視頻中人臉所表達的情緒狀態。
商品分割（Product Segmentation）：將圖像或視頻中的商品或產品從背景中分割出來，用于商品識別、廣告推薦等應用。
參考視頻對象分割（Referring Video Object Segmentation）：根據給定的參考圖像或視頻，對圖像或視頻中的對象進行分割。
視頻摘要（Video Summarization）：根據視頻的內容和特征，生成視頻的摘要或概覽，提供視頻瀏覽和檢索的便利性。
圖像天空變換（Image Sky Change）：將圖像中的天空部分替換為不同的天空背景，改變圖像的氛圍和環境。
翻譯評估（Translation Evaluation）：根據給定的翻譯結果，評估其質量、準確性以及與原文的一致性。
視頻對象分割（Video Object Segmentation）：將視頻中的對象從背景中分割出來，以便進行后續的編輯或特效處理。
視頻多目標跟蹤（Video Multi-Object Tracking）：在視頻中同時跟蹤多個移動目標，實時定位和追蹤目標的位置。
多視角深度估計（Multi-View Depth Estimation）：通過多個視圖或圖像，估計場景中物體的三維深度信息。
少樣本檢測（Few-Shot Detection）：在只有少量標注樣本的情況下，進行目標檢測任務，提高模型的泛化能力。
人體形狀重塑（Body Reshaping）：根據圖像或視頻中的人體區域，調整人體的形狀、姿態或比例，改變人體外貌。
人臉融合（Face Fusion）：將一個人的面部特征或表情融合到另一個人的頭像上，生成具有兩者特點的合成圖像。
圖像匹配（Image Matching）：在圖像庫或數據庫中，找到與給定圖像最相似或匹配的圖像。
圖像質量評估 - 主觀評分（Image Quality Assessment - MOS）：通過主觀評分的方法，評估圖像的質量，反映人眼對圖像的感知。
圖像質量評估 - 降質度量（Image Quality Assessment - Degradation）：通過客觀度量的方法，評估圖像在不同變換或壓縮條件下的質量。
視覺高效調優（Vision Efficient Tuning）：通過自動化的方法，快速調優和優化視覺模型和算法，提升計算效率和準確性。
三維目標檢測（Object Detection 3D）：在三維空間中，檢測和定位目標物體的位置、尺寸和姿態。
壞圖像檢測（Bad Image Detecting）：識別和檢測出圖像中存在的噪點、模糊、失真等不良或低質量的圖像。
Nerf重建精度評估（NeRF Reconstruction Accuracy）：評估神經輻射場(NeRF)模型在建立3D場景重建時的準確性和質量。
Siamese UIE：Siamese網絡用于UIE任務，即輸入用戶界面元素識別或生成的相關問題。
數學公式識別（LatexOCR）：圖片中數學公式的latex識別。