大家好,我是微學AI,今天給大家介紹一下人工智能124種任務大集合,任務集合主要包括4大類:自然語言處理(NLP)、計算機視覺(CV)、語音識別、多模態任務。
我這里整理了124種應用場景任務大集合,每個任務目錄如下:
- 句子嵌入(Sentence Embedding):將句子映射到固定維度的向量表示形式。
- 文本排序(Text Ranking):對一組文本進行排序,以確定它們與給定查詢的相關性。
- 分詞(Word Segmentation):將連續的文本切分成單詞或詞塊的過程。
- 詞性標注(Part-of-Speech):對句子中的每個詞匯標注其相應的詞性。
- 標記分類(Token Classification):將輸入的文本序列中的每個標記分類為預定義的類別。
- 命名實體識別(Named Entity Recognition):識別文本中具有特定意義的命名實體,如人名、地點、組織等。
- 關系抽取(Relation Extraction):從文本中抽取出實體之間的關系或聯系。
- 信息抽取(Information Extraction):從非結構化文本中提取結構化的信息,如實體、關系和屬性等。
- 句子相似度(Sentence Similarity):衡量兩個句子之間的語義相似度或相關性。
- 文本翻譯(Translation):將一種語言的文本轉換為另一種語言的過程。
- 自然語言推理(NLI:Natural Language Inference):判斷給定的前提和假設之間的邏輯關系,包括蘊含、矛盾和中立等。
- 情感分類(Sentiment Classification):將文本分為積極、消極或中性等情感類別。
- 人像摳圖(Portrait Matting):從圖像中準確地分離人物主體與背景。
- 通用摳圖(Universal Matting):從圖像中準確地分離目標物體與背景,不限于人像。
- 人體檢測(Human Detection):檢測圖像或視頻中的人體位置。
- 圖像目標檢測(Image Object Detection):在圖像中檢測和定位多個目標對象。
- 圖像去噪(Image Denoising):降低圖像中的噪聲水平,改善圖像質量。
- 圖像去模糊(Image Deblurring):恢復模糊圖像的清晰度和細節。
- 視頻穩定化(Video Stabilization):對視頻進行抖動校正,使其穩定且平滑。
- 視頻超分辨率(Video Super-Resolution):通過增加視頻的像素級別細節來提高其分辨率。
- 文本分類(Text Classification):將文本分類為預定義的類別或標簽。
- 文本生成(Text Generation):根據給定輸入生成連續文本的過程。
- 零樣本分類(Zero-Shot Classification):將數據分類為模型從未在訓練階段見過的類別。
- 任務導向對話(Task-Oriented Conversation):進行與特定任務相關的對話和問答。
- 對話狀態跟蹤(Dialog State Tracking):跟蹤多輪對話中的用戶意圖和系統狀態的變化。
- 表格問答(Table Question Answering):根據表格數據回答相關問題。
- 文檔導向對話生成(Document-Grounded Dialog Generation):基于文檔內容生成相關對話回復。
- 文檔導向對話重新排序(Document-Grounded Dialog Rerank):對生成的對話回復進行排序,以選擇最佳回復。
- 文檔導向對話檢索(Document-Grounded Dialog Retrieval):從候選對話中檢索與文檔相關的最佳對話。
- 文本糾錯(Text Error Correction):自動糾正文本中的拼寫錯誤或語法錯誤。
- 圖像字幕生成(Image Captioning):根據圖像內容生成對圖像的描述性文字。
- 視頻字幕生成(Video Captioning):根據視頻內容生成對視頻的描述性文字。
- 圖像人像風格化(Image Portrait Stylization):將圖像中的人物主體應用藝術風格轉換。
- 光學字符識別(OCR Detection):從圖像中檢測和識別文字。
- 表格識別(Table Recognition):從圖像中自動識別表格結構和內容。
- 無線表格識別(Lineless Table Recognition):從無線表格圖像中自動識別表格結構和內容。
- 文檔視覺語義嵌入(Document-VL Embedding):將文檔映射到視覺語義空間的向量表示形式。
- 車牌檢測(License Plate Detection):在圖像中檢測和定位車輛的車牌區域。
- 填充掩碼(Fill-Mask):根據上下文和部分信息填充給定的掩碼。
- 特征提取(Feature Extraction):從輸入數據中提取有意義的特征表示。
- 動作識別(Action Recognition):識別視頻中的動作或行為。
- 動作檢測(Action Detection):在視頻中檢測和定位特定動作或行為。
- 直播分類(Live Category):對直播視頻進行分類,如體育、新聞、游戲等。
- 視頻分類(Video Category):對視頻進行分類,如電影、音樂、體育等。
- 多模態嵌入(Multi-Modal Embedding):將多種不同模態的數據映射到共享的向量空間。
- 生成式多模態嵌入(Generative Multi-Modal Embedding):將多模態數據映射到向量表示,并且能夠生成與之相關的數據。
- 多模態相似度(Multi-Modal Similarity):衡量多模態數據(例如圖像和文本)之間的相似性或相關性。
- 視覺問答(Visual Question Answering):根據給定的圖像和問題回答相關問題。
- 視頻問答(Video Question Answering):根據給定的視頻和問題回答相關問題。
- 視頻嵌入(Video Embedding):將視頻序列映射到固定維度的向量表示形式。
- 文本到圖像合成(Text-to-Image Synthesis):根據給定的文本描述合成相應的圖像。
- 文本到視頻合成(Text-to-Video Synthesis):根據給定的文本描述合成相應的視頻。
- 人體二維關鍵點(Body 2D Keypoints):檢測和跟蹤圖像中的人體關鍵點。
- 人體三維關鍵點(Body 3D Keypoints):在三維空間中檢測和跟蹤人體關鍵點。
- 手部二維關鍵點(Hand 2D Keypoints):檢測和跟蹤圖像中的手部關鍵點。
- 卡片檢測(Card Detection):在圖像中檢測和定位特定類型的卡片。
- 內容檢查(Content Check):檢查文本或圖像中是否存在不良、敏感或違法內容。
- 人臉檢測(Face Detection):檢測圖像或視頻中的人臉位置。
- 人臉活體檢測(Face Liveness):判斷圖像或視頻中的人臉是否為真實的活體,而非照片或視頻。
- 人臉識別(Face Recognition):識別圖像或視頻中的人臉,并將其與已知的身份進行匹配。
- 面部表情識別(Facial Expression Recognition):識別圖像或視頻中人臉的表情狀態,如快樂、悲傷、憤怒等。
- 面部屬性識別(Face Attribute Recognition):識別圖像或視頻中人臉的屬性,如年齡、性別、種族等。
- 面部二維關鍵點(Face 2D Keypoints):檢測和跟蹤圖像中的面部關鍵點。
- 面部質量評估(Face Quality Assessment):評估圖像或視頻中人臉圖像的質量。
- 視頻多模態嵌入(Video Multi-Modal Embedding):將多模態數據(如圖像和文本)映射到共享的向量空間。
- 圖像色彩增強(Image Color Enhancement):增強圖像的色彩飽和度、對比度和亮度等。
- 虛擬試衣(Virtual Try-On):通過計算機生成的技術,將虛擬服裝應用到真實人體圖像上,以實現在線試穿效果。
- 圖像上色(Image Colorization):將灰度圖像恢復為彩色圖像的過程。
- 視頻上色(Video Colorization):將黑白視頻恢復為彩色視頻的過程。
- 圖像分割(Image Segmentation):將圖像分成多個不同的區域或對象。
- 圖像駕駛感知(Image Driving Perception):利用計算機視覺技術提取圖像中與駕駛相關的信息,如車道線、交通標志等。
- 圖像深度估計(Image Depth Estimation):根據單目或雙目圖像估計場景中物體的深度或距離。
- 室內布局估計(Indoor Layout Estimation):根據室內圖像估計房間的布局結構。
- 視頻深度估計(Video Depth Estimation):根據視頻中的幀間信息估計場景中物體的深度或距離。
- 全景深度估計(Panorama Depth Estimation):在全景圖像中估計場景中物體的深度或距離。
- 圖像風格遷移(Image Style Transfer):將一個圖像的風格應用到另一個圖像上,以生成具有新風格的圖像。
- 面部圖像生成(Face Image Generation):生成逼真的面部圖像,可以用于人臉數據增強、數據生成等應用。
- 圖像超分辨率(Image Super-Resolution):通過增加圖像的像素級細節來提高其分辨率。
- 圖像去塊效應(Image Debanding):減少圖像中由壓縮引起的塊狀偽影或條紋噪聲。
- 圖像人像增強(Image Portrait Enhancement):改善圖像中人物主體的外觀、膚色等特征。
- 商品檢索嵌入(Product Retrieval Embedding):將商品映射到向量表示形式,以支持商品相關性檢索。
- 圖像到圖像生成(Image-to-Image Generation):根據給定的輸入圖像生成相應的輸出圖像。
- 圖像分類(Image Classification):將圖像分類為預定義的類別或標簽。
- 光學字符識別(OCR Recognition):從圖像中檢測和識別印刷體或手寫體的文字。
- 美膚(Skin Retouching):對人臉圖像進行美化處理,去除皮膚瑕疵、磨皮等。
- 常見問題解答(FAQ Question Answering):根據常見問題回答用戶的提問。
- 人群計數(Crowd Counting):根據圖像或視頻中的人群密度估計人數。
- 視頻單目標跟蹤(Video Single Object Tracking):在視頻序列中跟蹤單個目標對象。
- 圖像人物再識別(Image ReID - Person):根據圖像中的人物外觀特征進行身份再識別。
- 文本驅動分割(Text-Driven Segmentation):根據給定的文本描述,對圖像或視頻中的對象進行分割。
- 電影場景分割(Movie Scene Segmentation):將電影或視頻分割為不同的場景,每個場景代表一個獨立的情節或事件。
- 商店分割(Shop Segmentation):將商店內的物體或區域從圖像或視頻中分割出來,用于商品展示、智能監控等應用。
- 圖像修復(Image Inpainting):根據已有的圖像內容,填補缺失或損壞的部分,恢復原始圖像的完整性。
- 圖像按范例繪制(Image Paint-By-Example):根據給定的范例圖像,將其他圖像修改為具有相似繪畫風格或效果的圖像。
- 可控圖像生成(Controllable Image Generation):通過控制輸入參數或向量,生成具有特定屬性、風格或特征的圖像。
- 視頻修復(Video Inpainting):根據已有的視頻內容,填補缺失或損壞的幀或區域,恢復原始視頻的完整性。
- 視頻人像摳像(Video Human Matting):將視頻中的人物從背景中分割出來,以便進行后續的編輯或特效處理。
- 人體重建(Human Reconstruction):基于給定的圖像、視頻或傳感器數據,重建人體的三維模型或姿態信息。
- 視頻幀插值(Video Frame Interpolation):對給定的兩個視頻幀之間的幀進行生成,以增加視頻的幀率或平滑過渡。
- 視頻去隔行(Video Deinterlace):將隔行掃描的視頻轉換為逐行掃描,提高視頻播放的質量和流暢度。
- 全身人體關鍵點檢測(Human Wholebody Keypoint Detection):在圖像或視頻中檢測和定位人體的關鍵點,例如頭部、手、腳等。
- 靜態手勢識別(Hand Static):通過分析手掌形狀、手指姿勢等信息,識別圖像或視頻中的靜態手勢。
- 人臉、人體和手部檢測(Face-Human-Hand Detection):檢測和定位圖像或視頻中的人臉、人體和手部區域。
- 人臉情緒分析(Face Emotion):通過分析人臉表情,判斷圖像或視頻中人臉所表達的情緒狀態。
- 商品分割(Product Segmentation):將圖像或視頻中的商品或產品從背景中分割出來,用于商品識別、廣告推薦等應用。
- 參考視頻對象分割(Referring Video Object Segmentation):根據給定的參考圖像或視頻,對圖像或視頻中的對象進行分割。
- 視頻摘要(Video Summarization):根據視頻的內容和特征,生成視頻的摘要或概覽,提供視頻瀏覽和檢索的便利性。
- 圖像天空變換(Image Sky Change):將圖像中的天空部分替換為不同的天空背景,改變圖像的氛圍和環境。
- 翻譯評估(Translation Evaluation):根據給定的翻譯結果,評估其質量、準確性以及與原文的一致性。
- 視頻對象分割(Video Object Segmentation):將視頻中的對象從背景中分割出來,以便進行后續的編輯或特效處理。
- 視頻多目標跟蹤(Video Multi-Object Tracking):在視頻中同時跟蹤多個移動目標,實時定位和追蹤目標的位置。
- 多視角深度估計(Multi-View Depth Estimation):通過多個視圖或圖像,估計場景中物體的三維深度信息。
- 少樣本檢測(Few-Shot Detection):在只有少量標注樣本的情況下,進行目標檢測任務,提高模型的泛化能力。
- 人體形狀重塑(Body Reshaping):根據圖像或視頻中的人體區域,調整人體的形狀、姿態或比例,改變人體外貌。
- 人臉融合(Face Fusion):將一個人的面部特征或表情融合到另一個人的頭像上,生成具有兩者特點的合成圖像。
- 圖像匹配(Image Matching):在圖像庫或數據庫中,找到與給定圖像最相似或匹配的圖像。
- 圖像質量評估 - 主觀評分(Image Quality Assessment - MOS):通過主觀評分的方法,評估圖像的質量,反映人眼對圖像的感知。
- 圖像質量評估 - 降質度量(Image Quality Assessment - Degradation):通過客觀度量的方法,評估圖像在不同變換或壓縮條件下的質量。
- 視覺高效調優(Vision Efficient Tuning):通過自動化的方法,快速調優和優化視覺模型和算法,提升計算效率和準確性。
- 三維目標檢測(Object Detection 3D):在三維空間中,檢測和定位目標物體的位置、尺寸和姿態。
- 壞圖像檢測(Bad Image Detecting):識別和檢測出圖像中存在的噪點、模糊、失真等不良或低質量的圖像。
- Nerf重建精度評估(NeRF Reconstruction Accuracy):評估神經輻射場(NeRF)模型在建立3D場景重建時的準確性和質量。
- Siamese UIE:Siamese網絡用于UIE任務,即輸入用戶界面元素識別或生成的相關問題。
- 數學公式識別(LatexOCR):圖片中數學公式的latex識別。