視覺問答(VQA, Visual Question Answer)
目標:給定一個圖片以及問題,需要理解圖片的內容并基于此用自然語言回答問題。
例如,圖像中發生什么事,人物穿的衣服是什么顏色,圖像中有多少架飛機等。
例如,TDIUC(Task Directed Image Understanding Challege) 是一個任務導向的圖像理解數據集。作者收集了 VQAv2 等數據集,并進一步劃分為 12 個子任務
?圖像描述(Image Captioning)
目標:給定一個圖像,用自然語言描述圖像的內容。
視覺定位(Visual Grounding)?
目標:給定一個圖像以及相應的自然語言表述,然后在圖像中定位文本表述對應的物體或區域。
Grounded Captioning
目標:給定一個圖像,用自然語言描述圖像的內容,并定位所有提到的實體的位置或區域。可以看做是 Image Captioning + Phrase Localization 的組合。
如下圖 Fig.1 所示為一個 Grounded Captioning 示例(來自 Flickr30K),可以看出,即輸出了描述,又輸出了對應實體的位置