LLM視覺領域存在模型視覺識別不準確、細粒度視覺任務能力不足等科學問題
除了前面提到的數據集,還有一些用于評估視覺推理等能力的經典數據集。目前關于LLM視覺領域經典提示詞方面的名校或大公司論文較少,以下是相關科學問題、數據集及部分相關論文介紹:
科學問題
- 視覺推理能力有限:在涉及邏輯推理的視覺任務中,如根據圖像中的線索進行演繹推理、歸納推理等,LLM視覺模型表現不佳,與人類的邏輯推理能力有較大差距,難以處理復雜的視覺邏輯關系。
- 跨模態對齊不精準:視覺信息和語言信息的融合存在困難,可能出現圖像內容與文本描述無法準確對應的情況,導致模型對圖像的理解和生成的文本回答出現偏差。
- 視覺細節捕捉能力弱:對于圖像中的一些細微特征、小目標物體等,模型可能無法有效識別和理解,在需要關注細節的任務中,如識別圖像中微小的標志、文字等,容易出現錯誤或遺漏。
經典數據集
- LogicVista:專門用于評估多模態大語言模型在視覺情境下的邏輯推理能力。涵蓋演繹、歸納、空間推理、數值推理和機械推理等5種核心邏輯推理任務,共448個選擇題,每個題目都有詳細的正確答案和