MiniGPT-4學習
- 1.Colab上部署MiniGPT-4
- 2.論文摘要
- 3.模型架構
- 4.模型訓練
- 5.總結
1.Colab上部署MiniGPT-4
代碼:
https://github.com/Czi24/Awesome-MLLM-LLM-Colab/blob/master/MLLM/MiniGPT-4-colab/MiniGPT-4.md
2.論文摘要
最近的 GPT-4 展示了非凡的多模式能力,例如直接從手寫文本生成網站以及識別圖像中的幽默元素。這些特征在以前的視覺語言模型中很少觀察到。我們認為 GPT-4 先進的多模態生成能力的主要原因在于使用了更先進的大語言模型(LLM)。為了研究這一現象,我們提出了 MiniGPT-4,它僅使用一個投影層將凍結的視覺編碼器與凍結的 LLM、Vicuna 對齊。我們的研究結果表明,MiniGPT-4 擁有許多與 GPT-4 類似的功能,例如詳細的圖像描述生成和根據手寫草稿創建網站。此外,我們還觀察到 MiniGPT-4 中的其他新興功能,包括受給定圖像啟發編寫故事和詩歌、為圖像中顯示的問題提供解決方案、教用戶如何根據食物照片烹飪等。在我們的實驗中,我們發現僅對原始圖像-文本對進行預訓練可能會產生缺乏連貫性的不自然語言輸出,包括重復和支離破碎的句子。為了解決這個問題,我們在第二階段策劃了一個高質量、對齊良好的數據集,以使用對話模板來微調我們的模型。事實證明,這一步驟對于增強模型的生成可靠性和整體可用性至關重要。值得注意的是,我們的模型計算效率很高,因為我們只利用大約 500 萬個對齊的圖像文本對來訓練投影層。
3.模型架構
ViT & Q-Former + Linear + Vicuna
MiniGPT-4 由一個帶有預訓練 ViT 和 Q-Former 的視覺編碼器、一個線性投影層和一個高級 Vicuna 大語言模型組成。 MiniGPT-4只需要訓練線性層即可將視覺特征與Vicuna對齊:
4.模型訓練
Stage1:
5M的圖文對
Stage2:
3500張高質量的指令數據
- 從Conceptual Caption datase中篩選5000張圖片,利用第一階段的模型輸出回答,第一階段自動生成的圖像描述包含噪音或不連貫的描述,如重復的單詞或句子,支離破碎的句子,或不相關的內容。
- 通過ChatGPT重構數據,最終得到3500張圖片
系統提示:
Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.
5.總結
- 幻覺問題:long caption的幻覺比short caption 嚴重
- 空間理解能力不足