一、基本介紹
1.1 項目背景與定位
LLaVA(Large Language and Vision Assistant)是由Haotian Liu等人開發的開源多模態大語言模型,旨在實現GPT-4級別的視覺-語言交互能力。該項目通過視覺指令微調技術,將預訓練的視覺編碼器與語言模型深度融合,在多個多模態基準測試中達到SOTA水平。
核心特點:
- 支持336x336高分辨率圖像處理
- 兼容LLaMA、Vicuna、Mistral等多種基座模型
- 提供4-bit/8-bit量化推理能力
- 支持LoRA高效微調
- 在單卡3090 GPU上即可完成訓練
1.2 技術演進
- v1.0 (2023/04):基礎視覺指令微調框架
- v1.5 (2023/10):引入MLP2x-GELU投影器,訓練效率提升40%
- v1.6 (2024/01):支持4倍分辨率提升,推理速度優化30%
- NeXT系列 (2024/05):支持Llama3-8B和Qwen-72B大模型