無顯卡也可以玩大模型-MiniGPT-4篇

MiniGPT-4學習

  • 1.Colab上部署MiniGPT-4
  • 2.論文摘要
  • 3.模型架構
  • 4.模型訓練
  • 5.總結

1.Colab上部署MiniGPT-4

代碼:
https://github.com/Czi24/Awesome-MLLM-LLM-Colab/blob/master/MLLM/MiniGPT-4-colab/MiniGPT-4.md

2.論文摘要

最近的 GPT-4 展示了非凡的多模式能力,例如直接從手寫文本生成網站以及識別圖像中的幽默元素。這些特征在以前的視覺語言模型中很少觀察到。我們認為 GPT-4 先進的多模態生成能力的主要原因在于使用了更先進的大語言模型(LLM)。為了研究這一現象,我們提出了 MiniGPT-4,它僅使用一個投影層將凍結的視覺編碼器與凍結的 LLM、Vicuna 對齊。我們的研究結果表明,MiniGPT-4 擁有許多與 GPT-4 類似的功能,例如詳細的圖像描述生成和根據手寫草稿創建網站。此外,我們還觀察到 MiniGPT-4 中的其他新興功能,包括受給定圖像啟發編寫故事和詩歌、為圖像中顯示的問題提供解決方案、教用戶如何根據食物照片烹飪等。在我們的實驗中,我們發現僅對原始圖像-文本對進行預訓練可能會產生缺乏連貫性的不自然語言輸出,包括重復和支離破碎的句子。為了解決這個問題,我們在第二階段策劃了一個高質量、對齊良好的數據集,以使用對話模板來微調我們的模型。事實證明,這一步驟對于增強模型的生成可靠性和整體可用性至關重要。值得注意的是,我們的模型計算效率很高,因為我們只利用大約 500 萬個對齊的圖像文本對來訓練投影層。

3.模型架構

ViT & Q-Former + Linear + Vicuna

MiniGPT-4 由一個帶有預訓練 ViT 和 Q-Former 的視覺編碼器、一個線性投影層和一個高級 Vicuna 大語言模型組成。 MiniGPT-4只需要訓練線性層即可將視覺特征與Vicuna對齊:

4.模型訓練

Stage1:
5M的圖文對

Stage2:
3500張高質量的指令數據

  1. 從Conceptual Caption datase中篩選5000張圖片,利用第一階段的模型輸出回答,第一階段自動生成的圖像描述包含噪音或不連貫的描述,如重復的單詞或句子,支離破碎的句子,或不相關的內容。
  2. 通過ChatGPT重構數據,最終得到3500張圖片
    系統提示:

Fix the error in the given paragraph. Remove any repeating sentences, meaningless characters, not English sentences, and so on. Remove unnecessary repetition. Rewrite any incomplete sentences. Return directly the results without explanation. Return directly the input paragraph if it is already correct without explanation.

5.總結

  1. 幻覺問題:long caption的幻覺比short caption 嚴重
  2. 空間理解能力不足


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/45090.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/45090.shtml
英文地址,請注明出處:http://en.pswp.cn/web/45090.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【設計模式之美】【建造型】工廠模式:通過面向接口編程思路,串起業務流程

文章目錄 一. 簡單工廠(Simple Factory)第一種簡單工廠:面向接口編程與工廠類:劃分功能職責第二種:單例簡單工廠:節省內存和對象創建的時間 二. 工廠方法(Factory Method)&#xff1…

文心一言:如何備考軟考架構師

提問:軟考高級:架構師指導,有哪些考點、重點考點有哪些?需要如何備考?案例分析題如何做?論文如何寫? 文心一言回答1700字如下: 針對軟考高級架構師的考試,以下是對考點、重點考點、備…

DiffusionModel-Transformer知識回顧

論文鏈接: Attention Is All You Need CNN vs RNN vs Transformer CNN(卷積神經網絡) 特點: 局部連接:每個卷積神經元只與輸入數據的局部區域連接,這有助于捕捉局部特征。權重共享:卷積核的權重…

Android筆記:Constructor (xxx) has been changed after generation.

遇到此報錯時,onstructor (xxx) has been changed after generation.是因為修改了實體類字段后什么都不修改的話就會報這個錯 這條信息是關于代碼生成和代碼變更的警告。當你使用某些工具(如注解處理器、代碼生成庫等)來自動生成代碼時&…

運行在Linux上的程序越來越慢的排查思路

1、通過free -h 排查內存使用情況,是否內存滿了 2、通過df -h 排查磁盤的使用情況,磁盤是否沒有空間了 3、檢查系統資源配置情況,比如使用ulimit -a檢查當前會話的資源限制,如最大文件數、打開文件描述符數等,看是否…

清華計算幾何-ConvexHull(凸包)-求極點InTriangle/ToLeft Test

ConvexHull(凸包) 凸包是什么 凸包是計算幾何一個非常基礎核心的概念。我理解的凸包就是給定一個點集合, 最外圍的點的包圍體就是凸包。如下所示: 極點(ExtremityPoint) 給定的點集合中, 如果一個點存在一條直線, 讓其他所有點都在于該直線的同一側, 則該點為極點。 非極點 …

如何理解electron 的預加載腳本

在 Electron 應用中,預加載腳本(Preload Script)是一個非常重要的概念,它允許你在渲染進程(web 頁面)和主進程之間創建一個安全的橋梁。預加載腳本運行在 Node.js 環境中,但位于渲染進程的一個單獨的上下文中,這意味著它可以訪問 Node.js 的 API,但無法直接訪問 DOM。…

JavaScript進階(7) ----構造函數和原型對象

目錄 構造函數 prototype 定義: 使用場景: constructor 使用場景: 原型proto 原型鏈 定義 特點 instanceof 運算符 原型繼承的基本概念 在JavaScript中,構造函數和原型是面向對象編程的核心概念,它們共同構…

海康工業相機驅動

1.新建基于對話框的MFC程序,界面布局如下 2.修改控件ID,為控件綁定變量 3.創建全局變量,構造函數中初始化變量,初始化對話框界面,補齊各控件按鈕響應函數 全文程序如下: // MFC_GrabimageDlg.h : 頭文件 /…

【動態規劃Ⅰ】斐波那契、爬樓梯、楊輝三角

動態規劃—斐波那契系列 什么是動態規劃斐波那契數組相關題目509. 斐波那契數 Easy1137. 第 N 個泰波那契數 Easy 楊輝三角118. 楊輝三角 Easy 爬樓梯相關題目70. 爬樓梯 Easy746. 使用最小花費爬樓梯 Easy 什么是動態規劃 動態規劃是一種通過將原問題分解為相對簡單的子問題來…

linux下解壓命令

在Linux下,解壓縮文件通常涉及多種命令,具體取決于文件的壓縮格式。以下是一些常用的解壓縮命令: tar.gz / .tgz 如果文件擴展名為 .tar.gz 或 .tgz,你可以使用 tar 命令來解壓縮: tar -xzf filename.tar.gz這里的 -x …

近期幾首小詩匯總-生活~卷

生活 為生活飄零,風雨都不阻 路見盲人艱,為她心點燈 賀中科大家長論壇成立十五周年 科學家園有喜賀 園外丑漢翹望中 曾一學子入我科 正育科二盼長大 憧憬也能入此家 與科學家論短長 園外翹首聽高論 發現有隙入此壇 竟然也能注冊成 入園瀏覽惶然立 此貼…

系統架構的基礎:定義、原則與發展歷程

目錄 1. 系統架構的定義 2. 系統架構的基本組成部分 2.1 架構層次 2.2 架構視圖 2.3 架構原則 3. 系統架構的發展歷程 3.1 初期階段:單體架構(Monolithic Architecture) 3.2 面向對象和組件化階段 3.3 客戶端-服務器架構(Client-Server Architecture) 3.4 三層架…

在 Linux 上使用 lspci 命令查看 PCI 總線硬件設備信息

lspci 命令用于顯示 Linux 系統上的設備和驅動程序 當在個人電腦或服務器上運行 Linux 時,有時需要識別該系統中的硬件。lspci 命令用于顯示連接到 PCI 總線的所有設備,從而滿足上述需求。該命令由 pciutils 包提供,可用于各種基于 Linux 和…

JAVA中的回溯算法解空間樹,八皇后問題以及騎士游歷問題超詳解

1.回溯算法的概念 回溯算法顧名思義就是有回溯的算法 回溯算法實際上一個類似枚舉的搜索嘗試過程,主要是在搜索嘗試過程中尋找問題的解,當發現已不滿足求解條件時,就“回溯”返回,嘗試別的路徑。回溯法是一種選優搜索法&#xff…

E12.【C語言】練習:求兩個數的最大公約數

1.枚舉 #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int main() {int a 0;int b 0;int tmp 0;scanf("%d %d", &a, &b);if (a < b){for (int i1; i < a; i){if (0a% i && 0b%i)tmp i;}}if (a>b){for (int i 1; i <…

[線性RNN系列] Mamba: S4史詩級升級

前言 iclr24終于可以在openreview上看預印本了 這篇&#xff08;可能是顛覆之作&#xff09;文風一眼c re組出品&#xff1b;效果實在太驚艷了&#xff0c;實驗相當完善&#xff0c;忍不住寫一篇解讀分享分享。 TL;DR &#xff08;overview&#xff09; Structured State-Sp…

Nginx 日志統計分析命令

統計訪問量最多的IP地址&#xff1a; awk {print $1} /path/to/nginx/access.log | sort | uniq -c | sort -nr | head -n 10統計不同狀態碼的出現次數&#xff1a; awk {print $9} /path/to/nginx/access.log | sort | uniq -c | sort -nr統計訪問量最多的URL&#xff1a; awk…

SQL Server端口配置指南

SQL Server是微軟推出的關系型數據庫管理系統&#xff0c;它支持多種操作系統平臺。默認情況下&#xff0c;SQL Server使用TCP/IP協議的1433端口進行通信。然而&#xff0c;出于安全或其他考慮&#xff0c;我們可能需要更改SQL Server實例的默認端口。本文將指導你如何更改SQL …

利率債與信用債的區別及其與債券型基金的關系

利率債與信用債的定義及其區別 定義 利率債&#xff1a; 定義&#xff1a;利率債是指由主權或類主權主體&#xff08;如中華人民共和國財政部、國家開發銀行等&#xff09;發行的債券。這些債券通常被認為沒有信用風險&#xff0c;因為它們由國家信用背書。特點&#xff1a;由…