【論文筆記】Gemini: A Family of Highly Capable Multimodal Models——細看Gemini

Gemini

【一句話總結,對標GPT4,模型還是transformer的docoder部分,提出三個不同版本的Gemini模型,Ultra的最牛逼,Nano的可以用在手機上。】

谷歌提出了一個新系列多模態模型——Gemini家族模型,包括Ultra,Pro,Nano(1.5B Nano-1,3.25BNano-2)三種尺寸(模型由大到小)。在圖像、音頻、視頻和文本理解方面都表現出現,Gemini Ultra在32個benchmarks實現了30個sota。在MMLU中甚至達到了人類專家的性能。
Bard具體使用體驗待更新…

1. 引言

Gemini的目標:建立一個模型,該模型不僅具有跨模態的強大通用能力,而且在每個領域都具有尖端的理解和推理性能。

Gemini 1.0 包括三個版本:Ultra 適用于高度復雜的任務,Pro 適用于高性能和大規模部署的場景,Nano 適用于設備上的應用。

Gemini Ultra,在文本推理上實現10/12,圖片理解9/9,視頻理解6/6,語音識別和翻譯5/5。

Untitled

AlphaCode 團隊基于Gemini構建出AlphaCode2,在 Codeforces 競技編程平臺的參賽者中名列前 15%,與名列前 50%的前代產品相比有了很大提高。

此外,還發布了Gemini Nana【針對邊緣計算設備的,這個蠻有意思的,想體驗一下。】

在下面的章節中,首先概述了模型架構、訓練基礎設施和訓練數據集。然后,介紹了 Gemini 模型系列的詳細評估,其中包括文本、代碼、圖像、音頻和視頻方面經過充分研究的基準和人類偏好評估–其中包括英語性能和多語言能力。討論了作者負責任的部署方法2,包括影響評估、制定模型政策、評估以及在部署決策前減輕危害的過程。最后,討論了 Gemini 的廣泛影響、局限性及其潛在應用–為人工智能研究與創新的新時代鋪平道路。

2. 模型架構

模型同樣使用的Transformer的Decoder部分,對模型架構和的模型優化進行了改進。最大支持32K上下文。

Untitled

Gemini的輸入可以是文字與各種音頻和視覺的組合(如自然圖像、圖表、截圖、PDF 和視頻),輸出是為文本和圖像。The visual encoding of Gemini models is inspired by our own foundational work on Flamingo (Alayrac et al., 2022), CoCa (Yu et al., 2022a), and PaLI (Chen et al., 2022), with the important distinction that the models are multimodal from the beginning and can natively output images using discrete image tokens (Ramesh et al., 2021; Yu et al., 2022b).【視覺編碼是來源于下面這些工作的。】

視頻理解是通過將視頻編碼為大型上下文窗口中的幀序列來實現的。視頻幀或圖像可與文本或音頻自然交錯,作為模型輸入的一部分。

Gemini 可以直接從通用語音模型(USM)(Zhang 等人,2023 年)特征中獲取 16kHz 的音頻信號。這使得該模型能夠捕捉到音頻被簡單地映射到文本輸入時通常會丟失的細微差別(例如,請參閱網站上的音頻理解演示)

Untitled

3. 訓練基礎設施

用的是Google自己的TPU資源。【圖片來自Gemini的blog,每一次看都感覺很震撼……大力出奇跡】

在這里插入圖片描述

4. 訓練數據集

預訓練數據集使用了來自網絡文檔、書籍和代碼的數據,還包括圖像、音頻和視頻數據

tokenizer使用的是SentencePiece tokenizer。并且發現,在整個訓練語料庫的大量樣本上訓練標記化器可以提高推斷詞匯量,從而提高模型性能。例如,發現 Gemini 模型可以有效地標記非拉丁文【比如漢語】腳本,這反過來又有利于提高模型質量以及訓練和推理速度。用于訓練最大模型的token數量是按照霍夫曼等人(2022)的方法確定的。對于較小的模型,則使用更多的token進行訓練,以提高給定推理預算下的性能,這與 Touvron 等人(2023a)所提倡的方法類似。

我們使用啟發式規則和基于模型的分類器對所有數據集進行質量過濾。我們還進行了安全過濾,以去除有害內容。我們從訓練語料庫中過濾評估集。最終的數據混合物和權重是通過對較小模型的消減確定的。我們進行階段性訓練,以便在訓練過程中改變混合物的組成–在訓練接近尾聲時增加領域相關數據的權重。我們發現,數據質量對高性能模型至關重要,并認為在尋找預訓練的最佳數據集分布方面仍存在許多有趣的問題。

5. Evalution

Gemini 模型是原生的多模態模型,因為它們是跨文本、圖像、音頻和視頻進行聯合訓練的。一個懸而未決的問題是,這種聯合訓練是否能產生一個在每個領域都有強大能力的模型–即使與狹隘地針對單一領域的模型和方法相比也是如此。我們發現情況確實如此:在廣泛的文本、圖像、音頻和視頻基準測試中,Gemini 樹立了新的技術典范。

5.1. Text

5.1.1. Academic Benchmarks

在一系列基于文本的學術基準測試中,我們將 Gemini Pro 和 Ultra 與一套外部 LLM 和我們之前的最佳模型 PaLM 2 進行了比較,測試內容包括推理、閱讀理解、STEM 和編碼。我們在表 2 中報告了這些結果。總的來說,我們發現 Gemini Pro 的性能優于 GPT-3.5 等推理優化模型,并可與現有的幾種能力最強的模型相媲美,而 Gemini Ultra 則優于目前所有的模型。

我們發現,當 Gemini Ultra 與考慮到模型不確定性的思維鏈提示方法(Wei 等人,2022 年)結合使用時,其準確率最高。該模型會產生一個包含 k 個樣本(例如 8 個或 32 個)的思維鏈。如果存在高于預設閾值的共識(根據驗證分割選擇),它就會選擇這個答案,否則就會返回到基于最大似然選擇的貪婪樣本,而不進行思維鏈。【這個CoT@32….挺有意思】

Untitled

5.1.2. Trends in Capabilities

Untitled

5.1.3. Nano

【個人感覺Nano是最友好的,Nano-1:1.8B的參數,Nano-2:3.25B的參數】

Untitled

5.1.4. Multilinguality

多語言翻譯

Untitled

多語言數學與總結

Untitled

5.1.5. Long Context

Gemini是在32768個token的情況下進行訓練的【seq_len = 32768】

Untitled

5.1.6. Human Preference Evaluations

Untitled

5.1.7. Complex Reasoning Systems

5.2. Multimodal

雙子座模型天生就是多模態的。如圖 5 和圖 12 所示,這些模型具有獨特的能力,能將其跨模態能力(如從表格、圖表或圖形中提取信息和空間布局)與語言模型的強大推理能力(如其在數學和編碼方面的一流性能)無縫結合起來。這些模型在辨別輸入中的細粒度細節、聚合跨時空的上下文以及將這些能力應用于與時間相關的視頻幀和/或音頻輸入序列方面也表現出色。下文將對模型在不同模式(圖像、視頻和音頻)下的表現進行更詳細的評估,并舉例說明模型在圖像生成方面的能力以及在不同模式下整合信息的能力。

5.2.1. Image Understanding

Untitled

Untitled

Untitled

Untitled

5.2.2. Video Understanding

從每個視頻片段中抽取 16 個間隔相等的幀,并將其輸入 Gemini 模型

Untitled

5.2.3. Image Generation

Untitled

5.2.4. Audio Understanding

Untitled

Untitled

5.2.5. Modality Combination

Untitled

6. Responsible Deployment

Untitled

6.1. Impact Assessment

6.2. Model Policy

6.3. Evaluations

6.4. Mitigations

6.4.1. Data

6.4.2. Instruction Tuning

指令調整包括監督微調(SFT)和使用獎勵模型通過人類反饋進行強化學習(RLHF)。我們在文本和多模式設置中應用指令調整。指令調整配方經過精心設計,以平衡幫助性的增加和與安全性和幻覺相關的模型危害的減少(Bai 等人,2022a)。 “質量”數據的管理對于 SFT、獎勵模型訓練和 RLHF 至關重要。使用較小的模型消除數據混合比率,以平衡有用性(例如遵循指令、創造力)和模型危害減少的指標,并且這些結果可以很好地推廣到較大的模型。我們還觀察到,數據質量比數量更重要(Touvron et al., 2023b; Zhou et al., 2023),特別是對于較大的模型。同樣,對于獎勵模型訓練,我們發現平衡數據集與模型更喜歡說“我無能為力”的示例(出于安全原因)和模型輸出有用響應的示例至關重要。我們使用多目標優化以及有用性、真實性和安全性獎勵分數的加權總和來訓練多頭獎勵模型。我們進一步闡述了降低有害文本生成風險的方法。我們在各種用例中列舉了大約 20 種傷害類型(例如仇恨言論、提供醫療建議、建議危險行為)。我們生成這些類別中潛在危害性查詢的數據集,要么由政策專家和機器學習工程師手動生成,要么通過以主題關鍵字作為種子提示高性能語言模型來生成。考慮到會造成傷害的查詢,我們探索 Gemini 模型并通過并排評估來分析模型響應。如上所述,我們平衡了模型輸出響應無害與有幫助的目標。根據檢測到的風險區域,我們創建額外的監督微調數據來展示理想的響應。

6.4.3. Factuality

6.4.3. Factuality

6.6. Responsible Governance

7. Discussion and Conclusion

【一句話總結:Gimini最牛逼,是谷歌集大成之作】

除了基準測試中最先進的結果之外,我們最興奮的是 Gemini 模型支持的新用例。 Gemini 模型的新功能可解析復雜圖像(例如圖表或信息圖表),對圖像、音頻和文本的交錯序列進行推理,并在響應時生成交錯文本和圖像,從而開啟了各種新應用。正如報告和附錄中的數據所示,Gemini 可以在教育、日常問題解決、多語言交流、信息總結、提取和創造力等領域實現新方法。我們期望這些模型的用戶會發現各種有益的新用途,而這些用途在我們自己的調查中只觸及了表面。

Gemini 是我們朝著解決智能問題、推進科學發展和造福人類的使命邁出的又一步,我們熱切地希望看到 Google 及其他公司的同事如何使用這些模型。我們建立在機器學習、數據、基礎設施和負責任的開發方面的許多創新之上,這些都是我們在 Google 十多年來一直追求的領域。我們在本報告中提出的模型為我們更廣泛的未來目標提供了堅實的基礎,即開發一個大規模、模塊化的系統,該系統將在多種模式中具有廣泛的泛化能力。

8. 人員

9. Appendix

9.1. Chain-of-Thought Comparisons on MMLU benchmark

9.2. Capabilities and Benchmarking Tasks

9.3. Qualitative Examples

9.3.1. Chart understanding and reasoning over data

9.3.2. Multimodal question answering

9.3.3. Interleaved image and text generation

9.3.4. Image understanding and reasoning

9.3.5. Geometrical reasoning

9.3.6. Information seeking about objects

9.3.7. Multimodal reasoning based on visual cues

9.3.8. Multimodal humor understanding

9.4. Commonsense reasoning in a multilingual setting

9.4.1. Reasoning and code generation

9.4.2. Mathematics: Calculus

9.5. Multi-step reasoning and mathematics

9.5.1. Complex image understanding, code generation, and instruction following

9.5.2. Video understanding and reasoning

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/212312.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/212312.shtml
英文地址,請注明出處:http://en.pswp.cn/news/212312.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java 何時會觸發一個類的初始化

Java 何時會觸發一個類的初始化? 使用new關鍵字創建對象訪問類的靜態成員變量 或 對類的靜態成員變量進行賦值調用類的靜態方法反射調用類時,如 Class.forName()初始化子類時,會先初始化其父類(如果父類還沒有進行過初始化的話&a…

找不到WMVCORE.dll怎么辦?一鍵解決WMVCORE.dll缺失的詳細方法分享

當打開軟件時提示wmvcore.dll丟失,這可能是由于以下幾個原因導致的: 系統文件損壞:wmvcore.dll是系統文件,可能會因為各種原因(如病毒感染、系統錯誤、軟件卸載等)而損壞。 軟件依賴問題:某些…

用 Python 自動創建 Markdown 表格

更多資料獲取 📚 個人網站:ipengtao.com Markdown表格是文檔中整理和展示數據的重要方式之一。然而,手動編寫大型表格可能會費時且容易出錯。本文將介紹如何使用Python自動創建Markdown表格,通過示例代碼詳細展示各種場景下的創建…

Linux基礎指令詳解(1)

操作系統的概念 百度百科 操作系統(英語:Operating System,縮寫:OS)是一組主管并控制計算機操作、運用和運行硬件、軟件資源和提供公共服務來組織用戶交互的相互關聯的系統軟件程序。根據運行的環境,操作系…

【Python網絡爬蟲入門教程1】成為“Spider Man”的第一課:HTML、Request庫、Beautiful Soup庫

Python 網絡爬蟲入門:Spider man的第一課 寫在最前面背景知識介紹蛛絲發射器——Request庫智能眼鏡——Beautiful Soup庫 第一課總結 寫在最前面 有位粉絲希望學習網絡爬蟲的實戰技巧,想嘗試搭建自己的爬蟲環境,從網上抓取數據。 前面有寫一…

論文閱讀——Deformable ConvNets v2

論文:https://arxiv.org/pdf/1811.11168.pdf 代碼:https://github.com/chengdazhi/Deformable-Convolution-V2-PyTorch 1. 介紹 可變形卷積能夠很好地學習到發生形變的物體,但是論文觀察到當盡管比普通卷積網絡能夠更適應物體形變&#xff…

LeetCode-1566. 重復至少 K 次且長度為 M 的模式【數組 枚舉】

LeetCode-1566. 重復至少 K 次且長度為 M 的模式【數組 枚舉】 題目描述:解題思路一:題意就是找出長度為m且連續重復k次的子數組。解題思路就是暴力枚舉加剪枝。解題思路二:思路差不多解題思路三:0 題目描述: 給你一個…

Numpy數組的去重 np.unique()(第15講)

Numpy數組的去重 np.unique()(第15講) ??????? ??博主 侯小啾 感謝您的支持與信賴。?? ?????????????????????????????????????????????????????????????????????????????????…

Linux權限詳解

Linux權限 文章目錄 Linux權限一、root賬號與普通賬號二、Linux權限管理三、權限權值表示方法四、文件訪問權限的設置方法五、粘滯位六、權限總結 前言: 我們在學習Linux的時候,我們知道在Linux下一切皆文件,而不同的文件對于不同的用戶有不同…

第二十一章總結。。

計算機網絡實現了墮胎計算機間的互聯,使得它們彼此之間能夠進行數據交流。網絡應用程序就是再已連接的不同計算機上運行的程序,這些程序借助于網絡協議,相互之間可以交換數據,編寫網絡應用程序前,首先必須明確網絡協議…

掌握iText:輕松處理PDF文檔-基礎篇

關于iText iText是一個強大的PDF處理庫,可以用于創建、讀取和操作PDF文件。它支持PDF表單、加密和簽署等操作,同時支持多種字體和編碼。maven的中央倉庫中的最新版本是5.X,且iText5不是完全免費的,但是基礎能力是免費使用的&…

2023-12-10 LeetCode每日一題(爬樓梯)

2023-12-10每日一題 一、題目編號 70. 爬樓梯二、題目鏈接 點擊跳轉到題目位置 三、題目描述 假設你正在爬樓梯。需要 n 階你才能到達樓頂。 每次你可以爬 1 或 2 個臺階。你有多少種不同的方法可以爬到樓頂呢? 示例 1: 示例 2: 提…

gin投票系統2

投票系統 數據庫的建立 先分析需求,在sql中建立數據庫,關于項目數據庫如何建立可以在“goweb項目創建流程分析中看如何去建表” 成功后目前有四個表: vote,user,vote_opt,vote_opt_user 建立數據庫,可以…

Flink基本轉換算子map/filter/flatmap

map map是大家非常熟悉的大數據操作算子,主要用于將數據流中的數據進行轉換,形成新的數據流。簡單來說,就是一個“一一映射”,消費一個元素就產出一個元素。 我們只需要基于DataStream調用map()方法就可以進行轉換處理。方法需要…

案例026:基于微信小程序的原創音樂系統的設計與實現

文末獲取源碼 開發語言:Java 框架:SSM JDK版本:JDK1.8 數據庫:mysql 5.7 開發軟件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序開發軟件:HBuilder X 小程序…

什么是Restful?

Rest簡介 REST是英文representational state transfer(表象性狀態轉變)或者表述性狀態轉移。Rest是web服務的一種架構風格。使用HTTP,URI,XML,JSON,HTML等廣泛流行的標準和協議。輕量級,跨平臺,跨語言的架構設計。它是一種設計風格,不是一種標準,是一種思想。 Rest架構的主要…

java程序定時器

目錄 1.java定時器原生方法 1.java定時器原生方法 實現每天早上8點執行任務的示例代碼 import java.util.concurrent.ScheduledExecutorService; import java.util.concurrent.ScheduledThreadPoolExecutor; import java.util.concurrent.TimeUnit;public class TimeTest{pub…

汽車網絡安全--關于UN R155認證的思考

1.UN R155概述 2020年6月25日,聯合國頒布了全球首個汽車網絡安全強制性法規 -- UN 155,詳細規定了關于評估網絡安全措施的審核條款、制造商和供應商降低網絡安全風險的方法以及實施風險評估的義務等。 法規適用于與信息安全相關的M類(4輪及以上載客汽車)、N類(四輪載貨汽車)…

SpringBoot項目連接Graylog

直接用logback將控制臺輸出的日志發送到graylog上 1.導入logback依賴 <dependency> <groupId>de.siegmar</groupId> <artifactId>logback-gelf</artifactId> <version>1.1.0</version> </dependency> 2.創建logback-spring.x…

淺談低代碼

低代碼開發是近年來迅速崛起的軟件開發方法&#xff0c;讓編寫應用程序變得更快、更簡單。有人說它是美味的膳食&#xff0c;讓開發過程高效而滿足&#xff0c;但也有人質疑它是垃圾食品&#xff0c;缺乏定制性與深度。你認為低代碼到底是美以下方向僅供參考。味的膳食還是垃圾…