LLM小記

RAG

參考
  • 檢索增強生成(RAG)概念及優化

主流模型

llama系列

1. 背景:模型參數量級的積累,或者訓練數據的增加,哪個對性能提升幫助更大?

最近的 “Training Compute-Optimal Large Language Models” 這篇論文提出一種縮放定律 (Scaling Law):訓練大語言模型時,在計算成本達到最優情況下,模型大小和訓練數據 (token) 的數量應該比例相等地縮放,即:如果模型的大小加倍,那么訓練數據的數量也應該加倍。翻譯過來就是:當我們給定特定的計算成本預算的前提下,語言模型的最佳性能不僅僅可以通過設計較大的模型搭配小一點的數據集得到,也可以通過設計較小的模型配合大量的數據集得到。

那么,相似成本訓練 LLM,是大 LLM 配小數據訓練,還是小 LLM 配大數據訓練更好?

縮放定律 (Scaling Law) 告訴我們對于給定的特定的計算成本預算,如何去匹配最優的模型和數據的大小。但是本文作者團隊認為,這個功能只考慮了總體的計算成本,忽略了推理時候的成本。因為大部分社區用戶其實沒有訓練 LLM 的資源,他們更多的是拿著訓好的 LLM 來推理。在這種情況下,我們首選的模型應該不是訓練最快的,而應該是推理最快的 LLM。呼應上題,本文認為答案就是:小 LLM 配大數據訓練更好,因為小 LLM 推理更友好。

2. 數據

  1. LLaMa 預訓練數據大約包含 1.4T tokens,對于絕大部分的訓練數據,在訓練期間模型只見到過1次,Wikipedia 和 Books 這兩個數據集見過2次

3. tokenizer

  • byte pair encoding(BPE) 算法
  • LLaMa 的 PyTorch 代碼如下,用到了 sentence piece 這個庫

4. 模型結構

111
222

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/712136.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/712136.shtml
英文地址,請注明出處:http://en.pswp.cn/news/712136.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java:PDF圖片抽取的兩種方法

圖片和PDF是我們日常生活和工作中經常接觸到的文檔格式。PDF是人們日常使用最多的跨平臺文檔,是一種用獨立于應用程序、硬件、操作系統的方式呈現文檔的文件格式。每個PDF文件包含固定布局的平面文檔的完整描述,包括文本、字形、圖形及其他需要顯示的信息…

如何利用HubSpot海外獲客系統實現海外市場擴張?

在當今全球化的時代,企業面臨著越來越激烈的競爭,而海外市場則被視為獲取更多增長機會的重要途徑之一。針對這一挑戰,企業需要建立一個完整的海外獲客系統,而HubSpot軟件的應用則成為了關鍵。作為HubSpot的合作伙伴,我…

librtmp源碼分析

閱讀了librtmp的源碼,簡單記錄下。 首先補充下AMF格式基本知識 1 AMF格式 AMF是Action Message Format(動作消息格式)的簡寫,它是一種二進制的數據格式。它的設計是為了把actionscript里面的數據(包括Object, Array, Boolean, Number等)序列化成二進制…

jvm 基礎知識和jvm 調優

類裝載分為以下 5 個步驟: 加載:根據查找路徑找到相應的 class 文件然后導入; 檢查:檢查加載的 class 文件的正確性; 準備:給類中的靜態變量分配內存空間; 解析:虛擬機將常量池中的符…

C# 異步返回類型詳解

在現代軟件開發中,異步編程已經成為一種重要的編程范式,尤其是在需要與I/O密集型操作交互的上下文中,比如網絡請求、數據庫操作等。C# 語言提供了強大的異步支持,使得異步編程變得更加簡單和直觀。本文將詳細介紹C#中異步返回類型…

vue3學習 【5】watch的使用

什么是watch 當我們需要根據一個數據的變化來進行一些操作的時候我們需要使用偵聽器,它能夠在響應式數據發生變化的時候觸發提供的回調函數 基礎偵聽 watch 可以偵聽不同的數據源。例如: ref計算屬性響應式對象getter函數多個數據源組層的數據 cons…

20240229金融讀報:央行阿拉善創新融資模式與碳排放權交易條例實施,新春政策聚焦新生產力及金融風險防范

1、人民銀行阿拉善盟分行實例:再貸款產業鏈(活體牲畜抵押貸款牲畜死亡率保險)、“再貸款新型農牧業經營主體”(基礎設施薄弱、產業結構單一,籌集資金創辦嘎查集體經濟股份合作社貸款) 2、建設銀行實例&…

oracle11安裝及使用

安裝oracle11 官網下載地址 Oracle Database 11g Release 2 for Microsoft Windows (x64) 官網下載慢可訪問我的資源 也可以網盤獲取 鏈接:https://pan.baidu.com/s/1RDrGkqDA7tfKRnpJXUBMDw 提取碼:z3na 上傳安裝包到服務器 在指定目錄下創建文件…

adb命令

1. 常用命令: adb devices #查看連接設備adb -s cf27456f shell # 指定連接設備使用命令adb install test.apk # 安裝應用adb install -r demo.apk #安裝apk 到sd 卡:adb uninstall cn.com.test.mobile #卸載應用,需要指定包adb uninstall -…

Windows系統x86機器安裝龍芯(loongarch64)3A5000虛擬機系統詳細教程

本次介紹在window系統x86機器上安裝loongarch64系統的詳細教程。 1.安裝環境準備。 首先,你得有臺電腦。 配置別太差,至少4核8G內存,安裝window10或者11都行(為啥不能是Window7,你要用也不是不行,你先解決…

leetcode:860.檸檬水找零

題意:按照支付順序,進行支付,能夠正確找零。 解題思路:貪心策略:針對支付20的客人,優先選擇消耗10而不是消耗5,因為5可以用來找零10或20. 代碼實現:有三種情況(代表三種…

vscode中使用python的cv2.imread()讀取圖片為None

這是之前的代碼: import cv2img_path c:\\Users\\LENOVO\\Desktop\\QQ截圖20240228234801.jpg print(img_path) print(cv2.__version__)img cv2.imread(img_path) print(img)運行結果: c:\Users\LENOVO\Desktop\QQ截圖20240228234801.jpg 3.4.1 None…

Linux下主線程 return 0 和 pthread_exit(NULL) 的區別

1. 背景 在Linux環境下,主線程以return 0結束時,程序會在主線程運行完畢后結束。而當主線程以pthread_exit(NULL)作為返回值時,主線程會等待子線程結束后才會退出程序。本文將詳細探討這兩種方式的區別,并提供相應的代碼示例。 …

String類的使用

String常用的構造方法 String的源碼 內部是一個數組和hash值,涉及到常量池后續補充(常量池:存儲相同的字符時只會存儲一租) String的比較 equals()與:String里面為我們提供了許多方法,可直接調用&#xf…

2024最新-ubuntu22.04安裝最新版QT6.6~6.8教程

? 1. 在官網下載 online_installer: https://download.qt.io/archive/online_installers/4.7/qt-unified-linux-x64-4.7.0-online.run 或者直接鏡像站下載: http://mirrors.ustc.edu.cn/qtproject/archive/online_installers/4.7/qt-unified-linux-x6…

數據結構之二叉樹的精講

𝙉𝙞𝙘𝙚!!👏🏻???????👏🏻??????? 👏🏻?????:Solitary_walk ?? ━━━┓ - 個性標簽 - :來于“云”的“羽球人”。…

蘋果汽車項目的敗局:起步失誤與方向迷茫

蘋果汽車的發展方向內部分歧導致項目多年掙扎,最終在本周宣布終止。 Brian X. Chen 和 Tripp Mickle 從項目初期就開始關注蘋果的汽車項目。 在過去十年中,許多參與蘋果秘密汽車項目“泰坦”(內部代號)的員工戲稱其為“泰坦尼克…

Python實現鏈表:從基礎到應用

一、引言 鏈表是一種常見的數據結構,它由一系列節點組成,每個節點包含數據和指向下一個節點的指針。鏈表在內存中的存儲不是連續的,這使得它在插入和刪除操作上具有較高的效率。本文將使用Python語言來實現一個簡單的鏈表,并展示其…

【前端面試題1】偽類與偽元素有什么區別

偽類與偽元素的區別: 1.偽類使用單冒號,而偽元素使用雙冒號。如 :hover 是偽類,::before 是偽元素 2.偽元素會在文檔流生成一個新的元素,但偽元素本身并不是DOM元素,并且可以使用 content 屬性設置內容 CSS偽類與偽元…

卷積神經網絡基本概念補充

卷積(convolution)、通道(channel) 卷積核大小一般為奇數,有中心像素點,便于定位卷積核。 步長(stride)、填充(padding) 卷積核移動的步長(stride…