大模型應用開發之LLM入門

一、大模型概述

1、大模型概念

LLM是指用有大量參數的大型預訓練語言模型,在解決各種自然語言處理任務方面表現出強大的能力,甚至可以展現出一些小規模語言模型所不具備的特殊能力

2、語言模型language model

語言建模旨在對詞序列的生成概率進行建模,以預測未來tokens的概率,語言模型的發展:

1)統計語言模型SLM:?統計語言模型使用馬爾可夫假設(Markov Assumption)來建立語言序列的預測模型,通常是根據詞序列中若干個連續的上下文單詞來預測下一個詞的出現概率,經典的例子是n-gram模型,在此模型中一個詞出現的概率只依賴于前面的n-1個詞,比如一個3gram模型只考慮前兩個詞對第三個詞出現概率的影響

2)神經語言模型NLM:使用神經網絡來預測詞序列的概率分布,如RNN包括LSTM和GRU等變體,這樣NLM就可以考慮更長的上下文或整個句子的信息,而傳統的統計語言模型使用固定窗口大小的詞來預測;在該模型中引入分布式詞表示,每個單詞被編碼為實數值向量,即詞嵌入(word embeddings)用來捕捉詞與詞之間的語法關系

3)預訓練語言模型PLM: PLM開始在規模無標簽語料庫上進行預訓練任務,學習語言規律知識,并且針對特定任務進行微調(fine-tuning)來適應不同應用場景;而對于大規模的長文本,谷歌提出了transformer--通過自注意力機制(self- attention)和高度并行化能力,可以在處理序列數據時捕捉全局依賴關系,極大提高序列處理任務的效率

4)大語言模型LLM: 當一些研究工作嘗試訓練更大的預 訓練語言模型(例如 175B 參數的 GPT-3 540B 參數的 PaLM)來探索擴展語言 模型所帶來的性能極限。這些大規模的預訓練語言模型在解決復雜任務時表現出 了與小型預訓練語言模型(如 330M 參數的 BERT 1.5B 參數的 GPT2)不同 的行為,這種大模型具 有但小模型不具有的能力通常被稱為“涌現能力”(Emergent Abilities),這些大型的預訓練模型就是LLM

3、大模型特點?

1)參數數量龐大,數據需求巨大

2)計算資源密集

3)泛化能力強

4)遷移學習效果佳

4、小模型vs大模型

5、大模型企業應用

1)通用大模型

2)行業大模型

3)產業大模型

二、大模型基礎

1、大模型構建過程

1)大規模預訓練 (Large-Scale Pre-training)

目標為模型參數找到好的“初值點”,使其編碼世界知識,具備通用的語言理解和生成能力。可以看作是世界知識的壓縮
方法?使用海量(當前普遍?2~3T tokens?規模,并有擴大趨勢)的無標注文本數據,通過自監督學習任務(當前主流是“預測下一個詞”)訓練解碼器架構 (Decoder Architecture)?模型。
關鍵要素?

1.?數據:高質量、多源化數據的收集與嚴格清洗至關重要,直接影響模型能力。?

2.?算力:需求極高(百億模型需數百卡,千億模型需數千甚至萬卡集群),訓練時間長。?

3.?技術與人才:涉及大量經驗性技術(數據配比、學習率調整、異常檢測等),高度依賴研發人員的經驗和能力。

2)指令微調與人類對齊 (Instruction Fine-tuning & Human Alignment)

動機?預訓練模型雖有知識,但不擅長直接按指令解決任務。需要進一步訓練以適應人類的使用方式和價值觀。
指令微調?

目標:使模型學會通過問答形式解決任務。?

方法:使用“任務輸入-輸出”配對數據進行有監督的模仿學習 (Imitation Learning)。?

作用:主要在于激發模型在預訓練階段學到的能力,而非注入新知識。?

資源:所需數據量(數十萬到百萬級)和算力遠小于預訓練。

?人類對齊?

目標:使模型行為符合人類的期望、需求和價值觀(如“有用、誠實、無害”)。?

主流方法:?RLHF?(基于人類反饋的強化學習)。?

RLHF過程: 標注員對模型輸出進行偏好排序?-> 訓練獎勵模型 (Reward Model)?-> 使用強化學習根據獎勵模型優化語言模型。?

資源:通常比SFT消耗多,但遠小于預訓練。也在探索更簡化的對齊方法。

產出?一個能夠進行良好人機交互,能按指令解決問題,并且行為更符合人類期望的最終模型

2、擴展法則

通過增大模型參數量、訓練數據量和計算量來提升模型能力,而且這種提升往往比改進模型架構或算法本身帶來的提升更顯著。?為了量化研究這種規模擴展帶來的性能提升,研究人員提出了擴展法則來研究規模擴展與模型性能(通常用損失函數 Loss 來衡量)的關系,可以幫助預測不同資源投入下的模型性能:

1)KM 擴展法則

建立模型性能與三個主要因素模型規模 N?(參數量)、數據規模 D?(token 數量)、計算算力 C?(通常指訓練期間的總計算量) 之間的冪律關系

推論:為了達到最低的 Loss,增大模型規模 N 比增大訓練數據量 D 更有效。也就是說,分配更多計算資源給模型參數增長,帶來的收益更大。

2)Chinchilla 擴展法則

該法則認為?KM 法則可能低估了數據規模 D 的重要性。他們在給定計算預算 C 下,同時調整 N 和 D提出了新的擴展法則

推論:對于給定的計算預算 C,要達到最優性能(最低 Loss),模型規模 N 和數據規模 D 應該按比例同步擴展。他們的研究表明,最優的 N 和 D 大約與 C 的平方根 成正比,意味著計算預算應該大致平均分配給模型規模增長和數據規模增長

3)局限性

  • 擴展法則主要預測的是預訓練損失 (Pre-training Loss),這與模型在具體下游任務上的表現、涌現能力(Emergent Abilities, 如推理、遵循復雜指令)以及對齊后(如 RLFH 后)的實際效果不完全等同

  • 模型性能是多維度的,Loss 只是其中一個指標。擴展法則難以預測模型是否“有用”、“誠實”、“無害”等對齊相關的特性。

  • 存在逆向擴展現象 (Inverse Scaling):在某些特定任務或指標上,模型規模增大反而導致性能下降。

  • 數據質量的影響難以簡單量化進 D 中,但對模型能力至關重要。

3、涌現能力

特征:特定任務的性能在模型規模達到某個閾值后,出現突然的、遠超隨機水平的性能躍升

1)上下文學習 (In-context Learning, ICL)

模型能根據提示中給出的少量任務示例(Demonstrations)來完成新任務,無需進行模型參數的更新(梯度下降)。

例子:?GPT-3 (175B) 展現出強大的ICL能力,而GPT-1/2則不具備。能力也與任務相關,例如13B的GPT-3在簡單算術上可以ICL,但175B在波斯語問答上效果不佳。

2)指令遵循 (Instruction Following):

模型能理解并執行自然語言指令來完成任務,即使沒有在提示中給出具體示例(零樣本泛化)。通常通過指令微調 (Instruction Tuning ),使用大量(任務指令,任務輸出)的數據對進行訓練。

例子:?FLAN-PaLM 在規模達到 62B 及以上時,才在復雜的 BBH 推理基準上展現出較好的零樣本能力。但較小模型(如 2B)用高質量數據微調也能掌握一定(尤其是簡單任務)指令遵循能力。

3)逐步推理 (Step-by-step Reasoning)

模型能解決需要多個推理步驟的復雜任務(如數學應用題),特別是利用思維鏈 (Chain-of-Thought, CoT)?提示策略時,即在提示中引導模型生成中間的推理步驟,從而得到更可靠的答案。

例子:?CoT 對 PaLM 的 62B 和 540B 模型在算術推理上有提升,但對 8B 模型效果不明顯,且在 540B 上提升更顯著。提升效果也因任務而異。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/77097.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/77097.shtml
英文地址,請注明出處:http://en.pswp.cn/web/77097.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Vue 計算屬性 VS 偵聽器:從原理到性能的深度對比

在 Vue 開發中,computed(計算屬性)和watch(偵聽器)是響應式系統的兩大核心工具。 它們看似都能處理數據變化,實則設計理念和應用場景大相徑庭。 一、核心區別:數據驅動的兩種范式 1. 觸發機制…

特斯拉宣布啟動自動駕駛網約車測試,無人出租車服務進入最后準備階段

特斯拉公司于4月24日正式宣布,已在美國得克薩斯州奧斯汀和加利福尼亞州舊金山灣區啟動自動駕駛網約車服務的員工內部測試。這項測試將為今年夏季計劃推出的完全無人駕駛出租車服務進行最后的驗證和準備。 此次測試使用約200輛經過特殊改裝的Model 3車型,…

基于springboot的在線教育系統

一、系統架構 前端:vue | element-ui | html | jquery | css | ajax 后端:springboot | mybatis 環境:jdk1.8 | mysql | maven | nodejs | idea 二、代碼及數據 三、功能介紹 01. web端-首頁1 02. web端-首頁2 03. w…

文檔編輯:reStructuredText全面使用指南 — 第四部分 高級主題

文檔編輯:reStructuredText全面使用指南 — 第四部分 高級主題 reStructuredText(簡稱RST或ReST)是一種輕量級的標記語言,用于編寫結構化的文檔。它由Python社區開發,并廣泛應用于技術文檔、書籍、博客文章等。reStruc…

git Http改用戶下載

用原先別人賬號,無權下更新 http方式設置自己賬號 例如 git fetch --all 提示沒有權限從 http://192.168.1.2/gitlab/項目路徑.git下載 git remote set-url origin http://your-username192.168.1.2/gitlab/項目路徑.git your-username修改成自己的git賬號 需要輸入一個Tok…

Cancer Cell|scRNA-seq + scTCR + 空間多組學整合分析,揭示CD8? T細胞在免疫治療中的“雙路徑” | 臨床問題的組學解答

Cancer Cell|scRNA-seq scTCR 空間多組學整合分析,揭示CD8? T細胞在免疫治療中的“雙路徑” 👋 歡迎關注我的生信學習專欄~ 如果覺得文章有幫助,別忘了點贊、關注、評論,一起學習 近日,《Cancer Cell》…

Python編程的真諦:超越語法,理解編程本質

你是否也曾陷入這樣的誤區:學了無數的 Python 語法、刷了幾十套題,寫起代碼卻仍然卡頓、舉步維艱?這時候你才發現,真正阻礙進步的,從不是語法,而是你對“編程本質”的理解。 如果你只是死記硬背Python的語…

Go協程的調用與原理

Goroutine Go不需要像C或者Java那樣手動管理線程,Go語言的goroutine機制自動幫你管理線程。 使用goroutine、 Go語言中使用goroutine非常簡單,只需要在調用函數的時候在前面加上go關鍵字,就可以為一個函數創建一個goroutine。 一個gorout…

自然語言處理(9)—— 共現詞矩陣及Python實現

共現詞矩陣 1. 概述2. 構建步驟3. 代碼實現(Python)結語 共現詞矩陣(Co-occurrence Matrix)是自然語言處理(NLP)中用于捕捉詞語間語義關系的重要工具。共現矩陣通過統計詞語在特定上下文窗口內的共現頻率&a…

Spark SQL核心解析:大數據時代的結構化處理利器

在大數據處理領域,Spark以其強大的分布式計算能力脫穎而出,而Spark SQL作為Spark生態系統的重要組成部分,為結構化和半結構化數據處理提供了高效便捷的解決方案。它不僅整合了傳統SQL的強大查詢功能,還深度集成到Spark的計算框架中…

多態以及多態底層的實現原理

本章目標 1.多態的概念 2.多態的定義實現 3.虛函數 4.多態的原理 1.多態的概念 多態作為面對三大特性之一,它所指代的和它的名字一樣,多種形態.但是這個多種形態更多的指代是函數的多種形態. 多態分為靜態多態和動態多態. 靜態多態在前面已經學習過了,就是函數重載以及模板,…

linux下開發NFC讀寫器

linux下使用NFC讀卡器,基于QT5開發 創建工程,引入lib開始編寫代碼 創建工程,引入lib 創建一個QT工程,如果是控制臺程序,則去掉gui QT - gui引入lib庫 LIBS -L$$PWD/lib -lyw60x這里需要將libyw60x.so庫文件放在工程…

Linux基礎使用-筆記

1. 文件和目錄操作 查看當前目錄:pwd 命令用于顯示當前工作目錄的完整路徑。 pwd切換目錄:cd 命令用于切換工作目錄。 # 切換到指定目錄 cd /home/user/Documents # 切換到上一級目錄 cd .. # 切換到用戶主目錄 cd ~列出目錄內容:ls 命令用…

DAG(有向無環圖)計算模型面試內容整理-拓撲排序(Topological Sort)和節點依賴與并行度

拓撲排序(Topological Sort) 拓撲排序(Topological Sort): 拓撲排序是針對有向無環圖(DAG)的一種線性排序方法。這種排序方法的特點是,對于DAG中的每一條有向邊 (A → B),在拓撲排序中節點A總是排在節點B之前。

23種設計模式-結構型模式之享元模式(Java版本)

Java 享元模式(Flyweight Pattern)詳解 🦋 什么是享元模式? 享元模式是一種結構型模式,它通過共享相同的對象來減少內存消耗,適用于大量細粒度對象的場景。關鍵思想是緩存重復出現的對象,避免…

瀏覽器訪問背后的秘密:從加載到關閉,數據是否會丟失?

? 一次瀏覽器訪問 www.xxx.com 背后發生了什么? —— 以及“我點了 ,數據會不會丟?”的深度剖析 適讀人群:Web 開發者、運維工程師、性能調優/安全從業者 1?? 打開瀏覽器敲下網址:鏈路是如何啟動的? 階…

【HDFS入門】深入解析DistCp:Hadoop分布式拷貝工具的原理與實踐

目錄 1 DistCp概述與應用場景 2 DistCp架構設計解析 2.1 系統架構圖 2.2 執行流程圖 3 DistCp核心技術原理 3.1 并行拷貝機制 3.2 斷點續傳實現原理 4 DistCp實戰指南 4.1 常用命令示例 4.2 性能優化策略 5 異常處理與監控 5.1 常見錯誤處理流程 5.2 監控指標建議…

hbuilderx云打包生成的ipa文件如何上架

使用hbuilderx打包,會遇到一個問題。開發的ios應用,需要上架到app store,因此,就需要APP store的簽名證書,并且還需要一個像xcode那樣的工具來上架app store。 我們這篇文章說明下,如何在windows電腦&…

第十五屆藍橋杯 2024 C/C++組 拼正方形

目錄 題目: 題目描述: 題目鏈接: 思路: 思路詳解: 易錯點: 代碼: 代碼詳解: 題目: 題目描述: 題目鏈接: P10898 [藍橋杯 2024 省 C] 拼正…

華為云獲取IAM用戶Token的方式及適用分析

🧠 一、為什么要獲取 IAM 用戶 Token? 我們用一個生活中的比喻來解釋👇: 🏢 比喻場景: 你要去一個 高級寫字樓(華為云物聯網平臺) 辦事(調用接口管理設備)&…