大語言模型入門

大語言模型入門

  • 1 大語言模型步驟
    • 1.1 pre-training 預訓練
      • 1.1.1 從網上爬數據
      • 1.1.2 tokenization
        • 1.1.2.1 tokenization using byte pair encoding
    • 1.3 預訓練
      • 1.3.1 context
      • 1.3.2 training
      • 1.3.3 輸出
    • 1.2 post-training1:SFT監督微調
      • 1.2.1 token
    • 1.3 強化學習
      • 1.3.1 基于獎勵函數進行試錯
      • 1.3.2 人類反饋強化學習
      • PPO
      • GRPO
  • 4 大語言模型值得相信嗎
    • 4.1 AI hallucinations幻覺
      • 4.1.1 如何確認存在幻覺
      • 4.1.2 如何解決幻覺
    • 4.2 大模型心理學LLM psychology
    • 4.3 大模型的自我認知
    • 4.4 大模型的數學能力
      • 4.4.1 Let the model think
      • 4.4.2 如果強行要求直出結果,可能導致出錯
      • 4.4.3 Use tools
        • 4.4.3.1 Use tools to count
        • 4.4.3.2 Use tools to spell
      • 4.4.4 為什么模型認為4.11 > 4.9
  • Deepseek
    • Reasoning oriented RL using GRPO

1 大語言模型步驟

1.1 pre-training 預訓練

1.1.1 從網上爬數據

download and preprocess the internet, including url filtering(like, removing racist/adult websites), PII removal(personal identifiable information should be removed, 豆包被爆輸出個人信息,所以是這一點沒有做好)
數據規模大概是44TB左右,不大,甚至一個大點的移動硬盤就可以裝下。

1.1.2 tokenization

tokenization = context -> symbols/a sequence of tokens

  1. 文字編碼的本質就是把字或字母轉成一個有限表示的序列,比如a-z可以用1-26來表示。
  2. 這個序列不希望太長,要不然變相擠占了輸入資源
1.1.2.1 tokenization using byte pair encoding

找到常出現的編碼對,比如(125 67),就把它合成為一個新編碼符號(比如301),然后再看有沒有新的編碼對,比如(301 786),那就再把這個合成新的。這樣做decrease the length and increase the symbol size, in practice symbol size turns out to be 100k。
在這里插入圖片描述

44TB -> 15 trillion萬億 token sequences

1.3 預訓練

1.3.1 context

選取任意長度的token窗口arbitrary window lengths of tokens, but in practice the maximum length is often set as 16k/8k/4k

1.3.2 training

模型輸出每個token的概率,和真值算loss

1.3.3 輸出

做完預訓練的模型一般稱為base,base一般不會被release出來。
如果給base輸入一句話,它不會回答,只會續寫。
如果想要prompt,可以參考如下,因為模型具有in-context learning ability
在這里插入圖片描述
在這里插入圖片描述

這個base model更像是internet document simulator

1.2 post-training1:SFT監督微調

  1. The pre-training stage is to sample documents, the post-training stage is to give answers to questions.
  2. The pre-training relies on the online documents, but the post-training stage totally throws them out and use datasets of human-labeling conversations.
  3. Knowledge in the parameters is the vague recollection (like something people read 1 month age); while knowledge in the context is the working memory (like something people read just now),因此在做prompt時,可以把盡可能充分的信息給到模型去推理,working memory可以直接訪問,更加準確。
  4. The pre-training stage takes 3 months while post-training 3 hours, because the datasets of conversations are much smaller.
  5. This stage is much computationally cheaper.
  6. 這個階段要學會和人類互動,也要拒絕不合理的要求(比如如何黑進別人的電腦)
  7. 這個階段不會也無法覆蓋所有的可能的問題,但是通過這種示例,模型能夠學到這樣的統計學模式statistical pattern,從而在推理時遇到沒被訓練過的問題,也能給予回答。
  8. 從LLM獲得的回答其實是類似人類標注員的回答,或者說LLM公司編寫的回答規范的回答。You are not talking to a magical AI, instead an average labeler.
  9. 為了克服大模型幻覺,可以使大模型具備聯網搜索能力,然后根據這些信息組織答案,這個方法也要添加在訓練集中。
    在這里插入圖片描述

1.2.1 token

因為輸入的是對話,所以需要對對話進行處理,增加虛擬獨白部分,分別在最前和最后,而且要指明是user還是assistant。
在這里插入圖片描述

在推理時,輸入到<|im_start|>assistant<|im_sep|>,后面的由模型補充就得到了答案。

1.3 強化學習

chatgpt-4o are mostly SFT models, but deepseek RL models. So deepseek can present thinking process.
RL is a powerful way to learn. 在AlphaGo的訓練中,采用了強化學習的ALphaGo獲得了更強大的性能。Models can’t fundamentally go beyond a human player if it just imitates the human players. RL is not restrained by the human performance.
在這里插入圖片描述

1.3.1 基于獎勵函數進行試錯

給模型一個問題,讓它產生非常多次的回答,然后選出最好的回答(最精簡,正確),然后拿進去訓練。
SFT更像是RL的初始化過程,教模型如何組織一個答案,但是模型學會組織好答案是需要依靠強化學習的。
在這里插入圖片描述

在LLM中,pre-training和SFT已經標準化了,但是RL仍是在早期階段。This stage is early and nascent. 所以很多公司并不公開討論這些細節。

因此,deepseek能夠公開其RL方法,是對該領域的重要貢獻。This paper reinvigorated the interest of RL in LLMs, and gave the necessary details to reproduce the results.

  1. 論文名稱:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
  2. 論文鏈接:https://arxiv.org/abs/2501.12948

下圖表示,隨著RL訓練,模型use more tokens to achieve higher accuracy.
在這里插入圖片描述
因為隨著模型訓練,它在不停try out different ideas,甚至可能“頓悟”aha moment。這些思考過程導致了模型回答長度變長,以及deepseek的think的過程。
在這里插入圖片描述

1.3.2 人類反饋強化學習

上述都在說的是易于verify的任務,可以通過自動化的評判標準進行評價,從而引導模型學習,但是對于unverified task, like creative writing tasks,就無法依賴自動化的評價工具了,需要人類進行評價和反饋。

  1. 人類反饋的是排序,而不是分數。因為針對某些任務(比如講一個笑話),很難給它打分,因此會讓模型針對同一個問題生成多個任務,然后人類對其進行排序。
  2. 如果讓模型每生成一個答案,就拉一組評審員來評估,是很naive和cost的,因此,通過評審員訓練一個模型,讓模型學會如何給打分,分數和人類排序是正相關的。The reward model is a totally seperate neural net, is a simulator of human preferences.

PPO

proximal policy opt
最大化長期獎勵,但是通過clip保證不會偏離當前策略太遠。

舉個例子:智能家居系統
有一個智能家居系統,其中的恒溫器需要根據室內外溫度、能源價格等因素來調整設置,以達到舒適與節能的平衡。這個恒溫器就是我們的“智能體”,它的目標是通過調節溫度來最大化長期獎勵(比如節省能源費用和保持舒適)。
場景設定:
狀態:當前室內溫度、室外溫度、時間等。
動作:將恒溫器設置為 20°C、21°C 或 22°C。
獎勵:根據能源消耗和舒適度打分,比如:
如果溫度太低或太高,獎勵較低(因為不舒服)。
如果溫度適中且能源消耗少,獎勵較高。
恒溫器需要通過不斷嘗試不同的設置來找到最優策略。PPO 的作用就是幫助它在學習過程中逐步優化策略,避免“走得太遠”而犯錯。

GRPO

group relative policy opt
一種用于大模型的策略優化算法,通過分組比較,動態調整學習策略,使訓練更高效和穩定。因為之前是采用PPO算法,PPO會直接沖著獎勵最高的方向去學習,無法平衡風險。

舉個例子:班級小組學習
假設一個班級要提升數學成績,老師用 GRPO 的思路設計學習計劃:
分組:把學生分為 A、B、C 三組,每組用不同學習方法:
A組:題海戰術
B組:錯題分析
C組:概念推導
相對比較:
每周考試后,對比各組平均分。比如 B 組得分最高,說明“錯題分析”方法更有效。
策略優化:
讓 B 組分享經驗,但不強制其他組完全照搬(避免學得太快反而混亂)。
A、C 組參考 B 組的方法,適當調整自己的策略(比如題海戰術中加入錯題分析)。
結果:
整體班級成績提升,且各組保持自己的特色(穩定性)。

4 大語言模型值得相信嗎

things that occur very frequently in the internet are probably more likely to be remembered correctly. The output of the LLM is just a vague recollection of internet documents

4.1 AI hallucinations幻覺

給模型輸入一段沒見過的東西,它會沿著繼續預測下去,本質上是在概率性的前提下進行最佳預測。
由于是概率性的,所以在訓練集的分布里,并沒有"我不知道",只有自信的回答,所以面對及時不知道的事,AI也會給出自信的編造。Even the model knows it doesn’t know, it will not surface that.

The model are not looking it up(查找信息), instead just imitating the answer.

4.1.1 如何確認存在幻覺

  1. 測試大模型是否存在幻覺
    a. 先用大模型A給出一些問答
    b. 用這些問答問待測試的大模型
    c. 如果回答錯了,就說明存在幻覺
    在這里插入圖片描述

4.1.2 如何解決幻覺

  1. 訓練大模型說我不知道
    a. 根據答錯的問題,訓練它說我不知道
    Through this way, the model learns the association of the knowledge-based refusal to the internal neuron
  2. 聯網搜索,把搜索到的知識當作輸入一起給模型。
    在這里插入圖片描述

4.2 大模型心理學LLM psychology

涌現認知效應 emergent cognitive effect

4.3 大模型的自我認知

大模型實際上沒有自我認知,它其實就是基于traning set做best guess,如果沒有專門訓練過這個問題,那么它可能會說自己的GPT(盡管它不是),但是是網上很多數據是有GPT生成的,導致它認為自己的GPT。
在這里插入圖片描述
因此,可以考慮對其進行專門訓練,或者hardcode,如下所示
在這里插入圖片描述

4.4 大模型的數學能力

為了讓大模型有足夠的數學能力,它的輸入至關重要。舉例而言,下面左側的回答就更差,導致可能模型學不出來。
在這里插入圖片描述

4.4.1 Let the model think

因為模型一開始就揭曉了答案,但是前面沒有足夠的推理過程。模型是采用自回歸的方式輸出答案的,這就說明模型要在 The answer is 結束時,完成所有的推理和計算,然后給出答案來。如果采用右側的答案,那么就能通過tokens的輸出,先計算中間結果intermediate results,將其存儲在working memory中,逐步完成推理和計算,提高其數學能力。
在這里插入圖片描述

We should teach the model to spread out the reasoning and computation over the tokens, in other words, the model need tokens to think.

4.4.2 如果強行要求直出結果,可能導致出錯

在這里插入圖片描述
在這里插入圖片描述

4.4.3 Use tools

==use tools instead of allowing the models to do all the calculations in the memory. ==
因為在memory中計算就像人的心算,不一定特別靠譜。
只需要在提示詞中增加Use code即可。

4.4.3.1 Use tools to count

舉個例子,模型對于計數能力很差,因為這些數其實是離散的多個tokens。
在這里插入圖片描述

這里的運算并不是用的模型的心算,而是讓模型做了復制粘貼的事(把dots復制到python中),然后寫python,最后的結果是由python給出的。這樣帶來2點好處:

  1. 代碼很容易檢查運算思路
  2. 避免了模型心算,模型只需要給出解題過程就可以了
4.4.3.2 Use tools to spell

模型拼寫能力不強,因為模型只能訪問到token,一個token包含多個字符/字母,但是人眼是能夠acess每個字符/字母的。
Model is not byte level or character level, but token level.
在這里插入圖片描述

如果使用工具,那么模型提供思路+復制粘貼tokens即可,答案由python給出。

4.4.4 為什么模型認為4.11 > 4.9

因為模型回憶起圣經經文了,在經文中先有chapter4.9,然后才有4.11,所以它認為4.9 > 4.11。
在這里插入圖片描述

Deepseek

Reasoning oriented RL using GRPO

其中的獎勵函數沒有用人工的,而是純deterministic的。A rule-based reward system

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/895610.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/895610.shtml
英文地址,請注明出處:http://en.pswp.cn/news/895610.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

DeepSeek R1 本地部署和知識庫搭建

一、本地部署 DeepSeek-R1&#xff0c;是幻方量化旗下AI公司深度求索&#xff08;DeepSeek&#xff09;研發的推理模型 。DeepSeek-R1采用強化學習進行后訓練&#xff0c;旨在提升推理能力&#xff0c;尤其擅長數學、代碼和自然語言推理等復雜任務 。 使用DeepSeek R1, 可以大大…

基于大數據的全國熱門旅游景點數據分析系統的設計與實現

【大數據】基于大數據的全國熱門旅游景點數據分析系統的設計與實現&#xff08;完整系統源碼開發筆記詳細部署教程&#xff09;? 目錄 一、項目簡介二、項目界面展示三、項目視頻展示 一、項目簡介 該系統主要包括登錄注冊、系統首頁、圖表分析、數據管理和個人信息五大功能模…

李宏毅機器學習筆記:【6.Optimization、Adaptive Learning Rate】

Optimization 1.Adaptive Learning Rate2.不同的參數需要不同的學習率3.Root Mean Square4.RMSProp5.Adam6.learning rate scheduling7.warm up總結 critical point不一定是你在訓練一個network時候遇到的最大的障礙。 1.Adaptive Learning Rate 也就是我們要給每個參數不同的…

Task03:Ollama API 的使用

Ollama API 使用指南 簡介 Ollama 提供了強大的 REST API&#xff0c;使開發者能夠方便地與大語言模型進行交互。通過 Ollama API&#xff0c;用戶可以發送請求并接收模型生成的響應&#xff0c;應用于自然語言處理、文本生成等任務。本文將詳細介紹生成補全、對話生成的基本…

我用AI做數據分析之四種堆疊聚合模型的比較

我用AI做數據分析之四種堆疊聚合模型的比較 這里AI數據分析不僅僅是指AI生成代碼的能力&#xff0c;我想是測試AI數據分析方面的四個能力&#xff0c;理解人類指令的能力、撰寫代碼的能力、執行代碼的能力和解釋結果的能力。如果這四個能力都達到了相當的水準&#xff0c;才可…

DC-6靶機滲透測試全過程

目錄 前期準備 一、滲透測試 1.IP地址查詢 2.端口信息搜尋 3.網頁信息搜集 wappalyzer WPScan 反彈shell graham用戶 反彈出jens的shell nmap提權 二、總結 前期準備 攻擊機&#xff1a; kali windows11 靶機&#xff1a;DC-6靶機&#xff08;調至NAT模式&#xff0…

[操作系統] 基礎IO:系統文件I/O

在 Linux 操作系統中&#xff0c;文件 I/O&#xff08;輸入/輸出&#xff09;是程序與文件系統交互的基礎。理解文件 I/O 的工作原理對于編寫高效、可靠的程序至關重要。本文將深入探討系統文件 I/O 的機制。 一種傳遞標志位的方法 在 Linux 中&#xff0c;文件的打開操作通常…

3.8 AI驅動的市場調研革命:從數據采集到競品策略生成的閉環實踐指南

AI驅動的市場調研革命:從數據采集到競品策略生成的閉環實踐指南 引言:智能時代的高效市場洞察 Forrester研究顯示,使用AI輔助市場調研可使數據采集效率提升8倍,策略生成速度加快4倍。本文以GitHub Sentinel、LanguageMentor為案例,揭示如何構建AI增強型市場分析體系,實現…

AF3 MmcifObject類解讀

AlphaFold3 中 MmcifObject類 是 解析 mmCIF 文件的核心數據結構,用于存儲解析后的蛋白質結構信息,包含PDB 頭部信息、Biopython 解析的結構、鏈序列信息等。 下面代碼包含 Monomer 、AtomSite、ResiduePosition、ResidueAtPosition、 MmcifObject以及ParsingResult數據類的…

網絡安全 “免疫力”:從人體免疫系統看防御策略

在當今數字化時代&#xff0c;網絡安全已變得至關重要。每天&#xff0c;我們的網絡系統都面臨著來自各方的威脅&#xff0c;就像人體時刻暴露在各種病原體中一樣。今天&#xff0c;我們就來聊聊網絡安全與人體免疫系統的奇妙聯系&#xff0c;看看從免疫系統中能汲取哪些構建強…

滾動彈幕案例

滾動彈幕案例 一、需求 1.頁面上漂浮字體大小不一、顏色不一&#xff0c;從左向右滾動的彈幕&#xff1b; 2.底部中間有一個發送功能&#xff0c;可以發送新的彈幕&#xff1b; 3.底部的發送部分可以向下收起和彈出。 二、html <div class"container"><…

【wiki知識庫】08.添加用戶登錄功能--后端SpringBoot部分

目錄 一、今日目標? 二、SpringBoot后端實現 2.1 新增UserLoginParam 2.2 修改UserController 2.3 UserServiceImpl代碼 2.4 創建用戶上下文工具類 2.5?通過token校驗用戶&#xff08;重要&#xff09; 2.6 創建WebMvcConfig 2.7 用戶權限校驗攔截器 一、今日目標 上…

AI大模型的技術突破與傳媒行業變革

性能與成本&#xff1a;AI大模型的“雙輪驅動” 過去幾年&#xff0c;AI大模型的發展經歷了從實驗室到產業化的關鍵轉折。2025年初&#xff0c;以DeepSeek R1為代表的模型在數學推理、代碼生成等任務中表現超越國際頭部產品&#xff0c;而訓練成本僅為傳統模型的幾十分之一。這…

C++字符串處理指南:從基礎操作到性能優化——基于std::string的全面解析

博主將從C標準庫中的 std::string 出發&#xff0c;詳細探討字符串的處理方法&#xff0c;涵蓋常見操作、性能優化和實際應用場景。以下內容將圍繞std::string 的使用展開&#xff0c;結合代碼示例進行說明。 一、std::string 的基本操作 1.1 創建與初始化 std::string 提供了…

3.【線性代數】——矩陣乘法和逆矩陣

三 矩陣乘法和逆矩陣 1. 矩陣乘法1.1 常規方法1.2 列向量組合1.3 行向量組合1.4 單行和單列的乘積和1.5 塊乘法 2. 逆矩陣2.1 逆矩陣的定義2.2 奇異矩陣2.3 Gauss-Jordan 求逆矩陣2.3.1 求逆矩陣 ? \Longleftrightarrow ?解方程組2.3.2 Gauss-Jordan求逆矩陣 1. 矩陣乘法 1.…

深入了解 Oracle 正則表達式

目錄 深入了解 Oracle 正則表達式一、正則表達式基礎概念二、Oracle 正則表達式語法&#xff08;一&#xff09;字符類&#xff08;二&#xff09;重復限定符&#xff08;三&#xff09;邊界匹配符&#xff08;四&#xff09;分組和捕獲 三、Oracle 正則表達式函數&#xff08;…

用python寫一個聊天室程序

下面是一個簡單的基于Socket的Python聊天室程序示例&#xff0c;包括服務器端和客戶端&#xff1a; 服務器端代碼&#xff1a; import socket import threadingdef handle_client(client, address):print(f"New connection from {address}")while True:msg client…

在nodejs中使用RabbitMQ(六)sharding消息分片

RabbitMQ 的分片插件&#xff08;rabbitmq_sharding&#xff09;允許將消息分布到多個隊列中&#xff0c;這在消息量很大或處理速度要求高的情況下非常有用。分片功能通過將消息拆分到多個隊列中來平衡負載&#xff0c;從而提升消息處理的吞吐量和可靠性。它能夠在多個隊列之間…

1.7 AI智能體實戰指南:從單任務自動化到企業級智能體集群架構

AI智能體實戰指南:從單任務自動化到企業級智能體集群架構 一、智能體技術演進:從腳本工具到認知革命的跨越 1.1 三代智能體能力對比 能力維度第一代(規則驅動)第二代(機器學習)第三代(LLM驅動)任務理解固定模式匹配統計模式識別語義推理與邏輯鏈分解環境適應需人工重寫…

Github 2025-02-14 Java開源項目日報 Top10

根據Github Trendings的統計,今日(2025-02-14統計)共有10個項目上榜。根據開發語言中項目的數量,匯總情況如下: 開發語言項目數量Java項目10C#項目1Guava: 谷歌Java核心庫 創建周期:3725 天開發語言:Java協議類型:Apache License 2.0Star數量:49867 個Fork數量:10822 次…