自然語言處理與實踐

文章目錄

Lesson1：Introduction to NLP、NLP 基礎與文本預處理
- 1.教材
- 2.自然語言處理概述
- - (1)NLP 的定義、發展歷程與應用場景
  - (2)NLP 的主要任務：分詞、詞性標注、命名實體識別、句法分析等
- 2.文本預處理
- 3.文本表示方法：詞向量表示/詞表征
Lesson2：語言模型與序列建模
- 1.語言模型的介紹、原理、應用場景
- 2.語言模型的類型
- 3.N-gram 模型與馬爾可夫假設
- 4.序列模型
- - (1)RNN
  - (2)LSTM
Lesson3：深度學習與預訓練模型
- 1.深度學習基礎
- 2.Transformer 與自注意力機制
- - (3)注意力機制、自注意力機制、多頭自注意力機制
  - - ①注意力機制(Attention)
    - ②自注意力機制(Self-attention)
    - ③多頭自注意力機制
    - ④序列到序列模型
    - ⑤Transformer
    - ⑥位置編碼
    - ⑦殘差連接和層歸一化
    - ⑧掩碼自注意力
- 3.預訓練語言模型
- - (1)預訓練和微調 (Pretranin and Fine-Tuning)
  - (2)Prompt-Tuning
Lesson4：NLP 應用與實踐
- 1.文本分類與情感分析
- 2.機器翻譯與文本生成
- 3.信息抽取與知識圖譜
- 4.對話系統與問答系統
Lesson5：跨語言、跨模態、跨任務統一大模型
- 1.T5 (Text-to-Text Transfer Transformer)
- 2.思維鏈 (Chain-of-Thought，CoT)
- 3.RLHF 基于人類反饋的強化學習
- 4.數據處理
- 5.RoPE 旋轉位置編碼：絕對位置信息→相對位置信息
- 6.LoRA----高效模型微調：不再全參數微調，而是凍結大部分參數
- 7.模型上下文窗口的擴展：LLaMA模型為例
- 8.指令數據的構建
- 9.強化學習
- - (1)圖解
  - (2)概念
  - (3)智能體
  - (4)強化學習與監督學習的區別
Lesson6：NLP論文分享
Lesson7：實踐與項目

Lesson1：Introduction to NLP、NLP 基礎與文本預處理

1.教材

參考教材：《自然語言處理導論》、《大規模語言模型》(只有第一版有電子版)

2.自然語言處理概述

(1)NLP 的定義、發展歷程與應用場景

在這里插入圖片描述

(2)NLP 的主要任務：分詞、詞性標注、命名實體識別、句法分析等

自然語言處理：
自然語言處理(NLP)，目的是使得計算機具備人類的聽、說、讀、寫、譯、問、答、搜索、摘要、對話和聊天等能力，并可利用知識和常識進行推理和決策，并支持客服、診斷、法律、教學等場景。

模擬人腦認知的不同特點，比如事件認知，目標行動認知，情緒自我認知，實現推理基礎上的行為控制。

自然語言處理包含：分析、理解、轉換、生成等。
自然語言處理是結合計算機科學、統計學、語言學以及心理學、醫學、法律等的交叉學科。
NLU( Understanding)+ NLG (generation)

理解：
①連接主義
連接主義，機器的理解機制與人相同，強調結構的仿真，用神經網絡模仿人腦

②符號主義
符號主義，機器的表現與人相同，強調功能的演繹邏輯，圖靈測試

③行為主義
完成正確的反應或者行為

神經元：
ChatGPT：1750億個神經元
人腦：860億個神經元

進入機器學習和神經網絡之前，必須 向量化。每個詞大概有5萬維度特征，且是稠密的。

2.文本預處理

1.分詞與詞性標注。

2.去除停用詞、拼寫糾錯、詞干提取與詞形還原。

3.文本標準化與編碼。

3.文本表示方法：詞向量表示/詞表征

1.One-Hot Encoding（獨熱編碼）
最早期的詞表征方法之一，是將每個詞表示為一個高維稀疏向量，其中只有一個維度為1，其余為0。雖然簡單，但無法捕捉詞語之間的語義關系。

2.Word Embedding（詞嵌入）
詞嵌入是將詞語映射到低維稠密向量空間的技術，能夠更有效地捕捉詞語的語義信息。常見的詞嵌入方法包括：
①Word2Vec：由Google提出的模型，包括CBOW和Skip-gram兩種架構，通過上下文信息來學習詞向量。
②GloVe：由斯坦福大學提出，結合了全局統計信息和局部上下文信息來學習詞向量。
③FastText：由Facebook提出，考慮了詞的子詞信息，能夠更好地處理未登錄詞和拼寫錯誤。

3.上下文相關的詞表征
傳統的詞嵌入方法為每個詞分配一個固定的向量，而上下文相關的詞表征方法根據詞語在不同上下文中的含義動態生成詞向量，能夠更好地處理多義詞等問題。代表性的方法包括：
①ELMo：使用雙向LSTM模型，根據上下文生成詞向量。
②BERT：基于Transformer架構，使用雙向編碼器來捕捉上下文信息，生成動態詞向量。
③GPT：基于Transformer的自回歸模型，能夠生成上下文相關的詞向量。

4.TF-IDF

Lesson2：語言模型與序列建模

1.語言模型的介紹、原理、應用場景

1.介紹
語言模型（Language Model，LM）是一種能夠對自然語言中詞語序列進行概率分布估計的模型，用于計算給定序列的整體概率或預測下一個詞的條件概率分布。

2.原理
語言模型的核心目標是在給定前文上下文的條件下估計詞序列的概率。（聯合概率）
在這里插入圖片描述
這一假設大幅降低了計算復雜度，但也限制了模型捕捉長距離依賴的能力。

3.應用場景
(1)機器翻譯：預測目標語言詞序列，提高譯文流暢度和準確性
(2)語音識別：結合聲學模型對候選詞序列進行語言約束，減少識別錯誤
(3)文本生成：自動寫作、聊天機器人中根據上下文生成連貫文本
(4)信息檢索：評估查詢與文檔的語言相似度，提升檢索相關性
(5)拼寫糾錯：利用上下文概率判斷并糾正文本中的拼寫或語法錯誤

2.語言模型的類型

1.統計語言模型 (N-gram 模型)
原理：依據語料中詞序列出現的頻率進行概率估計，典型有 unigram、bigram、trigram 等。
優點：實現簡單，計算高效。
缺點：高階模型組合稀疏，且上下文窗口有限，難以捕獲長距離依賴。

2.神經語言模型
代表：Bengio 等人在2003年提出的神經概率語言模型(Neural Probabilistic Language Model)。
原理：通過多層神經網絡學習詞的分布式表示(詞嵌入)，并在此基礎上進行概率建模，有效緩解“維度災難”問題。

3.預訓練大型語言模型
代表：BERT、GPT 系列、T5 等。
架構：基于 Transformer 自注意力機制，在大規模語料上預訓練生成通用的語言表示。
優勢：能夠捕獲更長距離依賴關系，通過微調適配多種下游任務，顯著提升了 NLP 各項指標的表現

3.N-gram 模型與馬爾可夫假設

1.N-gram 模型將文本劃分為連續的 n 個詞（或字符）組成的序列。例如：
①Unigram（1-gram）：每個詞獨立出現，例如“我”，“喜歡”，“學習”。
②Bigram（2-gram）：連續兩個詞的組合，例如“我喜歡”，“喜歡學習”。
③Trigram（3-gram）：連續三個詞的組合，例如“我喜歡學習”。

N元語言模型的問題：
當上下文變長，時間復雜度指數級升高。

N元語言模型是基于 詞袋編碼(bag-of-words) 的

2.馬爾可夫假設（Markov Assumption）是概率論和統計學中的一個基本假設，廣泛應用于自然語言處理、機器學習、經濟學等領域。該假設由俄國數學家安德烈·馬爾可夫（Andrey Markov）提出，核心思想是：
“在已知當前狀態的前提下，未來狀態與過去狀態條件獨立。”
換言之，當前狀態包含了預測未來所需的所有信息，過去的狀態對未來的影響被“遺忘”。

3.語言模型的評估指標：困惑度(Perplexity)、交叉熵(Cross-Entropy)
(1)困惑度(Perplexity)
在自然語言處理（NLP）中，困惑度（Perplexity，簡稱 PPL）是衡量語言模型性能的常用指標。它反映了模型對測試數據預測的“困惑”程度，即模型在生成或理解文本時的預測能力。
困惑度源自信息論，表示一個概率模型對樣本的不確定性程度。在語言模型中，困惑度衡量模型對測試集的預測能力，數值越低表示模型越精確。
具體而言，困惑度是模型對測試集上所有詞的條件概率的幾何平均數的倒數。

在這里插入圖片描述

4.生成方法
(1)貪婪策略
(2)Top-k：k=4
(3)Top-p：p=0.75

5.數據平滑(Data Smoothing)
旨在降低數據中的噪聲，揭示潛在的趨勢或模式。它通過對數據進行處理，使得數據曲線更加平滑，減少了隨機波動的影響。

4.序列模型

1.循環神經網絡(RNN)、長短時記憶網絡(LSTM)、門控循環單元(GRU)

(1)RNN

RNN：適用于處理時序數據，但存在梯度消失和長期依賴問題。
①梯度消失/爆炸問題：隨著序列長度增加，反向傳播時梯度可能會消失或爆炸，導致模型訓練困難。
②長期依賴問題：RNN 難以捕捉長期依賴，尤其是對于序列中較遠時間步的依賴關系。

(2)LSTM

LSTM加了門控，不存在梯度消失和梯度爆炸問題。

2.雙向RNN與雙向LSTM

序列標注任務：命名實體識別(NER)、詞性標注(POS Tagging)

Lesson3：深度學習與預訓練模型

1.深度學習基礎

1.神經網絡基礎：感知機、多層感知機(MLP)

2.激活函數、損失函數與優化算法。

3.反向傳播算法與梯度下降。

2.Transformer 與自注意力機制

詳情見：Transformer

1.Transformer架構概述

2.自注意力機制(Self-Attention)與多頭注意力(Multi-Head Attention)

3.位置編碼與位置嵌入

(3)注意力機制、自注意力機制、多頭自注意力機制

①注意力機制(Attention)

2015，允許語言模型在每個時間步關注觀察到的上下文的特定部分。

解決梯度爆炸和梯度消失問題

②自注意力機制(Self-attention)

2017
QKV

③多頭自注意力機制

多頭，增加參數量

④序列到序列模型

序列到序列模型(Seq2Seq，Sequence-to-Sequence Learning)

序列到序列模型是一種將輸入序列映射到輸出序列的模型架構，通常由編碼器和解碼器組成。

工作原理：
編碼器：處理輸入序列，生成一個上下文向量（或一系列隱藏狀態）。
解碼器：根據上下文向量，逐步生成輸出序列。

⑤Transformer

Transformer結構是由谷歌在2017年提出并首先應用于機器翻譯。
Transformer結構完全通過注意力機制完成對源語言序列和目標語言序列全局依賴的建模。

在這里插入圖片描述

⑥位置編碼

位置編碼（Positional Encoding）是解決Transformer模型中一個核心問題的技術：Transformer模型本身不具備處理序列中詞語順序的能力。

輸入序列:        [詞向量1]  [詞向量2]  [詞向量3]  ...  [詞向量N]|          |          |             |
位置編碼:         [PE1]      [PE2]      [PE3]     ...  [PEN]相加后作為輸入:   [詞向量1+PE1] [詞向量2+PE2] [詞向量3+PE3] ... [詞向量N+PEN]↓          ↓          ↓             ↓送入Transformer的自注意力層等后續網絡

⑦殘差連接和層歸一化

殘差連接主要是指使用一條直連通道直接將對應子層的輸入連接到輸出上去，從而避免由于網絡過深在優化過程中潛在的梯度消失問題。

⑧掩碼自注意力

BERT做分類。如果要用BERT做生成，

3.預訓練語言模型

1.BERT、GPT、T5、RoBERTa 等模型的原理與應用

BERT是Encoder
GPT是單解碼器 (Decoder only)
T5：prefix

2.Masked Language Model(MLM)與自回歸語言模型

3.模型微調與遷移學習

(1)預訓練和微調 (Pretranin and Fine-Tuning)

(2)Prompt-Tuning

旨在通過添加模板的方法來避免引入額外的參數，從而讓語言模型可以在小樣本(Few-shot)或零樣本(Zero-shot)場景下達到理想的效果。

降低語義差異(Bridge the gap between Pre-training and Fine-tuning)：預訓練任務主要以Masked Language Modeling (MLM)為主，而下游任務則重新引入新的訓練參數，因此兩個階段的模板通常有較大差異。因此需要解決如何縮小 Pre-training 和 Fine-tuning 兩個階段目標差距過大的問題。
避免過擬合(Overfitting of the head)：由于在 Fine-tuning 階段需要新引入額外的參數以適配相應的任務需要，因此在樣本數量有限的情況容易發生過擬合，降低了模型的泛化能力。因此需要面對預訓練語言模型的過擬合問題。

Lesson4：NLP 應用與實踐

1.文本分類與情感分析

1.文本分類任務概述
2.情感分析方法與應用
3.模型評估指標：準確率、精確率、召回率、F1 值

2.機器翻譯與文本生成

1.序列到序列模型(Seq2Seq)

2.注意力機制與指針生成網絡

3.文本生成任務：摘要生成、對話生成

3.信息抽取與知識圖譜

1.命名實體識別(NER)與關系抽取

2.事件抽取與三元組提取

3.知識圖譜構建與推理

4.對話系統與問答系統

1.任務導向對話系統與開放域對話系統

2.問答系統的類型：基于檢索的問答、生成式問答

3.對話管理與上下文建模

Lesson5：跨語言、跨模態、跨任務統一大模型

1.T5 (Text-to-Text Transfer Transformer)

1.T5介紹
T5 (Text-to-Text Transfer Transformer) 是由Google Research團隊于2019 年提出的一種統一的文本生成模型、預訓練語言模型，旨在統一處理多種自然語言處理任務。其核心思想是將所有NLP任務(如翻譯、摘要、問答、文本分類等) 統一轉化為 文本到文本 的生成任務，即輸入一段文本，輸出另一段文本。從而實現任務無關的模型架構設計。這種設計簡化了模型的應用流程，并提升了多任務學習的靈活性。

2.T5的核心特點
(1)文本到文本的統一框架：所有任務都轉換為“輸入文本→輸出文本”的形式
(2)基于Transformer架構：使用標準的自注意力機制和前饋網絡，但進行了改進以適應大規模預訓練。
(3)預訓練與微調：
①預訓練：在C4（Common Crawl Corpus）數據集上進行去噪任務（如Span Corruption），即隨機掩蓋輸入文本中的連續片段并要求模型重建。
②微調：針對具體任務調整模型參數，使用特定任務的標注數據。

3.T5 的訓練分為兩個階段：
①預訓練：在大規模文本數據集 C4（Colossal Clean Crawled Corpus）上進行自監督訓練，采用 Span Corruption 目標，即隨機遮蔽文本中的連續子串，模型需要恢復被遮蔽的部分。
②微調：在特定任務的數據集上進行有監督微調，任務通過在輸入文本前添加特定前綴來指示，如 summarize:、translate English to French: 等。

2.思維鏈 (Chain-of-Thought，CoT)

1.CoT的介紹
思維鏈（Chain-of-Thought，簡稱CoT）是一種提升大語言模型（LLM）推理能力的技術。其核心思想是引導模型在回答復雜問題時，不是直接給出答案，而是通過逐步推理、分步驟地展示中間邏輯過程，從而更有效地解決問題。

2.CoT的提出
思維鏈(Chain-of-Thought，CoT) 提示技術首次由Google Research團隊在于2022年11月提出。具體來說，這項技術首次系統性地被介紹是在一篇題為：
該團隊在論文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》中，展示了通過引導大型語言模型生成中間推理步驟(即“思維鏈”)，能夠顯著提升其在復雜推理任務中的表現。
作者：Jason Wei, Xuezhi Wang, Dale Schuurmans等
發布時間：2022年1月(arXiv出版)
arXiv鏈接：https://arxiv.org/abs/2201.11903

3.CoT的原理
傳統的提示方法通常是輸入一個指令加一個問題，期望模型直接輸出答案。但在處理多步驟推理問題時，這種方式往往效果不佳。
而 CoT 的做法是：
在提示中加入一些示例，這些示例不僅包含問題和答案，還包含詳細的推理步驟。
模型被訓練或引導去模仿這種“推理鏈條”的形式。
當遇到新問題時，模型會嘗試按照類似的思路一步步分析問題，而不是直接跳躍到答案。

4.CoT的優勢
①提升推理能力：特別適用于數學、邏輯、編程等需要多步推理的任務
②可解釋性強：推理過程透明，便于人類理解與驗證
③減少錯誤：分步處理可以減少整體錯誤率
④易于調試：如果某一步出錯，更容易定位問題所在

5.CoT的應用場景
①數學題求解(如代數、幾何)
②邏輯推理題(如真假話問題、排列組合)
③自然語言推理(NLI)
④編程問題分析
⑤決策樹式問題(如策略選擇)

3.RLHF 基于人類反饋的強化學習

1.RLHF介紹
RLHF（Reinforcement Learning from Human Feedback，基于人類反饋的強化學習）是一種用于訓練人工智能模型（尤其是大語言模型）的方法，旨在讓模型更好地對齊人類的價值觀、偏好和意圖。它被廣泛應用于提升語言模型輸出的質量與可控性，例如在 ChatGPT、Claude、Bard 等主流對話系統中。

2.RLHF的核心思想
RLHF 的核心是通過人類反饋來指導模型學習“什么是好的回答” ，而不是僅僅依靠預訓練數據或固定的目標函數。
其基本流程包括三個主要階段：
(1)階段一：監督微調(Supervised Fine-Tuning, SFT)
目的：讓模型學會根據輸入生成符合預期的回答。
做法：
收集大量的人類寫的問題(prompt)及其對應的好回答。
使用這些數據對預訓練語言模型進行微調。
結果：得到一個初步能生成高質量回答的模型。
(2)階段二：訓練獎勵模型(Reward Model, RM)
目的：學習人類偏好的打分標準。
做法：
對于同一個問題，讓模型生成多個不同回答。
讓人類標注者對這些回答進行排序(如從好到差)。
利用這些排序數據訓練一個獎勵模型，使其能夠為任意回答打分。
結果：獎勵模型可以預測人類對某個回答的滿意度。
(3)階段三：強化學習微調（Reinforcement Learning Fine-Tuning, RLFT）
目的：利用獎勵模型作為“老師”，引導模型生成更受人類歡迎的回答。
做法：
將微調后的模型作為強化學習中的智能體（agent）。
每次生成回答后，用獎勵模型給這個回答打分。
使用強化學習算法（如 PPO）更新模型參數，使得未來生成的回答獲得更高的分數。
結果：最終得到一個與人類偏好高度一致的語言模型。

預訓練模型↓
監督微調（SFT）↓
收集人類偏好數據 → 訓練獎勵模型（RM）↓
使用獎勵模型進行強化學習優化（PPO等）↓
最終部署的對齊模型（如 ChatGPT）

3.RLHF的優缺點
(1)優點(優勢)
①更貼近人類價值觀：模型輸出更符合人類期望，減少有害、誤導性內容
②可控性強：能引導模型在多種維度上表現良好（如有用性、無害性、誠實性）
③提升泛化能力：獎勵模型可推廣到未見過的任務和場景
④不依賴人工規則：相比傳統規則方法，更具靈活性和擴展性

(2)缺點(挑戰/局限)
①數據獲取成本高：需要大量高質量的人類反饋數據
②標注偏差：人類評價可能帶有主觀性和不一致性
③強化學習不穩定：RL 訓練過程復雜，容易出現過擬合或崩潰
④幻覺與對齊風險：模型可能為了得分而“取悅”人類，而非提供真實信息

4.數據處理

訓練模型，70-80%的工作都是在處理數據。

5.RoPE 旋轉位置編碼：絕對位置信息→相對位置信息

RoPE（Rotary Position Embedding，旋轉位置編碼）是一種在 Transformer 架構中用于表示序列中位置信息的技術。它通過對查詢（query）和鍵（key）向量應用旋轉變換，將絕對位置信息編碼為相對位置信息，從而提高模型對長序列的處理能力。
在這里插入圖片描述

6.LoRA----高效模型微調：不再全參數微調，而是凍結大部分參數

1.LoRA介紹
LoRA（Low-Rank Adaptation）是一種高效的微調技術，旨在降低大型語言模型（LLM）在特定任務上的訓練成本。它通過在凍結預訓練模型參數的基礎上，注入可訓練的低秩矩陣，實現了參數高效的微調。

2.LoRA的工作原理
在傳統的全參數微調中，模型的所有參數都會被更新，這對于大型模型而言，計算資源和顯存消耗巨大。LoRA提出了一種新的方法：凍結預訓練模型的參數，只在每個Transformer層中插入兩個低秩矩陣(A和B)，通過這兩個矩陣的乘積來近似原始參數的更新。具體而言，原始參數矩陣W被分解為W+A×B，其中A和B的秩遠小于W，從而大幅減少了需要訓練的參數量。
這種方法的關鍵優勢在于，它僅增加了少量的可訓練參數，同時保持了推理時與全參數微調相同的效率。例如，在GPT-3 175B的微調中，LoRA將需要訓練的參數數量減少了約10,000倍，GPU顯存需求也降低了三倍。

7.模型上下文窗口的擴展：LLaMA模型為例

LLaMA(Large Language Model Meta AI) 系列模型在處理長文本方面的能力是其重要特性之一。隨著模型版本的升級，其上下文窗口（context window）的長度也在不斷擴展。以下是 LLaMA 模型上下文窗口擴展的概述：
(1)LLaMA 1 (2023年發布)
上下文窗口：2048 tokens (2K)
架構：僅解碼器 Transformer，使用絕對位置編碼。
(2)LLaMA 2 (2023年發布)
上下文窗口：4096 tokens
架構：與 LLaMA 1 相似，但進行了優化。
(3)LLaMA 3 系列 (2024年發布)
①LLaMA 3.0：上下文窗口：8192 tokens
②LLaMA 3.1：上下文窗口：128,000 tokens(128K)；架構：引入了 RoPE（旋轉位置編碼）來處理更長的上下文
③LLaMA 3.2：上下文窗口：保持在 128K；架構：進一步優化了長上下文處理能力
(4)LLaMA 4 系列 (2025年發布)
①LLaMA 4 Scout：上下文窗口：10,000,000 tokens(10M)；架構：混合專家模型(Mixture of Experts)，支持多模態輸入(文本和圖像)
②LLaMA 4 Maverick：上下文窗口：1,000,000 tokens(1M)；架構：同上，具有更高的參數量。

8.指令數據的構建

1.構建指令：LIMA指令數據的質量和多樣性通常被認為是最重要的。LIMA(Less Is More for Alignment)模型的研究表明，在指令微調(Instruction Tuning)過程中，訓練數據的質量和多樣性比數量更為重要。通過精心挑選少量高質量且具有多樣性的指令-響應對，LIMA 在多個任務上表現出色，甚至超過了使用更大數據集的模型。

2.自動生成指令

3.開源指令數據集

9.強化學習

(1)圖解

強化學習(Reinforcement Learning，RL) 研究的問題是 智能體(Agent) 與 環境(Envirorment) 交互的問題，其目標是使智能體在復雜且不確定的環境中最大化獎勵(Reward)

在這里插入圖片描述

(2)概念

(1)智能體與環境
(3)狀態、行為與獎勵
(3)策略與價值

(3)智能體

1.分類
(1)基于價值的智能體 (Value-based Agent) 顯式地學習價值函數，隱式地學習策略。其策略是從所學到的價值函數推算得到的
(2)基于策略的智能體 ( Policy-based Agent) 則是直接學習策略函數。策略函數的輸入為一個狀態，輸出為對應動作的概率。基于策略的智能體并不學習價值函數，價值函數隱式的表達在策略函數中。
(3)演員-評論員智能體 (Actor-critic Agent) 則是把基于價值的智能體和基于策略的智能體結合起來，既學習策略函數又學習價值函數，通過兩者的交互得到最佳的動作。

2.智能體發展歷史
(1)符號智能體
將感知數據轉化為符號表示，并基于符號進行高效推理。它具備清晰可解釋的推理能力和良好的表達效果，專家模型是典型應用

(2)基于強化學習的智能體
核心在于通過環境互動學習，最大化任務獎勵。早期方法入 Q-learning 和 SARSA，依賴策略搜索與值函數優化隨著深度學習發展，深度強化學習結合神經網絡，使智能體能從高維數據中學習復雜策略，廣泛應用于游戲、機器人等領域，催生了 AlphaGo、DQN等成果。但強化學習仍面臨訓練慢、效率低、穩定性差等問題。

(3)基于大模型的智能體
自 2023 年起，大模型因其強大能力受到廣泛關注，基于其構建的智能體也迅速興起。大模型智能體集感知、決策、行動與記憶于一體，以大模型為核心大腦，結合多模態感知與工具使用，拓展感知與行動能力。借助思維鏈和問題分解等技術，它們展現出接近符號智能體的推理能力，并能通過反饋持續學習、與環境互動。目前已在編程、科研、電商、醫療等領域取得顯著成效，尤其憑借自然語言能力，推動了多智能體間的高效協作與交流。

3.規劃模塊、記憶模塊、推理規劃
(1)規劃模塊
(2)記憶模塊(短期記憶、長期記憶)
(3)推理規劃(大任務分解為小任務，大問題分解為子問題并得到解決方案，解決了上一個再拼接上來輔助解決下一個問題)

4.大模型智能體范式
(1)無反饋規劃
(2)帶反饋規劃

(4)強化學習與監督學習的區別

(1)監督學習：給你正確答案
(2)強化學習：沒有答案，只有反饋

強化學習比監督學習的優勢：
①數據集不需要打標簽，不需要像監督學習那樣窮舉學習所有正確情況，只要不錯誤就可以了
②可以動態調整

Lesson6：NLP論文分享

大量調研
發現問題比解決問題更重要
先了解基礎框架，原理、代碼搞明白。再讀一些論文，復現文章，做一些改進(體現工作量)。實現了bashline，在此基礎上，提出改進方向，改進思路，效果。

①寫綜述
②topic下實驗項目改進 / 有具體應用需求的項目，寫項目報告

分享流程：
1.第一頁上，一定要介紹自己，有自己的名字。讓別人知道你是誰。
2.介紹這篇的主題、目的是什么

1.《DeepSeek-v2: A strong, Economical, and Efficient Mixture-of-Experts Language Model》
①多層潛空間
②旋轉位置編碼 RoPE
③MLA
④混合專家模型 MoE

2.《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reionforcement Learning》
①純強化學習，沒有監督微調(SFT)

DeepSeek-V3/R1 能大幅度降低訓練成本的核心原理是什么？
分布式訓練創新：
①混合專家模型 MoE架構
②DualPipe并行架構：雙向管道并行算法，通過重疊計算與通信操作，將流水線氣泡時間壓縮至傳統方法的15%以下。
③NVLink+InfiniBand雙通道傳輸：采用NVLink+InfiniBand雙通道傳輸技術，通信效率提升了65%。
2.算法創新：
①采用強化學習而非傳統的監督學習+微調(SFT)。創新性地開發了群體相對策略優化（GRPO）算法，將內存消耗降低至傳統PPO算法的三分之一。
②混合訓練流程：采用了“SFT → RL → SFT → RL”的混合訓練流程，結合監督學習與強化學習雙重優勢，使訓練效率提升了約40%。
3.數據效率突破：數據蒸餾技術
4.計算優化：
①FP8混合精度訓練：將權重存儲精度降至FP8，內存占用減少50%，計算吞吐量提升30%。
②動態序列長度調整：能夠根據輸入文本的實際長度，動態地調整計算資源分配，相比固定長度處理方式，能夠降低20%的計算開銷。
5.國產化算力芯片，降低硬件成本
在這里插入圖片描述

3.《SpatialBot: Precise Spatial Understanding with Vision Language Models》

4.《ShapeLLM: Universal 3D Object Understanding for Embodied Interaction》
(1)總結
這篇論文提出了ShapeLLM，這是首個專為具身交互設計的三維多模態大語言模型（LLM）。該模型旨在通過結合三維點云和自然語言，實現對三維物體的通用理解，推動機器人與物理環境的交互能力
(2)貢獻
①ReCon++ 編碼器：ShapeLLM 基于改進的三維點云編碼器 ReCon++，該編碼器通過多視角圖像蒸餾提升了幾何理解能力，為模型提供了更精確的空間信息
②3D MM-Vet 基準測試：論文提出了一個新的三維多模態理解評估基準——3D MM-Vet，涵蓋從基礎感知到控制語句生成等四個層次的任務，用于全面評估模型在具身交互場景中的表現

5.《ReLearn: Unlearning via Learning for Large Language Models》
遺忘無用的上下文

6.《Improving Contextual Faithfulness of Large Language Models via Retrieval Heads-Induced Optimization》
提出 RHIO 框架：RHIO（Retrieval Heads-Induced Optimization）
旨在提高大型語言模型(LLM)在檢索增強生成(RAG)任務中的上下文忠實性，特別是在長篇問答(LFQA)場景中

7.《BadAgent：Inserting and Activating Backdoor Attacks in LLM Agents》

8.《Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-Based Agents》

9.《Linear Recurrent Units for Sequential Recommendation》

10.《Rentive Network：A Successor to Transformer for Large Language Models》

11.《MetaICL: Learning to Learn In Context》

12.《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》
元學習

智能體 Agent：
13.《Web pliot》
14.《Ego-R1》：處理一周長的第一視角超長視頻
工具：H-RAG、Video-LLM、VLM