AI的發展過程:深度學習中的自然語言處理(NLP);大語言模型(LLM)詳解;Transformer 模型結構詳解;大模型三要素:T-P-G 原則
- AI的發展過程與大模型原理詳解
- 一、AI的發展過程
- 符號主義(Symbolism)
- 機器學習(Machine Learning)
- 深度學習(Deep Learning)
- 二、深度學習中的自然語言處理(NLP)
- 核心任務包括:
- NLP 的挑戰
- 三、大語言模型(LLM)詳解
- 模型目標
- 應用范圍
- 四、Transformer 模型結構詳解
- 背景
- 模塊組成
- 結構區分
- 自注意力機制核心公式
- Transformer 的工作原理
- Transformer 優勢
- 五、大模型三要素:T-P-G 原則
- T:神經網絡(Transformer)
- P:預訓練(Pre-training)
- G:生成能力(Generative)
- 總結:AI 與 LLM 的演進路徑
AI的發展過程與大模型原理詳解
一、AI的發展過程
人工智能(Artificial Intelligence,簡稱 AI)是研究如何使計算機模擬人類智能行為的科學。從最初的符號邏輯到如今的大語言模型,AI 經過了幾個重要的發展階段。
符號主義(Symbolism)
符號主義是 AI 最早期的研究范式,興起于 20 世紀 50-70 年代。它主張通過使用符號(symbol)和規則(rule)來模擬人類推理過程。代表系統如:專家系統(Expert System)、邏輯推理系統(Prolog)。
- 核心思想:通過人類設定的規則系統處理問題。
- 典型技術:專家系統(Expert System)
- 特點:邏輯推理明確,但對未知情況無法泛化。
- 限制:難以處理非結構化、模糊和變化的數據。
特點:
- 使用顯式規則(if-then)編碼知識;
- 對于結構化知識表現良好;
- 難以處理模糊、感知類任務(如圖像識別、自然語言理解);
機器學習(Machine Learning)
機器學習突破了符號主義“規則寫死”的限制,核心思想是讓機器“從數據中學習模式”,不再依賴手工規則。
- 核心思想:利用數據訓練模型,使其具備從經驗中學習的能力。
- 代表模型:KNN、SVM、決策樹、隨機森林等。
- 特點:相較符號主義更具泛化能力,但依賴特征工程。
主要類型:
- 監督學習(Supervised Learning):基于標注數據訓練,如圖像分類、垃圾郵件識別。
- 無監督學習(Unsupervised Learning):挖掘數據潛在結構,如聚類、降維。
- 強化學習(Reinforcement Learning):通過獎勵信號學習策略,如 AlphaGo。
深度學習(Deep Learning)
深度學習是機器學習的一個子領域,使用“深層神經網絡”自動從大量數據中提取特征。2006 年后,隨著數據積累和算力提升,深度學習取得了爆發式進展。
- 核心思想:使用多層神經網絡自動提取高階特征。
- 關鍵技術:卷積神經網絡(CNN)、循環神經網絡(RNN)、Transformer。
- 優勢:能處理復雜模式識別任務,如圖像識別、語音識別、自然語言理解。
典型應用:
- 圖像識別(如 CNN)
- 自動駕駛(感知與決策)
- 自然語言處理(NLP)
二、深度學習中的自然語言處理(NLP)
自然語言處理(Natural Language Processing,簡稱 NLP)是研究人與計算機之間使用自然語言(如中文、英文)進行通信的技術,是人工智能中使計算機理解、分析和生成自然語言的技術分支。
核心任務包括:
- 文本分類:垃圾郵件識別、情感判斷。
- 命名實體識別(NER):識別人名、地名、組織名等。
- 依存句法分析:分析詞語之間的語法關系。
- 機器翻譯:如中英互譯系統。
- 問答系統:如智能客服、搜索問答。
- 對話生成:如 ChatGPT 聊天系統。
早期 NLP 方法基于統計和特征工程,后逐步轉向神經網絡,最終發展出 Transformer 架構,徹底變革了 NLP 領域。
NLP 的挑戰
- 多義性:一個詞可能有多個含義(如“蘋果”是水果或品牌)。
- 上下文依賴:意義常需結合上下文判斷。
- 長距離依賴:前后語句間可能存在深層語義聯系。
三、大語言模型(LLM)詳解
大語言模型(Large Language Model)是基于深度神經網絡的自然語言處理系統,通常使用數十億乃至萬億級別的參數對海量文本進行建模。
模型目標
基于已有文本預測下一個最可能出現的 token(詞片段)。
示例:
輸入:“我今天吃了一個”
預測輸出:蘋果(75%)、橘子(15%)、手機(5%)等
應用范圍
- 文本生成
- 語言翻譯
- 語義檢索與摘要
- 自動代碼補全(如 Copilot)
- 問答與對話(如 ChatGPT、Claude)
四、Transformer 模型結構詳解
背景
Transformer 是 2017 年由 Google 提出的神經網絡架構,首次完全拋棄了 RNN(循環神經網絡)和 CNN(卷積神經網絡),改用“自注意力機制”(Self-Attention)處理序列數據。
模塊組成
- 輸入嵌入(Embedding)
- 將詞語轉換為向量表示。
- 位置編碼(Positional Encoding)
- 彌補模型缺乏順序感的缺陷。
- 多頭自注意力機制(Multi-Head Self-Attention)
- 每個詞關注句中其他所有詞,捕捉全局依賴。
- 前饋神經網絡(Feed Forward)
- 提取和轉換表示向量。
- 殘差連接與層歸一化(Residual + LayerNorm)
- 加速訓練,防止梯度消失。
結構區分
- Encoder:用于理解輸入。
- Decoder:用于生成輸出。
- GPT 類模型:僅使用 Decoder 架構進行文本生成。
自注意力機制核心公式
對于每個 token,計算:
Attention(Q, K, V) = softmax(QK^T / √d_k) × V
其中:
- Q(Query)、K(Key)、V(Value)是輸入向量的線性變換;
- softmax 確定注意力權重。
Transformer 的工作原理
- 輸入嵌入(Embedding):將文本中的每個詞轉為向量表示。
- 位置編碼(Positional Encoding):由于 Transformer 無序,需要加上位置信息。
- 自注意力機制(Self-Attention):每個詞根據整個句子中的其他詞計算注意力權重,實現對上下文的理解。
- 前饋神經網絡(Feed Forward):用于特征提取和非線性變換。
- 層疊結構(Stacked Layers):多層編碼器-解碼器堆疊。
- 輸出預測(Softmax):根據詞向量生成概率分布,輸出下一個詞。
Transformer 優勢
- 并行計算效率高(相比 RNN)
- 捕捉長距離依賴效果更好
- 可擴展性強,適合訓練大模型
五、大模型三要素:T-P-G 原則
LLM 實際是由多個核心機制協同工作的結果,主要可歸結為 “T-P-G” 三個部分。
T:神經網絡(Transformer)
Transformer 是大語言模型的結構核心。它處理自然語言的輸入,將其轉化為高維向量,并通過多層注意力機制和神經網絡提取語義特征,構建對語言的“理解能力”。
P:預訓練(Pre-training)
- 目標:利用大規模語料學習通用語言規律。
- 方法:遮蔽語言建模(如 BERT)或自回歸語言建模(如 GPT)。
- 成果:形成“通用知識大腦”,具備語言表達、邏輯、常識能力。
LLM 的強大能力來源于對海量通用文本(如百科、新聞、代碼等)的預訓練。
訓練目標通常是:
- 掌握詞法、語法、句法結構;
- 理解語境中的含義、關系;
- 預測缺失或下一個詞(masked language model 或 causal language model);
訓練分為兩個階段:
-
預訓練(Pre-training):
- 使用海量通用文本(如維基百科、新聞、社交媒體等)
- 模型學習語言的基礎規律,如語法、詞性、上下文
-
微調(Fine-tuning):
- 針對特定任務或領域(如醫學、法律)
- 繼續訓練模型,以適配具體應用場景
由于預訓練的數據多為通用內容,預訓練讓模型具備了“普通知識”,但不具備“專精能力”,這就需要微調來提升。但在特定領域(如法律、醫學)使用前需要微調(Fine-tuning)。
G:生成能力(Generative)
- Token 級預測:一次生成一個 token,不斷疊加形成完整文本。
- 采樣策略:貪婪搜索、Top-k、Top-p、溫度控制等方法控制生成多樣性與連貫性。
- 注意:生成結果源于概率,不代表事實或邏輯一致性。
生成過程本質是“語言建模”:
- 給定一段文本上下文(prompt),預測下一個最合適的詞(token);
- 實現方式是:模型輸出一個向量,表示每個可能詞的概率,選出最可能或最優的一個;
- 該過程逐個 Token 生成,逐步構建完整文本;
💡 計算機并不理解“文字”,它只處理 Token(分詞后映射為整數),最終再將這些整數映射回字符呈現。Token 是語言的最小處理單元:可能是字母、漢字、詞根、詞綴。模型生成的是 token 序列,而非完整詞語或句子。
總結:AI 與 LLM 的演進路徑
符號主義 ? 機器學習 ? 深度學習 ? NLP ? Transformer ? LLM(GPT 等)
大語言模型的發展,是多個領域長期積累與突破的結果。它結合了深度學習、語言建模、注意力機制等多種前沿技術,開啟了智能生成與認知計算的新紀元。