AI的發展過程:深度學習中的自然語言處理(NLP);大語言模型(LLM)詳解;Transformer 模型結構詳解;大模型三要素:T-P-G 原則

AI的發展過程:深度學習中的自然語言處理(NLP);大語言模型(LLM)詳解;Transformer 模型結構詳解;大模型三要素:T-P-G 原則

  • AI的發展過程與大模型原理詳解
    • 一、AI的發展過程
      • 符號主義(Symbolism)
      • 機器學習(Machine Learning)
      • 深度學習(Deep Learning)
    • 二、深度學習中的自然語言處理(NLP)
      • 核心任務包括:
      • NLP 的挑戰
    • 三、大語言模型(LLM)詳解
      • 模型目標
      • 應用范圍
    • 四、Transformer 模型結構詳解
      • 背景
      • 模塊組成
      • 結構區分
      • 自注意力機制核心公式
      • Transformer 的工作原理
      • Transformer 優勢
    • 五、大模型三要素:T-P-G 原則
      • T:神經網絡(Transformer)
      • P:預訓練(Pre-training)
      • G:生成能力(Generative)
    • 總結:AI 與 LLM 的演進路徑

AI的發展過程與大模型原理詳解

一、AI的發展過程

人工智能(Artificial Intelligence,簡稱 AI)是研究如何使計算機模擬人類智能行為的科學。從最初的符號邏輯到如今的大語言模型,AI 經過了幾個重要的發展階段。

符號主義(Symbolism)

符號主義是 AI 最早期的研究范式,興起于 20 世紀 50-70 年代。它主張通過使用符號(symbol)和規則(rule)來模擬人類推理過程。代表系統如:專家系統(Expert System)、邏輯推理系統(Prolog)。

  • 核心思想:通過人類設定的規則系統處理問題。
  • 典型技術:專家系統(Expert System)
  • 特點:邏輯推理明確,但對未知情況無法泛化。
  • 限制:難以處理非結構化、模糊和變化的數據。

特點:

  • 使用顯式規則(if-then)編碼知識;
  • 對于結構化知識表現良好;
  • 難以處理模糊、感知類任務(如圖像識別、自然語言理解);

機器學習(Machine Learning)

機器學習突破了符號主義“規則寫死”的限制,核心思想是讓機器“從數據中學習模式”,不再依賴手工規則。

  • 核心思想:利用數據訓練模型,使其具備從經驗中學習的能力。
  • 代表模型:KNN、SVM、決策樹、隨機森林等。
  • 特點:相較符號主義更具泛化能力,但依賴特征工程。

主要類型:

  • 監督學習(Supervised Learning):基于標注數據訓練,如圖像分類、垃圾郵件識別。
  • 無監督學習(Unsupervised Learning):挖掘數據潛在結構,如聚類、降維。
  • 強化學習(Reinforcement Learning):通過獎勵信號學習策略,如 AlphaGo。

深度學習(Deep Learning)

深度學習是機器學習的一個子領域,使用“深層神經網絡”自動從大量數據中提取特征。2006 年后,隨著數據積累和算力提升,深度學習取得了爆發式進展。

  • 核心思想:使用多層神經網絡自動提取高階特征。
  • 關鍵技術:卷積神經網絡(CNN)、循環神經網絡(RNN)、Transformer。
  • 優勢:能處理復雜模式識別任務,如圖像識別、語音識別、自然語言理解。

典型應用:

  • 圖像識別(如 CNN)
  • 自動駕駛(感知與決策)
  • 自然語言處理(NLP)

二、深度學習中的自然語言處理(NLP)

自然語言處理(Natural Language Processing,簡稱 NLP)是研究人與計算機之間使用自然語言(如中文、英文)進行通信的技術,是人工智能中使計算機理解、分析和生成自然語言的技術分支。

核心任務包括:

  • 文本分類:垃圾郵件識別、情感判斷。
  • 命名實體識別(NER):識別人名、地名、組織名等。
  • 依存句法分析:分析詞語之間的語法關系。
  • 機器翻譯:如中英互譯系統。
  • 問答系統:如智能客服、搜索問答。
  • 對話生成:如 ChatGPT 聊天系統。

早期 NLP 方法基于統計和特征工程,后逐步轉向神經網絡,最終發展出 Transformer 架構,徹底變革了 NLP 領域。

NLP 的挑戰

  • 多義性:一個詞可能有多個含義(如“蘋果”是水果或品牌)。
  • 上下文依賴:意義常需結合上下文判斷。
  • 長距離依賴:前后語句間可能存在深層語義聯系。

三、大語言模型(LLM)詳解

大語言模型(Large Language Model)是基于深度神經網絡的自然語言處理系統,通常使用數十億乃至萬億級別的參數對海量文本進行建模。

模型目標

基于已有文本預測下一個最可能出現的 token(詞片段)。

示例
輸入:“我今天吃了一個”
預測輸出:蘋果(75%)、橘子(15%)、手機(5%)等

應用范圍

  • 文本生成
  • 語言翻譯
  • 語義檢索與摘要
  • 自動代碼補全(如 Copilot)
  • 問答與對話(如 ChatGPT、Claude)

四、Transformer 模型結構詳解

背景

Transformer 是 2017 年由 Google 提出的神經網絡架構,首次完全拋棄了 RNN(循環神經網絡)和 CNN(卷積神經網絡),改用“自注意力機制”(Self-Attention)處理序列數據。

模塊組成

  1. 輸入嵌入(Embedding)
    • 將詞語轉換為向量表示。
  2. 位置編碼(Positional Encoding)
    • 彌補模型缺乏順序感的缺陷。
  3. 多頭自注意力機制(Multi-Head Self-Attention)
    • 每個詞關注句中其他所有詞,捕捉全局依賴。
  4. 前饋神經網絡(Feed Forward)
    • 提取和轉換表示向量。
  5. 殘差連接與層歸一化(Residual + LayerNorm)
    • 加速訓練,防止梯度消失。

結構區分

  • Encoder:用于理解輸入。
  • Decoder:用于生成輸出。
  • GPT 類模型:僅使用 Decoder 架構進行文本生成。

自注意力機制核心公式

對于每個 token,計算:

Attention(Q, K, V) = softmax(QK^T / √d_k) × V

其中:

  • Q(Query)、K(Key)、V(Value)是輸入向量的線性變換;
  • softmax 確定注意力權重。

Transformer 的工作原理

  1. 輸入嵌入(Embedding):將文本中的每個詞轉為向量表示。
  2. 位置編碼(Positional Encoding):由于 Transformer 無序,需要加上位置信息。
  3. 自注意力機制(Self-Attention):每個詞根據整個句子中的其他詞計算注意力權重,實現對上下文的理解。
  4. 前饋神經網絡(Feed Forward):用于特征提取和非線性變換。
  5. 層疊結構(Stacked Layers):多層編碼器-解碼器堆疊。
  6. 輸出預測(Softmax):根據詞向量生成概率分布,輸出下一個詞。

Transformer 優勢

  • 并行計算效率高(相比 RNN)
  • 捕捉長距離依賴效果更好
  • 可擴展性強,適合訓練大模型

五、大模型三要素:T-P-G 原則

LLM 實際是由多個核心機制協同工作的結果,主要可歸結為 “T-P-G” 三個部分。

T:神經網絡(Transformer)

Transformer 是大語言模型的結構核心。它處理自然語言的輸入,將其轉化為高維向量,并通過多層注意力機制和神經網絡提取語義特征,構建對語言的“理解能力”。

P:預訓練(Pre-training)

  • 目標:利用大規模語料學習通用語言規律。
  • 方法:遮蔽語言建模(如 BERT)或自回歸語言建模(如 GPT)。
  • 成果:形成“通用知識大腦”,具備語言表達、邏輯、常識能力。

LLM 的強大能力來源于對海量通用文本(如百科、新聞、代碼等)的預訓練。

訓練目標通常是:

  • 掌握詞法、語法、句法結構;
  • 理解語境中的含義、關系;
  • 預測缺失或下一個詞(masked language model 或 causal language model);

訓練分為兩個階段:

  1. 預訓練(Pre-training)

    • 使用海量通用文本(如維基百科、新聞、社交媒體等)
    • 模型學習語言的基礎規律,如語法、詞性、上下文
  2. 微調(Fine-tuning)

    • 針對特定任務或領域(如醫學、法律)
    • 繼續訓練模型,以適配具體應用場景

由于預訓練的數據多為通用內容,預訓練讓模型具備了“普通知識”,但不具備“專精能力”,這就需要微調來提升。但在特定領域(如法律、醫學)使用前需要微調(Fine-tuning)

G:生成能力(Generative)

  • Token 級預測:一次生成一個 token,不斷疊加形成完整文本。
  • 采樣策略:貪婪搜索、Top-k、Top-p、溫度控制等方法控制生成多樣性與連貫性。
  • 注意:生成結果源于概率,不代表事實或邏輯一致性。

生成過程本質是“語言建模”:

  • 給定一段文本上下文(prompt),預測下一個最合適的詞(token);
  • 實現方式是:模型輸出一個向量,表示每個可能詞的概率,選出最可能或最優的一個;
  • 該過程逐個 Token 生成,逐步構建完整文本;

💡 計算機并不理解“文字”,它只處理 Token(分詞后映射為整數),最終再將這些整數映射回字符呈現。Token 是語言的最小處理單元:可能是字母、漢字、詞根、詞綴。模型生成的是 token 序列,而非完整詞語或句子。


總結:AI 與 LLM 的演進路徑

符號主義 ? 機器學習 ? 深度學習 ? NLP ? Transformer ? LLM(GPT 等)

大語言模型的發展,是多個領域長期積累與突破的結果。它結合了深度學習、語言建模、注意力機制等多種前沿技術,開啟了智能生成與認知計算的新紀元。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/83295.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/83295.shtml
英文地址,請注明出處:http://en.pswp.cn/web/83295.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SDXL 和 SDXL-Turbo 的區別

(1) SDXL(Stable Diffusion XL) 標準擴散模型,基于傳統的多步去噪(通常 20~50 步)。 訓練充分,特征更穩定,適合用于特征提取、方向學習(如 LoRA、SAE)。 計算成本高&am…

PyTorch:讓深度學習像搭積木一樣簡單!!!

文章目錄 🚀 一、 PyTorch的王炸:動態圖 vs 靜態圖靜態圖的“痛苦回憶”(前方高能吐槽!)PyTorch動態圖的降維打擊🔥 🔥 二、 不只是靈活!PyTorch的三大殺器1. 張量(Tenso…

LeetCode--27.移除元素

解題思路: 1.獲取信息: 給定一個數組和一個值,刪除數組中等于這個值的值 要求是,返回數組中不等于這個值的數的數目 并且要求在數組上刪除,不能使用額外輔助空間 還是給了評測標準(你可以根據它的原理來實現…

WebRTC(二):工作機制

核心組成 GetUserMedia:獲取本地音視頻設備(攝像頭、麥克風)數據流。RTCPeerConnection:實現點對點的媒體流傳輸和網絡連接管理。RTCDataChannel:點對點的任意數據通道(除音視頻外傳輸數據)。 …

機器學習+城市規劃第十五期:時空地理加權回歸(STGWR)

機器學習城市規劃第十五期:時空地理加權回歸(STGWR) 引言 隨著城市化進程的加速,城市規劃面臨越來越多復雜的挑戰。在傳統的城市規劃中,通常會考慮到地理位置的影響,但往往忽略了時間維度。而在現代城市的…

用虛擬機安裝macos系統之后進入Boot Manager頁面

安裝教程:在VMware中安裝macos系統教程 在VMware中安裝macos系統時啟動后進入Boot Manager界面,通常是由于虛擬機的固件類型設置于鏡像不兼容所致。 解決辦法:虛擬機默認使用UEFI啟動模式,但是部分macos鏡像需要切換到BIOS模式才…

基于API的Redis緩存實現

1.使用Redis API 進行業務數據緩存管理 編寫一個進行業務處理的類ApiCommentService,使用Autowired注解注入Redis API中常用的RedisTemplate(類似于Java基礎API中的JdbcTemplate); 然后在數據查詢、修改和刪除三個方法中,根據業…

前沿論文匯總(機器學習/深度學習/大模型/搜廣推/自然語言處理)

文章目錄 1 前言2 大模型/自然語言處理2.1 FreeAL:在大模型時代實現無需人工的主動學習2.2 COLD:中文攻擊性語言檢測基準2.3 將詞匯的對比信息融入詞嵌入以實現反義詞-同義詞區分2.4 LogRAG:基于檢索增強生成的半監督日志異常檢測2.5 RankRAG…

PP-OCRv5 ubuntu20.04 OCR識別服務

目錄 說明 使用 效果 下載 說明 PP-OCRv5 ubuntu20.04 OCR識別服務 使用 1、下載后解壓 2、進入目錄、運行程序 效果 1、瀏覽器訪問 2、接口調用 下載 方式1 源碼下載 方式2 通過網盤分享的文件:lw.PP_OCRService.tar.gz 鏈接: https://pan.baidu.com…

VScode打開后一直顯示正在重新激活終端 問題的解決方法

一、問題 本人打開“.py”文件后,同時會出現以下兩個問題。 1、VScode一直循環在”正在重新激活終端“ 2、日志顯示intellicode報錯: Sorry, something went wrong activating IntelliCode support for Python. Please check the “Python” and “VS I…

uniapp 實現騰訊云音視頻通話功能

uniapp 深度集成騰訊云音視頻通話功能實戰指南 一、技術架構解析 騰訊云音視頻解決方案采用IM信令控制層TRTC媒體傳輸層的雙架構設計,實現核心能力解耦: #mermaid-svg-DKBpT4CVDkqU1IBw {font-family:"trebuchet ms",verdana,arial,sans-ser…

linux常見問題之截取文件指定行數

linux常見問題之截取文件指定行數 一、命令概述 在處理大文本文件時,我們打開該文件會非常不方便,比如服務器上的日志文件,于是我們常常需要提取特定的行進行分析。Linux 系統中提供了多個強大的命令行工具,可以幫助我們高效地完…

微前端 - Native Federation使用完整示例

這是一個極簡化的 Angular 使用angular-architects/native-federation 插件的微前端示例,只包含一個主應用和一個遠程應用。 完整示例展示 項目結構 federation-simple/ ├── host-app/ # 主應用 └── remote-app/ # 遠程應用 創建遠程應用 (remote…

無服務器架構的企業級應用深度解析:Serverless技術選型與成本模型

?? 目錄 引言:無服務器架構的興起無服務器架構核心概念主流Serverless平臺技術對比企業級應用場景分析成本模型深度分析私有化部署與云端服務對比決策框架構建最佳實踐與建議未來發展趨勢結論引言:無服務器架構的興起 在云計算快速發展的今天,無服務器架構(Serverless)…

內網有貓和無線路由器,如何做端口映射從而實現外網訪問

內網貓和無線路由器端口映射配置指南 端口映射(Port Forwarding)是將外網請求引導到內網特定設備和端口的技術,常用于遠程訪問、搭建服務器等場景。以下是配置方法: 基本原理 貓(調制解調器)&#xff1a…

Spring boot應用監控集成

Spring Boot應用監控集成記錄 背景 XScholar文獻下載應用基于Spring Boot構建,需要接入Prometheus監控系統。應用已部署并運行在服務器上,需要暴露metrics端點供Prometheus采集。 初始狀態 應用信息 框架: Spring Boot 2.x部署端口: 10089服務器: L…

安寶特案例丨又一落地,Vuzix AR眼鏡助力亞馬遜英國倉庫智能化升級!

Vuzix M400智能眼鏡近日落地亞馬遜(英國)倉庫,通過解放雙手、免提操作優化物流效率。 安寶特&VuzixAR智能眼鏡解決方案為亞馬遜倉庫提供實時決策支持、無縫對接員工-主管-企業管理系統,并加速了新員工培訓流程,優…

ui框架-文件列表展示

ui框架-文件列表展示 介紹 UI框架的文件列表展示組件,可以展示文件夾,支持列表展示和圖標展示模式。組件提供了豐富的功能和可配置選項,適用于文件管理、文件上傳等場景。 功能特性 支持列表模式和網格模式的切換展示支持文件和文件夾的層…

使用QMediaPlayer開發音樂播放器

編譯完成的程序下載:【免費】使用QMediaPlayer開發音樂播放器資源-CSDN文庫 完整源碼:使用QMediaPlayer開發音樂播放器源碼資源-CSDN文庫 需求分析: 1.本地音樂播放器 核心播放功能 支持常見音頻格式本地播放MP3、WAV、FLAC 等 2.播放控制:播放 / 暫停 / 停止 / 上一曲…

Linux-07 ubuntu 的 chrome 啟動不了

文章目錄 問題原因解決步驟一、卸載舊版chrome二、重新安裝chorme三、啟動不了,報錯如下四、啟動不了,解決如下 總結 問題原因 在應用中可以看到chrome,但是打不開(說明:原來的ubuntu系統出問題了,這個是備用的硬盤&a…