【AI大模型入門指南】概念與專有名詞詳解 (二)

【AI大模型入門指南】概念與專有名詞詳解 (二)

一 、前言

當你和聊天機器人聊得天花亂墜時,當你用文字讓AI生成精美圖片時,當手機相冊自動幫你分類照片時 —— 這些看似智能的操作背后,都藏著 AI 大模型的身影。

本文將用最接地氣的比喻和案例,帶新手穿透專業術語的迷霧:從大模型家族,再到模型調教的核心邏輯(如何給模型喂數據、怎么讓它瘦身提速)。

無論你是對 AI 好奇的小白,還是想梳理知識框架的學習者,都可以有所收獲。

二、大模型專有名詞解釋

(一)模型家族成員

模型名稱核心架構/特點通俗比喻典型應用場景代表作/說明
大語言模型(LLM)采用Transformer架構,在海量文本數據中訓練自然語言處理領域的“大佬”寫文章、做翻譯、回答問題等GPT系列、文心一言
循環神經網絡(RNN)擅長處理序列數據,但長距離理解能力較弱像記憶力不好的人,讀長句子易“斷片”自然語言處理中的序列數據處理/
長短期記憶網絡(LSTM)RNN的改進版,增加特殊門控機制RNN的“加強版”,解決了記憶問題更擅長處理長文本/
卷積神經網絡(CNN)通過卷積、池化操作提取圖像特征圖像識別的“主力軍”計算機視覺領域的圖像識別等任務/
混合專家模型(MoE)包含多個“專家”,根據任務選擇合適“專家”處理并整合結果有多個“專家”分工協作處理大規模數據/
圖神經網絡(GNN)專門處理圖形結構數據圖形結構數據處理的“專家”社交網絡分析、分子結構研究等/

(二)訓練那些事兒

1、預訓練:讓模型在海量無標注數據上“自學”,掌握通用知識,為后續學習打基礎。

2、微調:在預訓練基礎上,用特定領域少量有標注數據“開小灶”,讓模型適應具體任務,比如讓通用語言模型學會醫療術語。

3、監督微調(SFT):微調的一種,用標注好的“標準答案”數據訓練,讓模型在特定任務上表現更出色。

4、少樣本學習:只給模型看少量示例,它就能快速學會新任務,靠的是之前預訓練積累的“知識”。

5、 零樣本學習:模型沒見過相關數據也能推理,比如沒見過獨角獸,也能根據已有概念和描述回答相關問題。

6、對抗訓練:生成器和判別器“互相對抗”,生成器生成“假數據”,判別器分辨真假,讓模型更抗干擾,更魯棒。

7、 超參數調優:超參數是訓練前要設置的“學習參數”,像學習率、批量大小等,通過各種方法找到最佳組合,讓模型學習效果更好。

(三)其他重要概念

1、注意力機制:讓模型在處理數據時,能重點關注關鍵部分,就像看書時用熒光筆標記重點內容。

2、位置編碼:給Transformer模型“補課”,讓它記住數據的順序,不然模型容易“分不清先后”。

3、激活函數:給神經網絡增加“靈活性”,引入非線性因素,讓模型能學習復雜模式,ReLU函數就是常見的“得力助手”。

4、嵌入層:把離散數據(如單詞)轉換成連續向量,讓模型能理解單詞的語義,還能計算單詞相似度。

三、AI大模型的調教步驟

1、模型架構:Transformer——大模型的“黃金骨架”
在這里插入圖片描述

Transformer架構是大模型的“黃金骨架”,它的核心自注意力機制,就像給模型裝上了“鷹眼”,在處理文本等序列數據時,能同時關注每個位置,輕松捕捉長距離依賴關系。

和傳統RNN相比,Transformer在并行計算上優勢巨大,訓練速度就像坐了火箭。在機器翻譯中,它能精準理解源語言句子里詞匯的關系,翻譯出更流暢的譯文。

還有很多對Transformer的改進,比如Sparse Attention減少不必要計算,Longformer專為長文本優化,讓大模型處理數據更高效。

2、數據處理與預訓練:大模型的“營養餐”
在這里插入圖片描述

訓練大模型前,要先給它準備“營養餐”——處理海量數據。得先把數據里的“雜質”(錯誤、重復、無關信息)去掉,比如處理文本時要刪掉拼寫錯誤。

對于多模態數據,還得想辦法把不同形式的數據“融合”在一起,讓模型學習它們之間的聯系。

預訓練有兩種主要方式:自回歸,像GPT,根據前文預測下一個單詞,一點點“編”出文本;自編碼,像BERT,遮住部分輸入讓模型猜,以此學習文本語義和語法。

3、模型訓練與優化:大模型的“高效學習法”

在這里插入圖片描述

大模型參數太多,訓練起來超費時間和資源,所以要用分布式訓練。數據并行就像一群人分工合作,每個設備處理一部分數據,最后匯總結果;模型并行則是把模型拆分到不同設備上計算,大家齊心協力加快訓練速度。

還有混合精度訓練,就像靈活切換學習工具,用低精度數據快速計算,關鍵地方再用高精度數據保證準確,既能提速又能省顯存。

大批量訓練可以減少訓練次數,但得調整好學習率等參數,不然模型容易“學歪”。

4、模型壓縮:給大模型“瘦身”
在這里插入圖片描述

大模型訓練好后“體型龐大”,部署起來成本高,所以要“瘦身”。

模型蒸餾是讓小模型向大模型“拜師學藝”,小模型學到大模型的知識后,性能不錯還更輕便;參數量化降低權重精度,就像把書里的字變小,不影響理解還省空間。稀疏化去掉冗余參數,讓模型更簡潔高效。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/86683.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/86683.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/86683.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AIStor 的模型上下文協議 (MCP) 服務器:管理功能

在本系列的上一篇博文中,我們討論了 MinIO AIStor 的模型上下文協議 (MCP) 服務器的基本用戶級功能。我們學習了如何使用人類語言命令查看存儲桶的內容、分析對象并標記它們以便將來處理,以及如何通過 LLM(例如 Anthropic Claude)…

期權末日輪實值期權盈利未平倉怎么辦?

本文主要介紹期權末日輪實值期權盈利未平倉怎么辦?期權末日輪實值期權盈利未平倉該怎么辦,需要明確幾個關鍵點:末日輪指的是期權到期日臨近的時候,通常指最后一周,尤其是最后一天,這時候時間價值衰減很快&a…

C++/Qt 聯合編程中的定時器使用陷阱:QObject::startTimer 報錯詳解

在 Qt 開發中,QTimer 是一個常用的工具類,用于處理定時事件。但不少開發者在 C/Qt 聯合編程,尤其是在工具類、靜態類、線程中使用定時器時,會遇到如下令人困惑的報錯: QObject::startTimer: Timers can only be used …

CentOS7.9 查詢運維安全日志,排查惡意用戶

1、查看系統版本 cat /etc/redhat-release uname -a 2、查看所有賬號 cat /etc/shadow 3、修改 root 密碼 passwd 3、查看賬號ID id jinzhi 4、查看登錄日志 lastlog 5、查看操作日志 cat .bash_history sudo cat /home/yunwei/.bash_history sudo grep root /va…

多模態大語言模型arxiv論文略讀(117)

Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ?? 論文標題:Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity ?? 論文作者:Ren-Di Wu, Yu-Yen L…

如何正確的配置eureka server集群

將 Eureka Server 實例的 hostname 都配置成相同的值,在 Eureka Server 集群環境下同樣是不推薦且通常會導致嚴重問題的, 核心問題:Eureka Server 集群的工作機制 Eureka Server 集群通過相互注冊(Peering)來實現高可…

AI支持下的-ArcGIS數據處理、空間分析、可視化及多案例綜合應用

查看原文>>> 從入門到精通-AI支持下的-ArcGIS數據處理、空間分析、可視化及多案例綜合應用 結合ArcGIS和GPT的優勢,本文重點進行AI大模型應用、ArcGIS工作流程及功能、Prompt使用技巧、AI助力工作流程、AI助力數據讀取與處理、AI助力空間分析、AI助力遙感…

vue3-ts: v-model 和 props 的關系

在 Vue.js 中,v-model 是一個語法糖,它實際上是 :value 和 input 事件的組合。 當你使用 v-model 綁定一個組件時,默認情況下,組件會通過 props 接收 value 這個 prop, 并通過觸發 input 事件來更新父組件中的數據。 …

學車筆記 變擋

超15就可以加一檔了 有些人對手動擋的檔位有一些誤解_嗶哩嗶哩_bilibili 獻給所有新司機.開手動檔擺脫頓挫的根本方法.學會看轉速!沒那么復雜!_嗶哩嗶哩_bilibili 減速到怠速降一檔

STM32的DMA簡介

STM32的DMA簡介 一、DMA概述 DMA(Direct Memory Access,直接存儲器存取)是一種硬件機制,它允許外設和存儲器之間或者存儲器和存儲器之間進行高速數據傳輸,而無需CPU的干預。這種機制可以極大地節省CPU資源&#xff0c…

Spring-AOP知識點

一、AOP簡介 1.AOP概念 2.AOP思想實現方案 3.AOP相關概念 二、基于xml配置AOP 1.快速入門 2.AOP配置詳解 3.AOP原理剖析 三、基于注解配置AOP 1.快速入門 2.注解方式AOP配置詳解 抽取切點表達式

Java@Data 與 @NotNull 注解沖突問題

第一章:核心概念解析 1. Data(Lombok 提供) 自動生成以下方法: gettersettertoString()equals()hashCode() 簡化實體類編寫,提高開發效率。 示例: import lombok.Data;Data public class User {private…

離線部署openstack 2024.1 glance

控制節點鏡像服務 離線下載 apt install --download-only glancemkdir /controller/glance mv /var/cache/apt/archives/*.deb /controller/glance/ dpkg -i /controller/glance/*.deb在一個控制節點操作 CREATE DATABASE glance; GRANT ALL PRIVILEGES ON glance.* TO glan…

.NET AOT 詳解

簡介 AOT(Ahead-Of-Time Compilation)是一種將代碼直接編譯為機器碼的技術,與傳統的 JIT(Just-In-Time Compilation)編譯方式形成對比。在.NET 中,AOT 編譯可以在應用發布時將 IL(中間語言&…

博客系統自動化測試

基于SSM(Spring Spring MVC MyBatis)框架構建的個人博客系統,通過分層架構實現高效協作:Spring負責依賴注入與事務管理,Spring MVC處理HTTP請求分發,MyBatis完成數據持久化操作。系統包含以下核心功能模塊…

animate.css詳解:輕松實現網頁動畫效果

前言 在網頁設計中,動畫效果不僅僅是視覺上的裝飾,更是提升用戶體驗的重要元素。animate.css 作為一個輕量級的 CSS 動畫庫,提供了豐富的預設動畫效果,本文將探討 animate.css 使用方法以及在實際項目中的應用案例,幫助…

【多智能體】基于嵌套進化算法的多代理工作流

😊你好,我是小航,一個正在變禿、變強的文藝傾年。 🔔本專欄《人工智能》旨在記錄最新的科研前沿,包括大模型、具身智能、智能體等相關領域,期待與你一同探索、學習、進步,一起卷起來叭&#xff…

電源知多少?LDO VS DCDC((下)

首先補充幾個上一節沒有提到的知識,我們通常說的DCDC同步整流是指什么? 同步是指采用通態電阻極低的專用功率MOS來取代整流二極管以降低整流損耗,,但是同步整流有以下兩點需要注意:1、MOS在導通之后的壓降比較低&…

數組方法_push()/pop()/數組方法_shift()/unshift()

push 方法用于在數組的末端添加一個或多個元素,并返回添加新元 素后的數組長度。注意,該方法會改變原數組 var arr [];arr.push("顫三") // 1arr.push(itbaizhan) // 2arr.push(true, {}) // 4arr // [顫三 , itbaizhan, true, {}] pop 方法用…

腦機新手指南(八):OpenBCI_GUI:從環境搭建到數據可視化(下)

一、數據處理與分析實戰 (一)實時濾波與參數調整 基礎濾波操作 60Hz 工頻濾波:勾選界面右側 “60Hz” 復選框,可有效抑制電網干擾(適用于北美地區,歐洲用戶可調整為 50Hz)。 平滑處理&…