大模型day1 - 什么是GPT

大模型day1 - 什么是GPT

news/2025/8/8 19:56:45/文章來源:https://blog.csdn.net/kznsbs/article/details/147149936

什么是GPT

全稱 Generative Pre-trained Transformer 是一種基于 Transformer 架構的大規模 預訓練 語言模型，由OpenAI研發，但GPT僅僅只是借鑒了Transformer 中 Decoder 的部分，并且做了升級

Transformer 架構

Transformer架構是一種用于處理序列數據（比如文本、語音）的深度學習模型，它的核心思想是“自我關注”（Self-Attention），可以理解為“聰明地抓重點”
Transformer的核心

并行處理所有詞：同時看到整個句子，而不是逐個詞處理。
自注意力機制：讓模型自動判斷句子中哪些詞更重要，并動態調整它們之間的關系

Encoder-Decoder

只有Encoder的模型（如BERT）：適合理解任務（文本分類、實體識別），但不能生成文本。
只有Decoder的模型（如GPT）：擅長生成文本（寫文章、聊天），但對輸入的理解可能不如Encoder深入。
Encoder-Decoder結合（如Transformer、T5）：兩者優勢兼顧，適合需要“先理解再生成”的任務。

預訓練

簡單來說就是提前進行訓練，從大量無標注的數據中學習通用能力
預訓練的特點

自監督學習：無需人工標注，模型通過“填空”“預測下一詞”等任務從海量文本中自學。
大數據訓練：用TB級文本（如書籍、網頁）訓練，覆蓋多領域知識。
遷移學習：先學通用語言規律，再微調適配具體任務（如翻譯、問答）。
超大模型：參數規模達百億甚至萬億級（如GPT-3有1750億參數），能力更強。
多任務通用：同一模型通過微調或提示（Prompt）完成不同任務（寫文章、寫代碼、翻譯等）。
Few-shot學習：僅需少量示例即可適應新任務，無需大量標注數據。
高計算成本：訓練耗資巨大（如GPT-3訓練花費1200萬美元），依賴高端GPU。

微調

讓預訓練模型（比如GPT、BERT）在少量特定任務數據上“再學習”，使它從“通才”變成“專才”。

微調只要少量的數據就可以獲取不錯的效果
微調成本較低，可以在單卡上運行

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/901071.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/901071.shtml
英文地址，請注明出處：http://en.pswp.cn/news/901071.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

MDM功能演示：遠程鎖定與數據擦除，保障企業移動設備安全

MDM功能演示：遠程鎖定與數據擦除，保障企業移動設備安全

在當今高度互聯的商業環境中，企業數據伴隨著員工穿梭于不同城市、時區和設備之間。智能手機、平板電腦和筆記本電腦賦予員工隨時隨地辦公的能力，但也帶來了新的安全挑戰：設備一旦遺失或落入不當之手，企業數據就面臨泄露風險。無…

閱讀更多...

深度集成學習不均衡樣本圖像分類

深度集成學習不均衡樣本圖像分類

用五個不同的網絡，然后對分類概率進行平均，得到分類結果。基本上分類精度可以提升10% 1.導入基本庫 import torch import copy import torch.nn as nn import torchvision.models as models from torchvision import datasets from torchvision import…

閱讀更多...

從零開始學java--泛型

從零開始學java--泛型

泛型目錄泛型引入泛型類泛型與多態泛型方法泛型的界限類型擦除函數式接口 Supplier供給型函數式接口： Consumer消費型函數式接口： Function函數型函數式接口： Predicate斷言式函數式接口： 判空包裝引入 …

閱讀更多...

5?? Coze+AI應用基礎教學（2025年全新版本）

5?? Coze+AI應用基礎教學（2025年全新版本）

目錄一、了解應用開發 1.1 扣子應用能做什么 1.2 開發流程 1.3 開發環境二、快速搭建一個AI應用 2.1 AI翻譯應用介紹 2.2 設計你的應用功能 2.3 創建 AI 應用項目 2.4 編寫業務邏輯（新建工作流） 2.5 搭建用戶界面 2.6 效果測試 2.7 發布應用一、了解應用開發 …

閱讀更多...

工會成立100周年紀念，開發職工健身AI運動小程序、APP方案推薦

工會成立100周年紀念，開發職工健身AI運動小程序、APP方案推薦

時光荏苒，轉眼間2025年五一將至，這一年對于中華全國總工會而言，具有非凡的歷史意義——它將迎來成立100周年的輝煌時刻。為了慶祝這一盛事，各級工會組織將精心籌備了一系列豐富多彩、形式多樣的紀念活動，旨在展現工會百…

閱讀更多...

【深度學習】Ubuntu 服務器配置開源項目FIGRET（PyTorch、torch-scatter、torch-sparse、Gurobi 安裝）

【深度學習】Ubuntu 服務器配置開源項目FIGRET（PyTorch、torch-scatter、torch-sparse、Gurobi 安裝）

開源項目網址：https://github.com/FIGRET/figret 該項目在SIGCOMM2024發表，用深度學習方法處理流量工程中的突發問題 1. 創建新的 Conda 環境使用國內鏡像源創建環境? conda create -n figret python3.8.0 --override-channels -c https://mirrors.…

閱讀更多...

【SpringCloud】從入門到精通（上）

【SpringCloud】從入門到精通（上）

今天主播我把黑馬新版微服務課程MQ高級之前的內容都看完了，雖然在看視頻的時候也記了筆記，但是看完之后還是忘得差不多了，所以打算寫一篇博客再溫習一下內容。課程坐標:黑馬程序員SpringCloud微服務開發與實戰微服務認識單體架構單體架…

閱讀更多...

MySQL中動態生成SQL語句去掉所有字段的空格

MySQL中動態生成SQL語句去掉所有字段的空格

在MySQL中動態生成SQL語句去掉所有字段的空格在數據庫管理過程中，我們常常會遇到需要對表中字段進行清洗和整理的情況。其中，去掉字段中的空格是一項常見的操作。當表中的字段數量較少時，我們可以手動編寫 UPDATE 語句來處理。但如果表中包…

閱讀更多...

【Grok 大模型深度解析】第二期：架構探秘與訓練哲學

【Grok 大模型深度解析】第二期：架構探秘與訓練哲學

在上一期的內容中，我們對 Grok 大模型從技術溯源的角度，了解了它從 Transformer 架構局限性出發，邁向混合架構創新的歷程，同時也梳理了從 Grok - 1 到 Grok - 3 的版本迭代所帶來的技術躍遷以及其獨特的差異化優勢。這一期，我們將深入到 Grok 大模型的架構內部，探究其精妙…

閱讀更多...

c# 使用NPOI將datatable的數據導出到excel

c# 使用NPOI將datatable的數據導出到excel

以下是使用 NPOI 庫將 DataTable 數據導出到 Excel 的詳細步驟和代碼示例（支持 .xls 和 .xlsx 格式）：步驟 1：安裝 NPOI NuGet 包 Install-Package NPOI Install-Package NPOI.OOXML # 若需導出 .xlsx 格式步驟 2：完整代碼實現 using NPOI.SS.UserModel; using NPOI.…

閱讀更多...

基于SpringBoot的求職招聘網站系統（源碼+數據庫）

基于SpringBoot的求職招聘網站系統（源碼+數據庫）

473基于SpringBoot的求職招聘網站系統，本系統共分為2個角色：系統管理員、用戶，主要功能如下【前臺功能】用戶角色功能： 1. 注冊和登錄：注冊賬戶并登錄系統，以便訪問更多功能。 2. 個人信息管理&#x…

閱讀更多...

CSS 過渡與變形：讓交互更絲滑

CSS 過渡與變形：讓交互更絲滑

在網頁設計中，動效能讓用戶交互更自然、流暢，提升使用體驗。本文將通過 CSS 的 transition（過渡）和 transform（變形）屬性，帶你入門基礎動效設計，結合案例演示如何實現顏色漸變、元素…

閱讀更多...

rqlite：一個基于SQLite構建的分布式數據庫

rqlite：一個基于SQLite構建的分布式數據庫

今天給大家介紹一個基于 SQLite 構建的輕量級分布式關系型數據庫：rqlite。 rqlite 基于 Raft 協議，結合了 SQLite 的簡潔性以及高可用分布式系統的穩健性，對開發者友好，操作極其簡便，其核心設計理念是以最低的復雜度實…

閱讀更多...

mujoco graspnet 仿真項目的復現記錄

mujoco graspnet 仿真項目的復現記錄

開源項目：https://gitee.com/chaomingsanhua/manipulator_grasp 復現使用的配置：linux系統ubuntu20.04 項目配置記錄： git clone 對應的code后： 需要在graspnet-baseline文件夾中繼續拉取文件，指令記錄：…

閱讀更多...

【js面試題】new操作做了什么？

【js面試題】new操作做了什么？

這些年也面試了一些外包同事，不知道其他面試官的想法，但就我而言，我更喜歡聽到的是口述代碼的方式： 比如下述代碼 function Animal(age) {this.age age; // 設置新對象的屬性 }const cat new Animal("8");最有效的回…

閱讀更多...

freecad內部python來源 + pip install 裝包

freecad內部python來源 + pip install 裝包

cmake來源： 只能find默認地址，我試過用虛擬的python地址提示缺python3config.cmake python解釋器位置： python控制臺位置： pip install 裝包： module_to_install "your pakage" import os import FreeCAD …

閱讀更多...

樹和圖論【詳細整理，簡單易懂!】(C++實現藍橋杯速查)

樹和圖論【詳細整理，簡單易懂!】(C++實現藍橋杯速查)

樹和圖論樹的遍歷模版 #include <iostream> #include <cstring> #include <vector> #include <queue> // 添加queue頭文件 using namespace std;const int MAXN 100; // 假設一個足夠大的數組大小 int ls[MAXN], rs[MAXN]; // 定義左右子樹數…

閱讀更多...

展訊android15源碼編譯之apk單編

展訊android15源碼編譯之apk單編

首先找到你要單編的apk生成的路徑： sys\out_system\target\product\ussi_arm64\system_ext\app\HelloDemo\HelloDemo.apk接著打開下面這個文件： sys\out_system\ussi_arm64_full-userdebug-gms.system.build.log在里面找關鍵字"Running command&q…

閱讀更多...

如何關閉MacOS中鼠標滾輪滾動加速

如何關閉MacOS中鼠標滾輪滾動加速

一、背景想要關閉滾輪的 “滾動加速”，即希望滾動了多少就對應滾動頁面固定行數，現在macOS是加速滾動的，即滾動相同的角度會根據你滾動滾輪的速度不同最終頁面滾動的幅度不同。這點很煩，常導致很難定位。 macOS本身的設置是沒有…

閱讀更多...

河北工程大學e2e平臺，python

河北工程大學e2e平臺，python

題目，選擇題包100分！ 題目，選擇題包100分！ 題目，選擇題包100分！ 聯系🛰：18039589633

閱讀更多...

最新文章