【DataWhale】快樂學習大模型 | 202507,Task01筆記

引言

我從2016年開始接觸matlab看別人做語音識別,再接觸tensorflow的神經網絡,2017年接觸語音合成,2020年做落地的醫院手寫數字識別。到2020年接觸pytorch做了計算機視覺圖像分類,到2021年做了目標檢測,2022年做了文本實體抽取,2023年做了Agent。收獲了很多獎項,感覺一直在人工智能新技術上探索,但總是浮于表面,要借這次機會好好學一學LLM,不能再讓Transformer還只停留在Attention和QKV上,爭取從底層實現一把。
說起來,到底多大才算大語言模型最開始挺有爭議的,現在0.3B的模型也開始出現了(如文心開源的 ERNIE-4.5-0.3B-PT),我的感覺是用了一定參數量的語言模型就能叫LLM,有用效果好就行。

人工智能發展歷程

感覺主要是這么一個發展流程,RNN主要走文本類,CNN主要走圖像類。(還有一些GAN、擴散模型等和圖片生成有關的,3D卷積等和視頻有關的,RL等游戲智能體相關的,ViT等Transformer和視覺結合的,圖里先不表現)

統計模型
RNN
LSTM
Transformer
Encoder-Only
BERT
Encoder-Decoder
T1
Decoder-Only
GPT
CNN
ResNet
YOLO

0.3B: 0.3 Bilion, 參數量為3億的模型
LLM: Large Language Model, 大語言模型
RNN: Recurrent Neural Network, 循環神經網絡,用于文本或語音
CNN: Convolutional Neural Network, 卷積神經網絡,用于視覺
GAN: Generative AdversarialNetwork, 生成對抗網絡,用于圖片生成
Vit: Vision Transformer, 用于視覺的Transformer
RL: Reinforcement Learning, 強化學習
LSTM: Long Short-Term Memory, 長短期記憶網絡
ResNet: 殘差網絡, 用于層數加深時信息的傳遞
YOLO: You Only Look Once, 用于目標檢測
Transformer: 用于增加注意力機制
BERT: Bidirectional Encoder Representations from Transformers, 用于文本分類、實體抽取
T5: Text-to-Text Transfer Transformer, 用于翻譯
GPT: Generative Pre-trained Transformer, 用于對話

章節概覽

Happy-LLM
基礎知識
NLP 基礎概念
Transformer架構
預訓練語言模型
大語言模型
實戰應用
動手搭建大模型
大模型訓練實踐
大模型應用

參考資料

1、happy-llm/docs/前言.md

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/91054.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/91054.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/91054.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

機器學習中的樸素貝葉斯(Naive Bayes)模型

1. 用實例來理解樸素貝葉斯 下面用具體的數據來演示垃圾郵件 vs 正常郵件的概率計算假設我們有一個小型郵件數據集郵件內容類別(垃圾/正常)“免費 贏取 大獎”垃圾“免費 參加會議”正常“中獎 點擊 鏈接”垃圾“明天 開會”正常“贏取 免費 禮品”垃圾 …

document.documentElement詳解

核心概念定義 它始終指向當前文檔的根元素&#xff0c;在 HTML 文檔中對應 <html> 標簽。與 document.body&#xff08;對應 <body>&#xff09;和 document.head&#xff08;對應 <head>&#xff09;形成層級關系。與 document.body 的區別 <html> &l…

c#進階之數據結構(動態數組篇)----Queue

1、簡介這個是c#封裝的隊列類型&#xff0c;同棧相反&#xff0c;這個是先進先出&#xff0c;一般用于事件注冊&#xff0c;或者數據的按順序處理&#xff0c;理解為需要排隊處理的可以用隊列來處理。注意&#xff0c;隊列一定是有順序的&#xff0c;先進確實是會先出&#xff…

使用 keytool 在服務器上導入證書操作指南(SSL 證書驗證錯誤處理)

使用 keytool 在服務器上導入證書操作指南(SSL 證書驗證錯誤處理) 一、概述 本文檔用于指導如何在運行 Java 應用程序的服務器上,通過keytool工具將證書導入 Java 信任庫,解決因證書未被信任導致的 SSL/TLS 通信問題(如PKIX path building failed錯誤)。 二、操作步驟…

VUE export import

目錄 命名導出 導出變量 導出函數 總結 默認導出 導出變量 導出函數 總結 因為總是搞不懂export和Import什么時候需要加{}&#xff0c;什么時候不用&#xff0c;所以自己測試了一下&#xff0c;以下是總結。 需不需要加{}取決于命名導出還是默認導出&#xff0c;命名導…

端側寵物識別+拍攝控制智能化:解決設備識別頻次識別率雙低問題

隨著寵物成為家庭重要成員&#xff0c;寵物影像創作需求激增&#xff0c;傳統相機系統 “人臉優先” 的調度邏輯已難以應對寵物拍攝的復雜場景。毛發邊緣模糊、動態姿態多變、光照反差劇烈等問題&#xff0c;推動著智能拍攝技術向 “寵物優先” 范式轉型。本文基于端側 AI 部署…

Popover API 實戰指南:前端彈層體驗的原生重構

&#x1fa84; Popover API 實戰指南&#xff1a;前端彈層體驗的原生重構 還在用 position: absolute JS 定位做 tooltip&#xff1f;還在引入大型 UI 庫只為做個浮層&#xff1f;現在瀏覽器已經支持了真正原生的「彈出層 API」&#xff0c;一行 HTMLCSS 就能構建可交互、無障…

CCS-MSPM0G3507-6-模塊篇-OLED的移植

前言基礎篇結束&#xff0c;接下來我們來開始進行模塊驅動如果懂把江科大的OLED移植成HAL庫&#xff0c;那其實也沒什么難首先配置OLED的引腳這里我配置PA16和17為推挽輸出&#xff0c;PA0和1不要用&#xff0c;因為只有那兩個引腳能使用MPU6050 根據配置出來的引腳&#xff0c…

意識邊界的算法戰爭—腦機接口技術重構人類認知的顛覆性挑戰

一、神經解碼的技術奇點當癱瘓患者通過腦電波操控機械臂飲水&#xff0c;當失語者借由皮層電極合成語音&#xff0c;腦機接口&#xff08;BCI&#xff09;正從醫療輔助工具演變為認知增強的潘多拉魔盒。這場革命的核心突破在于神經信號解析精度的指數躍遷&#xff1a;傳統腦電圖…

詳解彩信 SMIL規范

以下內容將系統地講解彩信 MMS&#xff08;Multimedia Messaging Service&#xff09;中使用的 SMIL&#xff08;Synchronized Multimedia Integration Language&#xff09;規范&#xff0c;涵蓋歷史、語法結構、在彩信中的裁剪與擴展、常見實現細節以及最佳實踐。末尾附示例代…

《紅藍攻防:構建實戰化網絡安全防御體系》

《紅藍攻防&#xff1a;構建實戰化網絡安全防御體系》文章目錄第一部分&#xff1a;網絡安全的攻防全景 1、攻防演練的基礎——紅隊、藍隊、紫隊 1.1 紅隊&#xff08;攻擊方&#xff09; 1.2 藍隊&#xff08;防守方&#xff09; 1.3 紫隊&#xff08;協調方&#xff09; 2、5…

MFC UI大小改變與自適應

文章目錄窗口最大化庫EasySize控件自適應大小窗口最大化 資源視圖中開放最大化按鈕&#xff0c;添加窗口樣式WS_MAXIMIZEBOX。發送大小改變消息ON_WM_SIZE()。響應大小改變。 void CDlg::OnSize(UINT nType, int cx, int cy) {CDialog::OnSize(nType, cx, cy);//獲取改變后窗…

【Linux網絡】:HTTP(應用層協議)

目錄 一、HTTP 1、URL 2、協議格式 3、請求方法 4、狀態碼 5、Header信息 6、會話保持Cookie 7、長連接 8、簡易版HTTP服務器代碼 一、HTTP 我們在編寫網絡通信代碼時&#xff0c;我們可以自己進行協議的定制&#xff0c;但實際有很多優秀的工程師早就寫出了許多非常…

C++-linux 7.文件IO(三)文件元數據與 C 標準庫文件操作

文件 IO 進階&#xff1a;文件元數據與 C 標準庫文件操作 在 Linux 系統中&#xff0c;文件操作不僅涉及數據的讀寫&#xff0c;還包括對文件元數據的管理和高層庫函數的使用。本文將從文件系統的底層存儲機制&#xff08;inode 與 dentry&#xff09;講起&#xff0c;詳細解析…

WordPress Ads Pro Plugin本地文件包含漏洞(CVE-2025-4380)

免責聲明 本文檔所述漏洞詳情及復現方法僅限用于合法授權的安全研究和學術教育用途。任何個人或組織不得利用本文內容從事未經許可的滲透測試、網絡攻擊或其他違法行為。 前言:我們建立了一個更多,更全的知識庫。每日追蹤最新的安全漏洞,追中25HW情報。 更多詳情: http…

從爆紅到跑路:AI明星Manus為何僅用四個月就“拋棄”了中國?

目錄 前言 一、資本的“無形之手”&#xff1a;7500萬美元融資背后的“投名狀” 二、技術的雙重困境&#xff1a;算力封鎖與“應用層”的原罪 三、戰略的錯判&#xff1a;一場與中國市場的“雙向奔赴”失敗 四、事件的啟示&#xff1a;當“出海”變成“出走” &#x1f3a…

CCF-GESP 等級考試 2025年6月認證Python三級真題解析

1 單選題&#xff08;每題 2 分&#xff0c;共 30 分&#xff09;第1題 2025年4月19日在北京舉行了一場頗為矚目的人形機器人半程馬拉松賽。比賽期間&#xff0c;跑動著的機器人會利用 身上安裝的多個傳感器所反饋的數據來調整姿態、保持平衡等&#xff0c;那么這類傳感器類似于…

16.使用ResNet網絡進行Fashion-Mnist分類

16.1 ResNet網絡結構設計################################################################################################################ #ResNet ################################################################################################################…

C# 結構體 和 類 的區別

? 結構體&#xff08;struct&#xff09;是值類型&#xff08;Value Type&#xff09;和類&#xff08;class&#xff09;不同&#xff0c;結構體在賦值和傳參時是復制值本身&#xff0c;而不是引用地址。? 一、結構體的基本使用示例&#xff1a;using System;struct Point {…