從0開始學習語言模型--Day01--親自構筑語言模型的重要性

在如今這個時代,人工智能儼然已經成了一個大家耳熟能詳的詞匯。隨著技術的發展,它在不斷地降低計算機領域一些工作的門檻,甚至有時候我們能看到一個可能六年前還需要從頭開始學習的職業,現在只需要能掌握一個專屬的小模型就可以擁有不俗的工作能力了。

但實際上,一旦所研究的數據的規模到達增長到一定程度后,很多小語言模型都不再能夠支撐這些學習強度了。鑒于此,從基礎開始學大語言課程是很有必要的,正所謂要了解一個事物,最好的方式就是自己親手構筑一個事物。

前瞻

在課程中,一共分為三種類型的知識:

  • 有關于事物如何運作的機制:什么是transformer,如何實現一個transformer,模型并行是如何高效使用GPU的。

  • 思維模式:怎么盡可能地讓硬件發揮出其全部的性能,并認真地對待擴展

  • 直覺:哪些數據和決策能夠產生好的模型,但是只能學到一部分,因為那些在大多數規模上有效的數據集和決策,可能并不適用于更大規模。

在學習的過程中,有時候會不可避免的產生一種誤解,就是很多時候會發現,只要適當地擴大規模,很容易就會把模型的準確率提升上去,這容易讓我們誤入把規模擴大后建立模型后就萬事大吉了的理解。實際上,模型的準確率等于我們所構建的算法的效率乘以投入規模的乘積,忽視效率只看準確率,會讓我們在使用的過程中浪費很多資源,有時候涉及到規模很大的模型時,這甚至會反過來成為我們的負擔。

所以我們要樹立一種正確的心態,即時常思考在給定的計算和數據預算下,一個人所能構建的最佳模型是什么樣的,不管在什么樣的場景下這種思維都能給予我們幫助,因為這意味著我們是在計算每單位資源的準確率,能保證我們盡量不迷失方向。

課程中一共有五個作業,每次作業都不提供代碼框架,也就是說需要我們自己去了解代碼的框架構筑應該是什么樣的,雖然有類似于我們在github引用文件時的readme文件去引導,但是相關的設計決策以及命名函數和代碼需要我們自己獨立完成。這些作業所涉及到的資源都比較小,是可以直接用筆記本電腦在本地跑的,這其實是在傳達另一種思想,就是在運行大型任務前,應該盡可能地用小的數據集和較小的資源去完成代碼的原型設計,一方面能夠節省資源的浪費,畢竟有很多錯誤是可以在本地測試出來的,另一方面則可以讓我們發散自己的思維,思考一下該怎么構筑可能出現的問題。

對于每個作業來說,最基礎的目標就是讓一個完整流水線的基礎目標運作起來,也就是說要實現一個分詞器、模型架構和訓練。分詞器是一個可以在字符串和整數序列之間轉換的東西,簡單來說,它可以把字符串分解成若干片段并將整個片段映射到一個整數,起到一個解構器的作用。比較常見的是BPE分詞器。

至于架構的方法有很多,這取決于你希望模型側重于什么,比較常見的是注意力機制,通過動態分配不同權重來聚焦輸入數據的關鍵部分,從而提升模型對重要信息的處理能力,這能提高模型的效率,畢竟人工智能最初的思想就是往人類的思維去靠近,那么注意力機制也是讓模型學會抓住重點。

最后是我們熟悉的訓練部分,我們需要用到優化器,調整學習率以及一系列超參數,再進行訓練,也就是說需要我們去對待很多細節,這也是直接使用基礎架構和使用精心設計的架構效率完全不一樣的原因所在(我們很多時候在看文獻時,會看到作者也很難去解釋為什么這樣的參數是好的,給不出有效的實驗去證明,因為有時候我們也不知道為什么參數僅僅只是變了一點點整個模型的效率就可以提升許多)。

學習課程鏈接來自于B站教程:https://www.bilibili.com/video/BV1pAjUzYEaK/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=867b8ecbd62561f6cb9b4a83a368f691

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84888.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84888.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84888.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【量化】策略交易之動量策略(Momentum)

【量化】策略交易之動量策略(Momentum) 一、動量策略(Momentum Strategy)原理 👉🏻 核心思想: 強者恒強,弱者恒弱。 動量策略認為,過去一段時間漲得多的資產&#xff0c…

Cesium快速入門到精通系列教程九:Cesium 中高效添加和管理圖標/標記的標準方式??

Cesium中通過 ??Primitive 高效添加 ??點、線、多邊形、圓、橢圓、球、模型?? 等地理要素,以下是各類地理要素的高效添加方式: 一、公告板 1. 創建 BillboardCollection 并添加到場景? const billboards viewer.scene.primitives.add(new Ces…

volka烹飪常用英語

1. 視頻開場與主題介紹 Today, we are going to learn English while cooking. Fire. In this video, I’m going to continue to teach you the 3,000 most common English words that will allow you to understand 95% of spoken English. And we are going to be preparin…

同旺科技 USB TO SPI / I2C適配器(專業版)--EEPROM讀寫——B

所需設備: 1、USB 轉 SPI I2C 適配器;內附鏈接 2、24C64芯片; 適應于同旺科技 USB TO SPI / I2C適配器專業版; 燒寫EEPROM數據、讀取EEPROM數據、拷貝EEPROM數據、復制產品固件,一切將變得如此簡單! 1…

Linux下成功編譯CPU版Caffe的保姆級教程(基于Anaconda Python3.8 包含完整可用Makefile.config文件)

目錄 前言 一、環境準備 1. 系統要求 2. 安裝必要依賴 二、Anaconda環境配置 1. 安裝Anaconda 2. 創建專用Python環境 3. 安裝必要的Python包 三、獲取Caffe源代碼 四、配置編譯選項 1. 修改Makefile.config 2. 修改Makefile 3. 修改CMakeLists.txt(如…

shell三劍客

了解三劍客 三劍客指的是: grep、sed和awk這三個在linux系統中常用的命令行工具 shell三劍客 grep: 主要用于查找和過濾特定文本 sed:是一個流編輯器,可以對文本進行增刪改查 awk:是一個文本處理工具,適合對列進行處…

創客匠人視角:知識IP變現的主流模式與創新路徑

知識IP變現賽道正從“野蠻生長”走向“精細化運營”,如何在流量紅利消退期實現可持續變現?創客匠人基于服務數萬職業教育IP的實踐經驗,總結出一套兼顧效率與長尾價值的變現邏輯,為行業提供了可參考的路徑。 主流變現模式&#x…

【嵌入式人工智能產品開發實戰】(二十三)—— 政安晨:將小智AI代碼中的display與ota部分移除

政安晨的個人主頁:政安晨 歡迎 👍點贊?評論?收藏 希望政安晨的博客能夠對您有所裨益,如有不足之處,歡迎在評論區提出指正! 目錄 本篇目標 第一步 ? 修改說明 🔧 修改后的代碼節選 📌 總…

從sdp開始到webrtc的通信過程

1. SDP 1.1 SDP的關鍵點 SDP(Session Description Protocol)通過分層、分類的屬性字段,結構化描述實時通信會話的 會話基礎、網絡連接、媒體能力、安全策略、傳輸優化 等核心信息,每個模塊承擔特定功能: 1. 會話級別…

PHP、Apache環境中部署sqli-labs

初始化數據庫的時候,連接不上 檢查配置文件里面的數據庫IP、用戶名、密碼是否正確 mysqli_connect函數報錯 注意要下載兼容PHP7的sqli-labs版本 1、下載sqli-labs工程 從預習資料中下載。 文件名:sqli_labs_sqli-for7.zip 2、配置數據庫 把下載好的…

Spring AI Alibaba Graph 實踐

本文中將闡述下 AI 流程編排框架和 Spring AI Alibaba Graph 以及如何使用。 1. Agent 智能體 結合 Google 和 Authropic 對 Agent 的定義:Agent 的定義為:智能體(Agent)是能夠獨立運行,感知和理解現實世界并使用工具…

Server 11 ,?通過腳本在全新 Ubuntu 系統中安裝 Nginx 環境,安裝到指定目錄( 腳本安裝Nginx )

目錄 前言 一、準備工作 1.1 系統要求 1.2 創建目錄 1.3 創建粘貼 1.4 授權腳本 1.5 執行腳本 1.6 安裝完成 二、實際部署 2.1 賦予權限 2.2 粘貼文件 2.3 重啟服務 三、腳本解析 步驟 1: 安裝編譯依賴 步驟 2: 創建安裝目錄 步驟 3: 下載解壓源碼 步驟 4: 配置…

層壓板選擇、信號完整性和其他權衡

關于印刷電路材料,我有很多話要說,我覺得這非常有趣,而且所有候選人都帶有“材料”這個詞。無論出現在頂部的東西都是我最終選擇的。我實際上會描述決策過程,因為我認為這很有趣,但首先要強調將我帶到這里的職業旅程。…

幾種經典排序算法的C++實現

以下是幾種經典排序算法的C實現&#xff0c;包含冒泡排序、選擇排序、插入排序、快速排序和歸并排序&#xff1a; #include <iostream> #include <vector> using namespace std;// 1. 冒泡排序 void bubbleSort(vector<int>& arr) {int n arr.size();f…

[學習] 多項濾波器在信號插值和抽取中的應用:原理、實現與仿真(完整仿真代碼)

多項濾波器在信號插值和抽取中的應用&#xff1a;原理、實現與仿真 文章目錄 多項濾波器在信號插值和抽取中的應用&#xff1a;原理、實現與仿真引言 第一部分&#xff1a;原理詳解1.1 信號插值中的原理1.2 信號抽取中的原理1.3 多項濾波器的通用原理 第二部分&#xff1a;實現…

Linux中source和bash的區別

在Linux中&#xff0c;source和bash&#xff08;或sh&#xff09;都是用于執行Shell腳本的命令&#xff0c;但它們在執行方式和作用域上有顯著區別&#xff1a; 1. 執行方式 bash script.sh&#xff08;或sh script.sh&#xff09; 啟動一個新的子Shell進程來執行腳本。腳本中的…

解決文明6 內存相關內容報錯EXCEPTION_ACCESS_VIOLATION

我裝了很多Mod&#xff0c;大約五六十個&#xff0c;經常出現內存讀寫異常的報錯。為了這個問題&#xff0c;我非常痛苦&#xff0c;已經在全球各大論壇查詢了好幾周&#xff0c;終于在下方的steam評論區發現了靠譜的解答討論區。 https://steamcommunity.com/app/289070/dis…

IIS 實現 HTTPS:OpenSSL證書生成與配置完整指南

參考 IIS7使用自簽名證書搭建https站點(內網外網都可用) windows利用OpenSSL生成證書,并加入IIS 親測有效 !!! IIS 配置自簽名證書 參考:IIS7使用自簽名證書搭建https站點(內網外網都可用) 親測可行性,不成功。 IIS 配置OpenSSL 證書 √ OpenSSL 下載 https://slp…

Spark DAG、Stage 劃分與 Task 調度底層原理深度剖析

Spark DAG、Stage 劃分與 Task 調度底層原理深度剖析 核心知識點詳解 1. DAG (Directed Acyclic Graph) 的構建過程回顧 Spark 應用程序的執行始于 RDD 的創建和一系列的轉換操作 (Transformations)。這些轉換操作&#xff08;如 map(), filter(), reduceByKey() 等&#xff…

關于阿里云-云消息隊列MQTT的連接和使用,以及SpringBoot的集成使用

一、目的 本文主要記錄物聯網設備接入MQTT以及對接服務端SpringBoot整個的交互流程和使用。 二、概念 2.1什么是MQTT? MQTT是基于TCP/IP協議棧構建的異步通信消息協議&#xff0c;是一種輕量級的發布、訂閱信息傳輸協議。可以在不可靠的網絡環境中進行擴展&#xff0c;適用…