高效深度學習lecture01

lecture01

零樣本學習(Zero-Shot Learning, ZSL):

  1. 模型可以在沒有見過某種特定任務或類別的訓練樣本的情況下,直接完成對應的任務

  2. 利用知識遷移

    1. 模型在一個任務上訓練時學到的知識,能夠遷移到其他任務上
    2. 比如,模型知道“狗”和“貓”都屬于“動物”,因此,即使沒見過“狐貍”的圖片,也可以通過“動物”這個概念推測“狐貍”可能屬于“動物”
  3. 借助語義信息

    1. 零樣本學習通常依賴于額外的語義信息(如類標簽的描述、文本嵌入、圖像特征等)
    2. 例如,在分類任務中,類別名稱的文本描述可以幫助模型理解新的類別
  4. 關鍵技術:

    1. 共享特征空間
      1. 模型通過將已知類別的特征和未知類別的語義描述映射到同一個特征空間來實現知識遷移
      2. 例如,將圖片嵌入和文本嵌入映射到一個共同空間,模型可以比較圖片特征和文本描述的相似性
    2. 使用預訓練模型
      1. 許多預訓練語言模型(如GPT、BERT)和多模態模型(如CLIP)對零樣本學習效果非常好
      2. 這些模型在大量多任務數據上訓練,可以理解廣泛的語義信息
    3. 多模態方法
      1. 跨文本和圖像的模型(如CLIP)在零樣本任務中尤為突出,它們通過學習文本和圖像的對應關系實現任務遷移

思維鏈(Chain of Thought, CoT):

  1. 一種用于大語言模型(LLM)的推理策略,通過讓模型生成逐步的推理步驟,從而提高復雜任務(如數學推算、邏輯推理、問答等)的準確性和解釋性

  2. 傳統的模型往往直接給出答案,而思維鏈方法引導模型像人類一樣,分步驟思考問題,提高了解決復雜問題的能力

  3. 主要策略:

    1. 逐步推理:將一個復雜問題分解成多個小的、容易解決的步驟,模型在推理過程中不僅生成答案,還給出詳細的思路
    2. 顯式中間步驟:思維鏈的中間步驟提供了解題過程的可解釋性,便于診斷和改進模型的推理
    3. 提升模型性能:對于需要深度推理或多步驟計算的問題,思維鏈能顯著提高模型的準確性
  4. 預訓練語言模型生成

    1. 使用提示(Prompting)指導模型逐步推理

    2. eg:
      問題:如果一輛車以每小時60公里的速度行駛4小時,它行駛了多少公里?
      答案:
      1. 每小時行駛60公里。
      2. 行駛4小時。
      3. 總距離是 \(60 \times 4 = 240\) 公里。
      答案是:240公里。
      
  5. 少樣本學習(Few-shot Learning)

    1. 在輸入中加入幾個例子,讓模型學習如何分步驟回答

    2. 示例1:
      問題:如果小明有2個蘋果,每個蘋果價值3元,他總共有多少錢?
      答案:
      1. 每個蘋果價值3元。
      2. 小明有2個蘋果。
      3. 總價值是 \(3 \times 2 = 6\) 元。
      答案是:6元。問題:如果一輛車每小時行駛70公里,行駛3小時,它行駛了多少公里?
      答案:
      
  6. 微調模型:將逐步推理的標注數據用來微調模型,使其能夠生成思維鏈


算法、硬件、數據

AI設備性能指標:

  1. FLOPS(Floating Point Operations Per Second): 浮點計算能力;FLOPS 是衡量設備計算能力的指標,表示設備每秒能執行的浮點運算次數

    1. 浮點數運算指的是計算機處理小數大數(比如 1.23、0.0005 或 3.14)的加減乘除等操作

    2. AI模型需要大量計算,比如神經網絡中的矩陣乘法,FLOPS越大,計算能力越強,也就是能更快、更高效地處理任務

    3. AI 和深度學習領域,常見的位數包括 16位(FP16)32位(FP32)64位(FP64),它們代表浮點數的不同精度,位數越多:表示的數值范圍越大,精度越高(更接近真實值)

      1. FP32(32位浮點數):單精度浮點數,每個數占用 4 字節(32 位),傳統的深度學習主要使用 FP32,計算精度和速度較均衡,通用深度學習訓練和推理任務
      2. FP16(16位浮點數): 半精度浮點數,每個數占用 2 字節(16 位),運算速度更快,因為每次操作處理的數據量更少,推理階段更常用
      3. FLOPS 的計算能力會因為浮點數精度不同而變化:同一個GPU算力:
        1. FP32:10 TFLOPS(每秒 10 萬億次 FP32 運算)
        2. FP16:20 TFLOPS(每秒 20 萬億次 FP16 運算)
        3. FP64:2 TFLOPS(每秒 2 萬億次 FP64 運算)
      4. 混合精度訓練(Mixed Precision Training):
        1. 如( PyTorch、TensorFlow)支持混合精度訓練:
          1. 使用 FP16 處理大部分運算以提高速度和節省顯存
          2. 在需要高精度的地方(如梯度累積),切換回 FP32
    4. FLOPS 的計算依賴于硬件架構和運行的程序,基本公式如下:

      FLOPS=Number?of?Cores × Clock?Speed?(GHz) × Operations?Per?Clock?(OPC)
      

      Number of Cores:處理器(CPU/GPU)的計算核心數,越多并行能力越強

      Clock Speed:每秒鐘的時鐘頻率,單位是 GHz(10 億次/秒)

      Operations Per Clock:每個時鐘周期能執行的浮點運算次數

      eg : NVIDIA RTX 3090

      1. CUDA 核心數:10496 個
      2. 時鐘頻率(Boost Clock):1.70 GHz
      3. 每個 CUDA 核心的運算能力(FP32):1 次浮點運算/周期
      4. Tensor Core 性能(FP16 混合精度):每個 Tensor Core 每周期可以處理 4 次浮點運算
      5. FP32 FLOPS = 10496 × 1.70GHz × 1OPC = 17843.2GFLOPS = 17.8TFLOPS
      6. FP16 是半精度浮點運算,使用 Tensor Core 時,每周期每個核心的運算能力為 FP32 的 4 倍:FP16 FLOPS=4×17.8=71.2TFLOPS
    5. Tensor Core 是 NVIDIA 針對 AI 和深度學習任務特別設計的硬件加速單元

      1. FP16(半精度浮點)模式下,Tensor Core 每個時鐘周期可以執行 4 次浮點運算
      2. TF32FP32 精度下,Tensor Core 也具有加速作用,特別是在進行矩陣運算時
      3. Tensor Core 更像是 加速器,提升了 GPU 在特定任務(如深度學習)中的表現,ensor Core 提升了 CUDA 核心深度學習低精度運算 中的計算能力,尤其是處理矩陣運算時,通過并行處理提升了整體性能

  2. **顯存(VRAM 或 Memory)😗*用于存儲圖形數據、紋理、渲染的幀和其他與顯示相關的信息。顯存對于 AI 設備(如 GPU)也非常重要,尤其是在 深度學習訓練推理

    1. 顯存通常用于存儲圖形渲染的 紋理幀緩沖區幾何數據頂點信息

    2. 深度學習 中,顯存用來存儲訓練過程中的 模型參數(如權重、偏置),以及 中間結果(例如在前向傳播和反向傳播過程中產生的激活值和梯度)

    3. 推理(inference)過程中,顯存用于存儲需要推理的數據批量以及網絡結構和模型權重

    4. GPU 需要快速處理大量數據。顯存提供了快速的數據存儲和讀取通道,減少了從 主內存(系統 RAM)到 GPU 的數據傳輸延遲,提高了整體性能

    5. 如果顯存不足,GPU 可能會變得 受限,因為無法容納足夠的訓練數據或模型參數。在這種情況下,GPU 的計算能力可能會受到限制,即使它的 FLOPS 很高

    6. 顯存的大小和性能:更大的顯存允許 GPU 同時處理更多的數據,從而提升計算效率。對于 AI 訓練和推理,顯存的大小對處理 大規模數據集復雜模型 的能力至關重要

    7. 批量大小(Batch Size):批量大小是深度學習訓練中的一個重要參數。增加批量大小通常可以提升訓練效率,但也需要更多的顯存。如果顯存不足,批量大小必須減少

    8. 顯存容量和顯存帶寬:

      1. 訓練復雜的深度神經網絡時,模型的大小和數據的批量大小會占用大量顯存。如果顯存不足,可能會導致 內存溢出(Out of Memory)
      2. 顯存帶寬 是指顯存能夠在單位時間內讀取或寫入的數據量,通常以 GB/s(GB 每秒)為單位。高帶寬顯存可以提供更高的數據吞吐量,尤其是在需要處理大量并行數
    9. 設備顯存類型顯存大小顯存帶寬AI 算力(FLOPS)
      Jetson NanoLPDDR4(低功耗)4 GB25.6 GB/sFP32: 0.5 TFLOPS, FP16: 1 TFLOPS
      RTX 3090GDDR6X24 GB936.2 GB/sFP32: 35.6 TFLOPS, FP16: 71.2 TFLOPS
      RTX 4090GDDR6X24 GB1,008.0 GB/sFP32: 35.6 TFLOPS, FP16: 71.2 TFLOPS
      A100HBM240 GB 或 80 GB1,555 GB/s (40 GB 版本) 或 2,039 GB/s (80 GB 版本)FP32: 19.5 TFLOPS, FP16: 156 TFLOPS, Tensor Core FP16: 312 TFLOPS

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/900433.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/900433.shtml
英文地址,請注明出處:http://en.pswp.cn/news/900433.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用 iPerf 測試內網兩臺機器之間的傳輸速度

在現代網絡管理中,確保內部網絡(內網)的高效運行是至關重要的。為了評估和優化網絡性能,我們需要一種可靠的方法來測試內網中不同設備間的傳輸速率。iPerf 作為一款廣泛使用的工具,能夠幫助我們準確測量兩個節點之間的…

視頻設備軌跡回放平臺EasyCVR如何搭建公共娛樂場所遠程視頻監控系統

一、背景介紹 由于KTV、酒吧、足療店等服務場所人員流動頻繁、環境復雜,一直是治安管理的重點區域。為有效打擊 “黃賭毒”、打架斗毆、尋釁滋事等違法犯罪的活動,打造安全有序的娛樂消費環境,我國相關部門將加大對這類場所的清查與管控力度…

vue進度條組件

<div class"global-mask" v-if"isProgress"><div class"contentBox"><div class"progresstitie">數據加載中請稍后</div><el-progress class"progressStyle" :color"customColor" tex…

Css:如何解決絕對定位子元素內容被父級元素overflow:hidden屬性剪裁

一、問題描述 今天小伙伴提了一個bug&#xff0c;在點擊列表項的“…”按鈕應該出現的懸浮菜單顯示不完整&#xff1a; 二、問題排查 一般這種問題&#xff0c;是由于懸浮菜單采用的是絕對定位&#xff0c;而父級采用了overflow:hidden屬性。但需要注意的是&#xff0c;這里的…

JavaScript基礎--01-JS簡介

字面量&#xff1a;數字、字符串、布爾值 前言JavaScript背景Web前端有三層&#xff1a;發展歷史JavaScript的發展&#xff1a;蒸蒸日上 JavaScript介紹JavaScript入門易學性JavaScript是腳本語言JavaScript的組成 JavaScript 的特點特點1&#xff1a;解釋型語言特點2&#xff…

[leetcode] 面試經典 150 題——篇9:二叉樹(番外:二叉樹的遍歷方式)

二叉樹的遍歷是指按照某種順序訪問二叉樹中的每個節點。常見的遍歷方式有四種&#xff1a;前序遍歷&#xff08;Pre-order Traversal&#xff09;、中序遍歷&#xff08;In-order Traversal&#xff09;、后序遍歷&#xff08;Post-order Traversal&#xff09;以及層序遍歷&am…

es基本概念

Elasticsearch 的架構與基本概念 Elasticsearch&#xff08;簡稱 ES&#xff09;是一個開源的分布式搜索和分析引擎&#xff0c;基于 Apache Lucene 構建。它被廣泛用于全文搜索、日志分析、實時數據分析等場景。以下是其架構概述及其基本概念的詳細解釋。 Elasticsearch 的架…

《星環之城:量子迷霧下的網絡安全戰記》

點擊下面圖片帶您領略全新的嵌入式學習路線 &#x1f525;爆款熱榜 88萬閱讀 1.6萬收藏 序章&#xff1a;星環之隕 公元2145年&#xff0c;人類在火星軌道上建造了“星環之城”——一座由量子網絡連接的太空城邦。它的中樞AI“蓋婭”掌控著地球與殖民地的數據洪流&#xff…

《全棧+雙客戶端Turnkey方案》架構設計圖

今天分享一些全棧雙客戶端Turnkey方案的架構與結構圖。 1&#xff1a;三種分布式部署方案:網關方案&#xff0c;超級服務器單服方案&#xff0c;直連邏輯服方案 2: 單服多線程核心架構: 系統服務邏輯服服務 3: 系統服務的多線程池調度設計 4:LogicServer Update與ECS架構&…

打破界限:Android XML與Jetpack Compose深度互操作指南

在現有XML布局項目中逐步引入Jetpack Compose是現代Android開發的常見需求。本指南將全面介紹混合使用的最佳實踐、技術細節和完整解決方案。 一、基礎配置 1.1 Gradle配置 android {buildFeatures {compose true}composeOptions {kotlinCompilerExtensionVersion "1.5.3…

React-narice安卓打包流程

**1. 生成簽名密鑰 在項目的 android/app 目錄下生成簽名密鑰的步驟&#xff1a; 打開終端或命令提示符&#xff1a;導航到您的 React Native 項目的 android/app 目錄。 運行以下命令生成密鑰庫文件&#xff1a; keytool -genkeypair -v -keystore my-release-key.keystor…

嵌入式AI開源生態指南:從框架到應用的全面解析

嵌入式AI開源生態指南&#xff1a;從框架到應用的全面解析 引言 隨著人工智能技術的迅速發展&#xff0c;將AI能力部署到邊緣設備上的需求日益增長。嵌入式AI通過在資源受限的微控制器上運行機器學習模型&#xff0c;實現了無需云連接的本地智能處理&#xff0c;大幅降低了延…

深度學習中模型量化那些事

在深度學習中模型量化可以分為3塊知識點&#xff0c;數據類型、常規模型量化與大模型量化。本文主要是對這3塊知識點進行淺要的介紹。其中數據類型是模型量化的基本點。常規模型量化是指對普通小模型的量化實現&#xff0c;通常止步于int8的量化&#xff0c;絕大部分推理引擎都…

Redis-list類型

這里只是介紹命令使用 列表是用來存儲多個有序的字符串 可以用來充當棧和隊列的角色 列表特點: 列表中的元素是有序的,可以通過索引下標來獲取某個元素或者某個范圍的元素 獲取和刪除有區別 元素可以重復 命令 LPUSH 將一個或者多個元素從左側放入到list中(頭插法) lp…

Business English Certificates (BEC) 高頻詞匯背誦

Business English Certificates {BEC} 高頻詞匯背誦 References Cambridge English: Business Certificates, also known as Business English Certificates (BEC), are a suite of three English language qualifications for international business. abandon /??bnd?n/ …

第十四屆藍橋杯省賽真題解析(含C++詳細源碼)

第十四屆藍橋杯省賽 整數刪除滿分思路及代碼solution1 &#xff08;40% 雙指針暴力枚舉&#xff09;solution 2&#xff08;優先隊列模擬鏈表 AC&#xff09; 冶煉金屬滿分代碼及思路 子串簡寫滿分思路及代碼solution 1&#xff08;60% 雙指針&#xff09;solution 2&#xff0…

AI Agent開發大全第二十一課-如何開發一個MCP(從0開發一個MCP Client)

開篇 上一章《AI Agent開發大全第二十課-如何開發一個MCP(從0開發一個MCP Server)》里我們講了如何從0開始開發一個MCP Server。可以看到文中大量細節為MCP發明者官網Claude都不曾或者是遺漏的,而且還有那么多點遺漏,想要真正要在企業生產級環境使用MCP是需要做分布式開發的…

TypeScript面試題集合【初級、中級、高級】

初級面試題 什么是TypeScript&#xff1f; TypeScript是JavaScript的超集&#xff0c;由Microsoft開發&#xff0c;它添加了可選的靜態類型和基于類的面向對象編程。TypeScript旨在解決JavaScript的某些局限性&#xff0c;比如缺乏靜態類型和基于類的面向對象編程&#xff0c…

無錫無人機駕駛證培訓費用

無錫無人機駕駛證培訓費用&#xff0c;隨著科技的迅速發展&#xff0c;無人機在眾多行業中發揮著舉足輕重的作用。從影視制作到農業監測&#xff0c;再到物流運輸與城市規劃&#xff0c;無人機的應用場景不斷擴展&#xff0c;因此越來越多的人開始意識到學習無人機駕駛技能的重…

2181、合并零之間的節點

2181、[中等] 合并零之間的節點 1、問題描述&#xff1a; 給你一個鏈表的頭節點 head &#xff0c;該鏈表包含由 0 分隔開的一連串整數。鏈表的 開端 和 末尾 的節點都滿足 Node.val 0 。 對于每兩個相鄰的 0 &#xff0c;請你將它們之間的所有節點合并成一個節點&#xff…