【論文閱讀】Masked Autoencoders Are Effective Tokenizers for Diffusion Models

introduce

什么樣的 latent 空間更適合用于擴散模型?作者發現:相比傳統的 VAE,結構良好、判別性強的 latent 空間才是 diffusion 成功的關鍵。

研究動機:什么才是“好的 latent 表征”?

背景:

  • Diffusion Models最初在像素空間操作,但效率低;
  • 后續工作(如 Latent Diffusion Models)引入tokenizer,將圖像壓縮成 latent token,再在 latent 空間進行生成,提高效率;
  • VAE 是常見的 tokenizer,要求 latent 遵循高斯分布(通過 KL regularization)。

問題:

  1. VAE 的 KL 限制損害了圖像重建質量;
  2. 普通 AE 雖然重建質量高,但 latent 表征結構性較差,對擴散模型訓練不友好;

那么問題來了:什么樣的 latent 才最適合用于 diffusion?VAE 真有必要嗎?

關鍵發現:結構良好的 latent space 才是關鍵,而非 VAE 的正則。擁有更少 GMM 模式(即更清晰結構、更聚類)的 latent 表征 → 擴散模型訓練損失更小 → 生成效果更好

具體來說:

  1. 給不同類型的 tokenizer(AE / VAE / 表征對齊 VAE / MAETok)提取 latent;
  2. 擬合 Gaussian Mixture Model(GMM),觀察模式數量(mode 數);
  3. 對應的擴散模型的訓練損失越小、生成越好,說明 latent 更利于建模。

結論: 判別性強、結構清晰(mode 少)的 latent 比“高斯先驗 + 正則”更有價值

核心方法:MAETok——用 Masked AE 做 tokenizer

總體設計: 用 MAE(Masked AutoEncoder)訓練 AE,而非 VAE,使其 latent: 語義豐富、 判別性強(discriminative)、可恢復像素。

Encoder:

  • transformer-based encoder;
  • 隨機 mask 掉輸入 patch(如 50%),強迫模型從部分觀察中學習全局語義;
  • 得到的 latent 表征具有更高判別能力和更強結構性(類似 DINO、SimCLR)。

Decoder:

  • 兩個 decoder:
    1. Pixel decoder:恢復輸入圖像;
    2. Auxiliary decoder:恢復 DINOv2 / HOG / CLIP 特征等;
  • 這兩個目標并行訓練,增強表征語義的泛化能力;
  • 在推理時只保留 pixel decoder,幾乎不增加開銷。

解耦機制:

  • 訓練階段:高 mask ratio(如 60%)讓 encoder 學語義;
  • 微調階段:freeze encoder,fine-tune decoder,讓它學會精確恢復像素;

避免語義學習與像素精度之間的沖突。

為什么判別性強、mode 少的 latent 更適合 diffusion?

從 diffusion loss 的角度推導:

  • 擴散模型學習的是如何逐步去噪 latent 表征;
  • 若 latent 本身是聚合性好的結構(mode 少、類內差小),就更容易建模。
  • 理論上證明: GMM mode 越少 → 模型預測誤差(loss)越小 → 更好的 sample quality

On the Latent Space and Diffusion Models

Empirical Analysis

目標: 探索不同 tokenizer(AE、VAE、VAVAE)生成的 latent space 結構復雜度,以及這種結構如何影響 diffusion 模型的訓練和生成質量。

實驗設置:

  1. 用同樣結構和訓練配置分別訓練 AE、VAE、VAVAE,
  2. 把它們當作 tokenizer,對 ImageNet 圖像進行編碼得到 latent;
  3. 用 latent 訓練 DDPM 擴散模型;
  4. 用 GMM(高斯混合模型) 來衡量 latent 空間的復雜度:
    1. 模式數(mode K)越多 → 表示 latent 越復雜、結構越混亂;
    2. 模式數(mode K)越少 → latent 越聚合、語義更清晰,越利于建模;

圖2a:GMM 擬合對比(負對數似然 NLL) ,對 AE、VAE、VAVAE 的 latent 分別進行 GMM 擬合。比較不同模式數量下的 負對數似然(NLL),即擬合誤差。發現:

模型所需 mode 數擬合誤差(NLL)
AE
VAE
VAVAE低?

進一步用這些 latent 分別訓練擴散模型,發現擴散模型訓練 lossGMM mode 數量 幾乎對應:

  1. 模式越多 → 擴散學習更難 → loss 更高;
  2. 模式越少 → latent 更有語義結構 → 學習更輕松,loss 更小。

實驗驗證:模式少的 latent 空間能顯著降低擴散模型訓練難度,提高生成質量

Theoretical Analysis

目標: 從理論上解釋為何“mode 少” → “訓練更容易”,即模式數越多,訓練樣本復雜度越高。

理論設定:假設 latent 空間分布為 K 個等權高斯的混合(GMM):

擴散模型訓練目標采用 score matching loss:

Theorem 2.1

為了讓生成分布接近真實分布(KL誤差小于 O(Tε2)),所需樣本數量滿足:

K = 模式數(mode 數); d = latent 維度; B = 均值向量范數的上界(大致相同); ε = 目標誤差精度。

模式數越多(K ↑),樣本復雜度呈 K? 增長。

說明: mode 越多,越難建模,需要越多訓練樣本才能達到同樣生成質量。在訓練樣本有限的現實中,mode 少(如 VAVAE / MAETok)的 latent 更利于 diffusion 學習。

Method

那么核心問題: 如何訓練一個結構性更好、語義更豐富的 latent 空間,讓擴散模型更高效、更強大?

答案是:通過帶 Mask 的 AE(MAETok)結構 + 多目標訓練 + 解耦優化?策略,構造少mode、可判別的 latent,從而提升擴散模型學習效率與生成質量。

Architecture

?如圖,架構組件:

1. 編碼器(Encoder)

2. 解碼器(Decoder)

3.?位置編碼策略(RoPE)

  • 對于 image patch tokens 使用 2D Rotary Position Embedding(RoPE) 保留圖像結構;
  • 對于 latent tokens 使用 1D 絕對位置編碼,表示抽象語義;

Mask Modeling

MAETok 結構的關鍵設計之一:

  • 對圖像 patch token 施加 40%~60% 的隨機掩碼;
  • 將被 mask 的 patch 替換為 learnable mask token;
  • 讓 latent tokens 學會從剩余部分恢復被遮擋部分信息 → 增強其判別能力;
  • 同時,mask 的 patch 特征通過 shallow decoder 去恢復多種語義目標;

高 mask 比例訓練迫使 encoder 抓住圖像的全局、穩定特征,從而提升 latent 表征的“結構性”。

Auxiliary Shallow Decoders

多目標特征預測:進一步強化 latent 語義。

  • 使用多個淺層解碼器 D?,預測如: HOG(邊緣特征); DINOv2; CLIP; 文本 token(如 BPE index)等;
  • 每個淺層解碼器結構與主 pixel decoder 類似,但層數更少;
  • 訓練 loss:只在被 mask 的位置上監督,強化 latent token 對多種語義結構的恢復能力

Pixel Decoder Fine-Tuning

解碼器解耦微調。由于 mask 訓練主要優化 encoder,可能損失了重建精度,因此:

  • 最后階段凍結 encoder;
  • 微調 pixel decoder 若干輪,僅優化重建質量;
  • 不再使用 mask 或輔助解碼器。loss 采用標準組合:

這一步讓 encoder 保持判別性結構,同時恢復 decoder 的高保真圖像輸出能力。

Experiments

Setup

Tokenizer 訓練設置

  • 基于 XQ-GAN 框架訓練;
  • 編碼器和主 pixel 解碼器均為 ViT-Base(176M 參數);
  • 設置 latent token 數量 L=128,維度 H=32;
  • 三種數據集/尺寸設置: ImageNet-256 ImageNet-512 LAION-COCO-512 子集(預測圖文 BPE token)

多目標重建:

  • mask 比例 40~60%;
  • 三個淺層解碼器用于 HOG、DINO-v2、SigCLIP; LAION 加一個 BPE 文本目標;
  • decoder 深度 = 3(通過消融得出);
  • 損失系數:λ? = 1.0,λ? = 0.4;
  • pixel 解碼器微調階段:mask 從 60% 線性下降到 0%。

Diffusion 模型訓練設置:

  • 用 SiT(Simple Tokenizer) 與 LightningDiT;
  • patch size=1,1D Positional Embedding;
  • SiT-L(458M)用于消融,SiT-XL(675M)訓練 4M 步;
  • LightningDiT 訓練 400K 步;
  • 分辨率:256×256 與 512×512;

評估指標:

  • Tokenizer 評估:
    • 重建質量:rFID、PSNR、SSIM
    • 語義評估:Linear Probing Accuracy(LP)
  • 生成評估:
    • gFID(生成 FID)、IS(Inception Score)
    • Precision/Recall(附錄中)
    • CFG 與否兩種條件下(classifier-free guidance)

Design Choices of MAETok

  • Mask Modeling AE 中加入 mask modeling:
    1. gFID 明顯下降(→更好生成);
    2. rFID 稍升(重建質量下降),可通過 decoder 微調恢復;
  • VAE 加 mask 效果小,因為 KL 抑制了 latent 學習。

結論:mask modeling 是提高 AE 表征能力、簡化擴散學習的關鍵。

重建目標特點效果
原始像素 + HOG低級視覺特征可學好 latent,但提升有限
DINO-v2, CLIP語義特征gFID 顯著下降(→更好生成)
組合使用同時兼顧結構和語義最佳 trade-off

結論:語義教師(CLIP/DINO)能教 AE 學習出更判別的 latent。

Mask 比例(Mask Ratio)

  • 太低 → latent 太“忠實”,不判別;
  • 太高 → 重建能力差;
  • 40%~60% 是最優折中(參考 MAE 系列);

Auxiliary Decoder 深度

  • 太淺 → 無法處理高低語義混合目標;
  • 太深 → 容易記憶任務,反而不學好的 latent;
  • 最優為:中等深度(3 層),效果最佳。

Latent Space Analysis

Latent 可視化(UMAP)

  • AE / VAE 的 latent 分布混疊嚴重(類間重疊);
  • MAETok latent 分布:類間分明,聚類清晰 → 判別性強;

圖 4(UMAP 圖)直觀支持這個發現。

LP Accuracy 與 gFID 的相關性(圖 5a)

  • LP Acc 越高(latent 更判別)→ gFID 越低(生成越好);
  • 提示 latent 表征與生成性能緊密相關。

收斂速度(圖 5b)

  • MAETok latent 訓練更快;
  • SiT-L 在使用 MAETok latent 時,gFID 下降更迅速、值更低。

生成任務對比(表 2/3)

  • MAETok + SiT-XL(128 tokens)不使用 CFG,gFID=2.79(512),擊敗 REPA;
  • 使用 CFG 后:超越 2B USiT 模型,達到 SOTA: gFID = 1.69(SiT) gFID = 1.65(LightningDiT)
  • 使用更強 CFG(如 Autoguidance): gFID 進一步降到 1.54 或 1.51

結論:結構化 latent > 更大模型/更多 token。

重建能力(表 4)

  • 256 分辨率,僅用 128 token,rFID=0.48,SSIM=0.763;
  • 超越 SoftVQ 和 TexTok(后者 token 數翻倍);
  • MS-COCO 上未訓練,仍具泛化能力;
  • 在 512 resolution 下依舊保持優勢。

模型Token 數GFlops推理速度(A100)
原始 SiT-XL1024373.30.1 img/sec
MAETok12848.53.12 img/sec

?

Theoretical Analysis

  • Step 1:從 latent 的 GMM 模式數 K 推導訓練誤差上限
  • Step 2:從訓練誤差推導采樣誤差(KL/采樣分布和真實分布差異)

核心目標是推導:

  1. 生成誤差 ∝ 模式數 K? → 模式多訓練難度大
  2. MAETok 的 latent 空間更“判別”(K 少),所以訓練快、生成質量高

Preliminaries

輸入數據建模為 GMM 分布:?latent 空間數據是一個等權重、單位協方差的高斯混合模型

DDPM 的目標函數(Score Matching):

在 GMM 下的解析 score:

即 GMM 分布的 score 函數是“softmax 加權的類中心差值”。

模擬網絡預測的 score: 訓練模型 sθ(x) 采用相同結構假設:?

推論 A.4:數據二階矩上界為:

Step 1:從模式數到訓練誤差(估計 score 的誤差)

Theorem A.5:DDPM 的收斂誤差界

結論:K 越大 → 所需樣本數量越多 → 難訓練

推導 Score Estimation Error :用真實 score 和模型輸出之間的距離展開:

Step 2:從訓練誤差到采樣誤差(生成質量)

Theorem A.6(Early Stopping)

最終結論 Theorem A.7:完整誤差界

訓練 DDPM 時:

  • 結論 1:模式數 K↑ → 樣本數 n↑↑↑ → 難訓練
  • 結論 2:KL 越小 → 分布越相似 → FID 越低(在高斯假設下)
推理鏈條對 MAETok 的意義
高模式數 K → 訓練樣本要求高AE latent 太 entangled → 訓練慢
判別性強 latent(K 小) → 更快收斂MAETok 顯著加快 gFID 下降(圖5b)
分布判別性高 → gFID 更低LP Acc ↑ → gFID ↓(圖5a)
Score loss 越小 → KL 越小 → FID 越低MAETok 結構性 latent 直接提升生成質量

Experiments Setup

B.1. Training Details of AEs(自編碼器訓練細節)

MAETok 和其他 AE 對比模型(如 AE、KL-VAE、VAVAE)在完全相同的設置下訓練

B.2. Training Details of Diffusion Models(擴散模型訓練細節)

用兩個 backbone:

  • SiT-XL(強表征能力)
  • LightningDiT(輕量加速)

訓練設置遵循各自原始論文的配置,見 Tables 8、9;

與 AE 模塊解耦,主要對比 latent 空間設計對擴散模型訓練效果的影響。

B.3. Training Details of GMM Models(高斯混合建模的細節)

對應于 Fig. 2a 中對 latent 分布的可分性度量:

實驗流程:

  1. Flatten Latents :把原始 AE 輸出的 latent 表示 (N,H,C) reshape 為 (N,H×C)
  2. Dimensionality Reduction(PCA降維) :降維到維度 K,保留>90%方差,保證所有模型輸出 latent 都變為統一維度 (N,K)?,避免“維度詛咒”
  3. Normalization(標準化):保證不同模型輸出分布一致,避免尺度差異
  4. GMM Fitting + NLL 評估:擬合 GMM,輸出 NLL loss 衡量 latent 空間是否“結構清晰”(mode 少/可分性強)

訓練配置:

  • 所有模型在 ImageNet 全量數據上訓練
  • GMM 模型數量:50、100、200,對應訓練時間約為 3/8/11 小時
  • 使用單卡 NVIDIA A8000(分布式訓練可提速)

Experiments Results

C.1. More Quantitative Generation Results

在 256×256 和 512×512 分辨率上提供了 Precision / Recall 的補充評估(Table 10, 11);

與 gFID 等指標互補,更全面評估生成質量與多樣性。

C.2. Classifier-free Guidance Tuning Results(CFG 調參結果)

CFG 是無條件擴散模型的關鍵組件,但:

  1. 即使是微小的 CFG scale 變化,gFID 也會明顯變化;
  2. 即使用 “CFG Interval” 技術(如 [0, 0.75])跳過高步數時間段,也很難穩定控制;
  3. 根本原因在于 unconditional class 的語義空間不穩定

實際使用的 CFG 設置:

分辨率模型CFG ScaleInterval
256×256SiT-XL1.9[0, 0.75]
256×256LightningDiT1.8[0, 0.75]
512×512SiT-XL1.5[0, 0.7]
512×512LightningDiT1.6[0, 0.65]

結論與未來方向:

  1. 當前線性 CFG 無法有效控制 MAETok 的強語義 latent;
  2. 可嘗試采用更高級的 CFG 設計

C.3. Latent Space Visualization(可視化結果)

圖 9 展示了 MAETok 及其變體在不同重建目標下的 latent 分布,顯示出明顯的 分布清晰、聚類可分、mode 少 的特點; 理論分析中的 GMM 模型假設與實驗中圖像結果高度一致。

C.4. More Ablation Results

見 Table 13,主要關注兩個因素:

Token Type效果
圖像 patch tokens表現普通
可學習 latent tokens效果顯著更好

結論:使用 learnable latent token 更高效,128 個就能達成與 256 個相當效果

2. 2D RoPE(二維相對位置編碼):

  • 幫助模型在 混合分辨率訓練場景中泛化更好;
  • 對比無位置編碼或1D編碼的模型有更強的空間建模能力。

模塊要點啟發
AE 訓練使用統一設置進行公平比較可復現、可對比
GMM 分析PCA 降維+標準化+NLL度量量化 latent 可分性(mode 越少越好)
CFG 調參變化劇烈,調優困難MAETok latent 空間語義穩定但不適于線性 CFG
可視化顯示 clear clustering理論假設與實際分布一致
Ablation128 latent token+2D RoPE 最優更高效、分辨率穩健泛化

問題

K(模式數)和樣本量(components)指什么?

作者用 GMM(Gaussian Mixture Model) 去擬合 autoencoder 的 latent space:

  • 每一個 mode K,就是一個高斯分布中心(Gaussian Component),代表 latent 中聚集的一群數據。
  • K 越大,說明 latent 空間越“離散化、碎片化”,分布不集中。
  • GMM 會估計出每個分布的均值 μ 和權重 w,用于刻畫 latent 的整體形狀。

核心直覺:一個“好”的 latent 空間,應該是幾個“集中的簇”,而不是碎片化、重疊、高維擴散。

分析得出: 為了學習一個含 K 個模式的 GMM,score-based 模型訓練所需的樣本量為:

這意味著:K 越大 → 模型越難訓練、樣本需求呈指數增長

為什么要最小化score matching loss ?

?DDPM 訓練函數:

目標:讓模型輸出的去噪方向盡量接近真實的概率梯度方向,從而逐步反擴散、重建圖像。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/89109.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/89109.shtml
英文地址,請注明出處:http://en.pswp.cn/web/89109.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

每日一SQL 【游戲玩法分析 IV】

文章目錄問題案例執行順序使用分組解決問題 案例 執行順序 SQL 語句的執行順序(核心步驟) 同一層級的select查詢內部, 別名在整個 SELECT 計算完成前不生效 使用分組解決 select distinct s.product_id, Product.product_name from Sales sleft join …

內部文件審計:企業文件服務器審計對網絡安全提升有哪些幫助?

企業文件服務器審計工作不僅對提升企業網絡信息安全起到重要作用,還能對企業內部網絡文件信息是否合規進行判斷。因此企業文件服務器審計一直被高度重視。 一、文件服務器為何成為攻擊焦點? 企業文件服務器通常集中存儲財務報表、人事檔案、研發資料、客…

FusionOne HCI 23 超融合實施手冊(超聚變超融合)

產品介紹 FusionOne HCI作為實現企業信息一體化的IT基礎設施平臺,以“軟硬件垂直深度集成和調優”、“快速部署”、“統一管理”的理念,提供應用融合部署,提升核心業務運作效率,降低整體采購成本。 FusionOne HCI代表了IT產品的…

AI算姻緣測算小工具流量主微信小程序開源

功能特點 響應式設計:完美適配各種移動設備屏幕尺寸 精美UI界面: 柔和的粉紅色漸變背景 圓角卡片設計 精心設計的字體和間距 愛心圖標點綴 動態效果: 點擊按鈕時的動畫反饋 測算結果的平滑過渡動畫 愛心漂浮動畫 進度條動態填充 AI測算功能&a…

Vue獲取上傳Excel文件內容并展示在表格中

一、安裝依賴 npm install xlsx 二、引用依賴 import XLSX from xlsx 三、代碼實現 1、注意&#xff1a;函數 analysis 中reader.readAsBinaryString(file)&#xff0c;file的數據格式如圖所示 2、示例代碼 <!-- 項目使用的前端框架為非流行框架&#xff0c;主要關注…

pipelineJob和pipeline的關系

pipelineJob與pipeline在Jenkins體系中構成配置層與執行層的協同關系,具體關聯如下: 一、核心功能定位 概念作用實現層級pipelineJob定義Job的元數據(如SCM配置、日志策略)配置層pipeline描述實際構建流程(如階段劃分、并行任務)執行層scriptPath橋梁作用:將配置層定義…

第二十篇 Word文檔自動化:Python批量生成、模板填充與內容修改,告別繁瑣排版!

python實現word 自動化重復性文檔制作&#xff0c;手動填充模板&#xff0c;效率低下還易錯1.python-docx入門&#xff1a;Word文檔的“瑞士軍刀”&#xff01;1.1 安裝與基礎概念&#xff1a;文檔、段落、運行、表格1.2 打開/創建Word文檔&#xff1a;Python與Word的初次接觸1…

【C# in .NET】7. 探秘結構體:值類型的典型代表

探秘結構體&#xff1a;值類型的典型代表 在 C# 的類型系統中&#xff0c;結構體&#xff08;Struct&#xff09;作為值類型的典型代表&#xff0c;一直扮演著既基礎又微妙的角色。許多開發者在日常編碼中雖頻繁使用結構體&#xff08;如int、DateTime等&#xff09;&#xff0…

深入探討Hadoop YARN Federation:架構設計與實踐應用

Hadoop YARN Federation簡介基本概念與設計初衷Hadoop YARN Federation作為Apache Hadoop 3.x版本的核心特性之一&#xff0c;其本質是通過多集群聯合管理機制突破單點資源管理器的性能瓶頸。傳統YARN架構中&#xff0c;單個ResourceManager&#xff08;RM&#xff09;需要管理…

STM32固件升級設計——SD卡升級固件

目錄 概述 一、功能描述 1、BootLoader部分&#xff1a; 2、APP部分&#xff1a; 二、BootLoader程序制作 1、分區定義 2、 主函數 3、SD卡升級文件檢測和更新 4、程序跳轉 三、APP程序制作 四、工程配置&#xff08;默認KEIL5&#xff09; 五、運行測試 結束語…

基于Python的圖像文字識別系統

主要語言&#xff1a;Python數據庫&#xff1a;SQLiteUI界面&#xff1a;PYQT5文字識別模型&#xff1a;Tesseract OCR&#xff08;本地搭建&#xff09;主要功能&#xff1a;登錄注冊&#xff1a;登錄注冊功能。圖片管理&#xff1a;單張/多張上傳、圖片列表、預覽、刪除、切換…

028_分布式部署架構

028_分布式部署架構 概述 本文檔介紹如何設計和實現Claude應用的分布式部署架構&#xff0c;包括負載均衡、緩存策略、服務發現、容錯機制等。 微服務架構設計 1. 服務拆分策略 from abc import ABC, abstractmethod from typing import Dict, Any, Optional import asyncio im…

duckdb和pyarrow讀寫arrow格式的方法

arrow格式被多種分析型數據引擎廣泛采用&#xff0c;如datafusion、polars。duckdb有一個arrow插件&#xff0c;原來是core插件&#xff0c;1.3版后被廢棄&#xff0c;改為社區級插件&#xff0c;名字改為nanoarrow, 別名還叫arrow。 安裝 D install arrow from community; D…

機器人位姿變換的坐標系相對性:左乘法則與右乘法則解析?

文章目錄1. 全局坐標系下機器人位姿更新的左乘法則?2. 局部坐標系下機器人位姿增量更新的右乘法則?3. 相對位姿的計算3.1. 基于世界坐標系&#xff08;全局變換&#xff09;3.2. 基于 t1t_1t1? 時刻相機的局部坐標系&#xff08;局部變換&#xff09;3.3. 兩者區別設機器人當…

代碼隨想錄算法訓練營65期第20天

代碼隨想錄算法訓練營65期第20天 本文中使用到一些代碼隨想錄里面的圖片或者鏈接&#xff0c;在這里致敬程序員Carl 二叉搜索樹的最近公共祖先 相對于 二叉樹的最近公共祖先 本題就簡單一些了&#xff0c;因為 可以利用二叉搜索樹的特性。 題目鏈接&#xff1a;代碼隨想錄&…

LLaMA.cpp HTTP 服務參數: --pooling 嵌入模型 池化類型詳解

LLaMA.cpp HTTP 服務參數: --pooling 嵌入模型 池化類型詳解 --pooling {none,mean,cls,last,rank} 在 llama.cpp 的 embedding server 中&#xff0c;--pooling {none,mean,cls,last,rank} 參數用于指定 如何將輸入文本的 token 級嵌入向量聚合為句向量。以下是各選項的詳細解…

「日拱一碼」027 深度學習庫——PyTorch Geometric(PyG)

目錄 數據處理與轉換 數據表示 數據加載 數據轉換 特征歸一化 添加自環 隨機擾動 組合轉換 圖神經網絡層 圖卷積層&#xff08;GCNConv&#xff09; 圖注意力層&#xff08;GATConv&#xff09; 池化 全局池化&#xff08;Global Pooling&#xff09; 全局平均池…

IoC容器深度解析:架構、原理與實現

&#x1f31f; IoC容器深度解析&#xff1a;架構、原理與實現 引用&#xff1a; .NET IoC容器原理與實現等巫山的雲彩都消散撒下的碧色如何看淡 &#x1f50d; 一、引言&#xff1a;從服務定位器到IoC的演進 #mermaid-svg-BmRIuI4iMgiUqFVN {font-family:"trebuchet ms&…

從零開始學前端html篇3

表單基本結構表單是 HTML 中用于創建用戶輸入區域的標簽。它允許用戶輸入數據&#xff08;例如文本、選擇選項、文件等&#xff09;&#xff0c;并將這些數據提交到服務器進行處理。<form>&#xff0c;表單標簽&#xff0c;用于創建表單常用屬性&#xff1a;action&#…

Linux系統調優和工具

Linux系統調優和問題定位需要掌握一系列強大的工具&#xff0c;涵蓋系統監控、性能分析、故障排查等多個方面。以下是一些核心工具和它們的典型應用場景&#xff0c;分類整理如下&#xff1a; 一、系統資源監控&#xff08;實時概覽&#xff09;top / htop 功能&#xff1a; 實…