[讀論文]Hunyuan 3D 系列

1.0: (adaptive clasisfier guidance,input 輸入一個沒cam的branch;提高triplane分辨率)

  • 總結:
    • 大規模再train zero123++,但角度設置不同;adaptive clasisfier guidance(front view和早期,使用更大的CFG)
    • 對input img再加一個cam embeddings全0的branch來融入其特征
    • 用了一種線性復雜度的方法來提高triplane的分辨率(avoid self attention on higher-resolution triplane tokens)
    • (text就是先從text生成img,然后都走img to 3D)
  • intro
    • 還是multiview diffusion + LRM的路線。
    • address的問題:
      • multiview inconsistency,
      • 依賴已知的pose或view
  • Method:
    • Multiview Diffusion:
      • 基本情況:Zero123++ 擴大規模 & 更改角度設置
        • 還是基于Zero123++再訓練
          • 注意Zerro123++和InstantMesh的角度是(ele是absolute的)
            [圖片]
          • 有側面,沒正面。
        • 擴大:larger parameters, larger dataset
        • 角度:Ele: 0; azimuth: 0,60,120,180,240,300
          • 有正面,沒側面。
          • 說這個ele 0, 可以最大化view中的visible area。emm。放棄上下視角?
        • 分辨率:lite還是320*320, standard進一步擴大到512了。
      • Adaptive Classifier-free guidance (front view和早期,使用更大的CFG)
        • 發現:CFG越大,幾何更好但texture不行;正面越高保真但背面越暗
        • 因此:front view和早期,使用更大的CFG
    • Sparse-View Reconstruction (LRM part)
      • Hybrid inputs: 同時使用input img和生成的multiview imgs(其實對于relative角度的方法并不存在此問題)
        • 對input img,專門搞個 角度未知 的branch來融入其信息。(就是camera embedding全設為0)
      • SR
        • 用了一種線性復雜度的方法來提高triplane的分辨率(avoid self attention on higher-resolution triplane tokens)
        • 起初是64641024,(用一個線性層把11 給上采樣為44),得到256256120
      • 3D Rep:SDF + MC + UV unwrapping(是否稍顯原始了啊??Instantmesh
        已經上flexicubes了啊)

2.0: 幾何Hunyuan3D-DiT + 紋理Hunyuan 3D-Paint (albedo)

  • Hunyuan3D- DiT: 一個正常的image-conditioned DiT(Denoising Transformer),latent的。這個latent是用點云來訓練的。(用到Uniform和Importance sampled points)mesh表征是SDF + Marching Cubes.
  • Hunyuan3D-Paint: 輸入的是img(delighting)和multiview normal 和 multiview position;然后對輸出進行SR
    • Double-stream Image Conditioning Reference-Net:
      • 第一個stream是 直接使用VAE的feature,設其time step為0
      • 第二個stream是凍結SD的weights。
    • Texture Baking (怎么把multiview imgs變為3Dmesh的texture?)
      • Dense-view inference:聽上去好像是,train的時候每次從44個pre-set view中隨機選擇6個來輸出并train,這樣inference的時候,這44個view就都能生成
      • 對輸出的multiview imgs逐個進行super resolution
      • Texture inpainting: (鄰居擴散,weighted sum)沒有對應顏色的UV空間的像素點(texel),用他對應的有顏色的3D點的鄰居點的weighted sum來填色。
  • Preprocessing:
    • Image Delighting: 大規模數據集下全監督學習train的。
    • View Selection:
      • 計算每個視角的信息增益,貪婪選擇(先固定前后左右,然后選盡可能涵蓋更多unseen regions的))

2.1 Paint時增加了material的支持(PBR(Physically-Based Rendering))

  • 這個material似乎是metallic和roughness這兩項。(所以就是gen的時候不止gen albedo,還gen他倆)

2.5 new shape generator LATTICE

geometry 變精致多了:
在這里插入圖片描述

  • Detailed Shape Generation: LATTICE
    • 一個diffusion model,輸入是single or 4 view images
    • 核心點:
      • scaling up
      • 還用了guidance and step distillation 來減少inference時間
  • Texture
    • extend 2.1

    • inherit 3D-aware RoPE to enhance cross-view consistency

    • multi(dual)- channel attention mechanism to ensure sptial alignment

      • 無論albedo還是MR,都用albedo的attention mask

PolyGen:布線(重拓撲)工具

沒有開源,沒有technical report。
可以參考官方的這篇文章:
https://mp.weixin.qq.com/s/l12y2IPExhvz2fvUJPm-tw

和量子位的這篇文章:
https://baijiahao.baidu.com/s?id=1837134756242570771&wfr=spider&for=pc

跟想象的一樣,是MeshGPT這一脈的

Contributions:

  • 自研高壓縮率表征BPT
    • 一個面不再需要三個頂點xyz一共9個token了。平均2.3個token每個triangle,比EdgeRunner的四五個更少==(這樣可以支持更復雜(多面)的mesh了!)==
  • 強化學習后訓練==(穩定生成和美術規范獎勵)==

Hunyuan World 1.0

概述

  • 輸入single image 或text prompt
  • 輸出一個場景的mesh,是分層的(前景物體,地形,天空)
  • 方法:三步走
    • 先生成全景圖
    • 用一個視覺LLM來把全景圖解耦成前景物體,地形,天空(得到這三者分別的圖像)
    • 對他們三個進行深度估計并對其;再重建出mesh
      在這里插入圖片描述

全景圖生成

world reconstruction

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/94842.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/94842.shtml
英文地址,請注明出處:http://en.pswp.cn/web/94842.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

深入理解文本向量嵌入(Vector Embeddings):原理、實踐與應用場景

深入理解文本向量嵌入(Vector Embeddings):原理、實踐與應用場景 1. 什么是向量嵌入? 文本向量嵌入(Vector Embedding)是一種將文本轉化為數值向量的技術,使得字符串之間的關聯性可以通過數值…

微論-神經網絡中記憶的演變

從微突觸到宏認知:論神經網絡中記憶的生成、固化與演化人腦的智能,并非源于單個神經元的孤立活動,而是誕生于由萬億突觸連接所構成的龐大而復雜的網絡動態之中。在這個網絡中,連接權重的強度分布——即強的約束與弱的變數——共同…

機器視覺學習-day07-圖像鏡像旋轉

圖像的鏡像旋轉分為三種,分別使用filpcode的參數表示:flipcode0,垂直翻轉(x軸為中線) 垂直翻轉可以把src沿著x軸翻轉,坐標從(x,y)翻轉為(x,-y)。flipcode>0,水平翻轉&…

Python備份實戰專欄第2/6篇:30分鐘搭建企業級API認證系統,安全性吊打90%的方案

30分鐘搭建企業級API認證系統,安全性吊打90%的方案 專欄導語:《從零到一:構建企業級Python Web自動化備份系統實戰指南》第2篇 作者簡介:madechango架構師,負責設計零安全事故的API認證系統,攔截100%非法請…

第6篇:鏈路追蹤系統 - 分布式環境下的請求跟蹤

項目地址:https://github.com/nemoob/atlas-log 開箱即用。前言 在微服務架構中,一個用戶請求往往會經過多個服務的協作處理。本章將實現一個輕量級的鏈路追蹤系統,讓日志具備分布式追蹤能力。 分布式鏈路追蹤基礎概念 鏈路追蹤的核心價值 #m…

ubuntu25.04編譯最新版本qgroundcontrol

編譯系統版本: 編譯器版本: 編譯成功效果

如何在 Docker 和AKS上使用 IIS

前言 在我們的一個客戶項目中,我們有一個混合 Swarm 集群,其中包含 Linux 和 Windows 節點。在 Windows 節點上,我們運行了許多 IIS 容器,這些容器運行著多個 Web 應用程序。在這篇博文中,我想向您展示在 Docker 容器中將網站部署到 IIS 上是多么簡單。 Internet 信息服…

uniapp 頁面favicon.ico文件不存在提示404問題解決

1. uniapp 頁面favicon.ico文件不存在提示404問題解決 1.1. 場景 在uniapp中經常出現的&#xff0c;因為找不到 favicon.ico 而報404錯誤的問題。 GET http://localhost:5174/favicon.ico 404 (Not Found)1.2. 問題原因 在document.ejs中使用link標簽相對路徑引入文件。 <…

Magicodes.IE.Pdf 生成導出PDF文件 bytes Stream FileStreamResult 下載

1、ExporterAttribute&#xff1a;導出特性 Name&#xff1a;名稱 HeaderFontSize&#xff1a;頭部字體大小 FontSize&#xff1a;正文字體大小 MaxRowNumberOnASheet&#xff1a;一個Sheet最大允許的行數&#xff0c;設置了之后將輸出多個Sheet AutoFitAllColumn&#xff1a;自…

Python LangChain RAG從入門到項目實戰10.:質量評價指標體系

好的&#xff0c;RAG (Retrieval-Augmented Generation) 系統的評估是一個多維度的問題&#xff0c;需要同時對檢索器 (Retriever) 和生成器 (Generator) 的性能進行衡量。 評估指標主要分為三大類&#xff1a;檢索質量、生成質量 和 整體系統質量。下圖清晰地展示了這些核心指…

【記錄】Copilot|Github Copilot重新學生認證通過方法(2025年7月,包括2FA和認證材料、Why are you not on campus)

文章目錄前言步驟最重要的一步前言 事實上&#xff0c;Github Copilot馬上就要開源了&#xff0c;我原本的認證過期了。但是在我體驗了眾多的代碼補全工具實在是太難用了之后&#xff0c;我覺得一天也等不了了&#xff0c;就去再一次認證了學生認證。 這次嚴格了很多&#xff…

【C語言16天強化訓練】從基礎入門到進階:Day 13

&#x1f525;個人主頁&#xff1a;艾莉絲努力練劍 ?專欄傳送門&#xff1a;《C語言》、《數據結構與算法》、C語言刷題12天IO強訓、LeetCode代碼強化刷題、洛谷刷題、C/C基礎知識知識強化補充、C/C干貨分享&學習過程記錄 &#x1f349;學習方向&#xff1a;C/C方向學習者…

單元測試到底是什么?該怎么做?

&#x1f345; 點擊文末小卡片&#xff0c;免費獲取軟件測試全套資料&#xff0c;資料在手&#xff0c;漲薪更快一、什么是單元測試&#xff1f;單元測試&#xff08;unit testing&#xff09;&#xff0c;是指對軟件中的最小可測試單元進行檢查和驗證。至于“單元”的大小或范…

PostgreSQL【應用 04】加解密擴展 pgcrypto 使用實例(加密、導出、導入、解密流程說明)

加解密擴展 pgcrypto 使用實例1.需求說明2.工具說明2.1 環境說明2.2 插件添加3.實例分析3.1 測試數據3.2 進行加密3.3 數據導出3.3.1 Navicat 導出3.3.2 copy 命令導出3.4 數據解密3.4.1 Navicat 導入3.4.2 copy 導入3.5 坑1.需求說明 從內網導出敏感數據的時候&#xff0c;對…

SDK、JDK、JRE、JVM的區別

SDK、JDK、JRE、JVM的區別一、SDK二、JDK三、JRE四、JVM五、JDK、JRE、JVM三者關系圖一、SDK SDK&#xff08;Software Development Kit&#xff0c;程序軟件開發工具包&#xff09;&#xff0c;可以認為jdk只是sdk的一種&#xff08;子集&#xff09;&#xff0c;而當提及jav…

如何啟動一個分支網絡改造試點?三步走

在多云化、全球化的今天&#xff0c;企業的分支網絡早已不僅僅是“能連”的問題。視頻會議卡頓、ERP 響應延遲、跨境訪問不穩、合規風險增大……這些都讓 CIO 和 IT 負責人越來越清楚&#xff1a;分支網絡改造是數字化的必修課。但是&#xff0c;面對幾百甚至上千個分支機構&am…

四,設計模式-原型模式

目的原型模式的產生是為了解決一個問題&#xff0c;即復制對象時對被復制對象所屬類的依賴。當需要復制一個對象時&#xff0c;需要遍歷對象中的所有成員并進行復制&#xff0c;但存在一些問題&#xff1a;某些成員對象可能是私有的無法訪問。同時要復制某個對象&#xff0c;那…

(筆記)Android窗口管理系統分析

概述 Android窗口管理系統是Android UI框架的核心組件&#xff0c;負責管理所有應用窗口的顯示、布局、層級、焦點和輸入事件分發。WindowManagerService&#xff08;WMS&#xff09;作為系統服務&#xff0c;協調Surface、Activity、View等組件&#xff0c;為用戶提供流暢的界…

WebIDEPLOY 技術支撐草莓數字產業鏈的構建邏輯與實踐路徑—— 草莓智能育苗系統實踐應用分析

一、WebIDEPLOY 技術與草莓產業數字化的適配邏輯WebIDEPLOY 技術以 “低門檻接入、全鏈路協同、數據驅動” 為核心特征&#xff0c;其底層架構可精準對接草莓產業鏈的碎片化需求。通過零代碼設備接入模塊&#xff0c;能快速整合育苗棚傳感器、種植區智能設備、銷售端數據平臺等…

汽車電氣系統的發展演進為測試帶來了哪些影響?

隨著汽車智能化進程加速&#xff0c;車輛電氣系統方案持續演進。為滿足日益嚴格的功能安全要求&#xff0c;主機廠逐漸引入智能配電、冗余配電等新型方案&#xff0c;這給電氣系統的測試環節帶來了顯著影響。智能配電測試何為智能配電&#xff1f;下圖分別展示了傳統電氣架構以…