14-20 Vision Transformer用AI的畫筆描繪新世界

14-20 Vision Transformer用AI的畫筆描繪新世界

概述

毫無疑問,目前最受關注且不斷發展的最重要的主題之一是使用人工智能生成圖像、視頻和文本。大型語言模型 (LLM) 已展示出其在文本生成方面的卓越能力。它們在文本生成方面的許多問題已得到解決。然而,LLM 面臨的一個主要挑戰是它們有時會產生幻覺反應。

最近推出的新模型(如新發布的 GPT-40)尤其令人驚嘆。OpenAI 無疑正在改變游戲規則。此外,谷歌強大的模型 Gemini 1.5 Pro 極大地改變了我們的看法。因此,我們可以看到模型正在改進。輪子已經發明,現在必須加以改進。

最初,LLM 是為翻譯任務而開發的。現在,我們看到它們執行各種任務,趨勢是朝著多模態模型發展。Transformers 強大而重要的架構使這一切成為可能。

Transformers 可以執行的另一項任務是圖像生成,如 DALL-E、Midjourney 或 Ideogram 等產品中所示。這些模型接受文本提示并生成圖像。最近發布的 LlaMa 3 模型在編寫文本提示時生成圖像,并在我們修改文本時更改圖像。

但更令人驚訝的是從文本生成視頻。幾個月前,OpenAI 推出了一款名為Sora的產品。它令人印象深刻,令人驚嘆,能夠生成高質量、高度逼真的圖像,甚至可以創造其他世界。當我看到它時,我首先想到的是電影《黑客帝國》。

在本文中,我們將從頭開始研究從文本生成圖像和視頻的想法,并追溯其演變過程。我們的目標是首先了解圖像生成,然后了解視頻生成,并研究用于這些任務的架構。

歷史

第一批電影于 19 世紀 80 年代制作,令觀眾驚嘆不已,為今天我們所知的強大的電影業奠定了基礎。在電影制作中使用人工智能 (AI) 的概念出現于 20 世紀初,隨著計算機的興起而逐漸流行。1960 年,約翰·惠特尼 (John Whitney) 創立了 Motion Graphics Incorporated,并使用他的模擬計算機制作電影片段、電視劇名和廣告,開創了計算機動畫的先河。IBM于1966 年授予第一位駐場藝術家職位,以表彰他的貢獻。多年來,各種關于計算機生成的電影和動畫的文章相繼發表,為今天我們所知的 AI 在電影制作和表演藝術中的應用鋪平了道路。21 世紀21世紀的進步包括深度學習算法和生成對抗網絡 (GAN),進一步推動了 AI 在數字內容創作和編輯中的應用。下一節將探討使用 Transformer 架構生成圖像的可行性。

跨平臺對抗網絡TransGANs

生成對抗網絡 (GAN) 由Ian Goodfellow及其同事于2014 年 ( Transformers 誕生之前) 提出,用于圖像處理和其他任務。生成對抗網絡

生成對抗網絡 (GAN) 的概念早于 Transformer,涉及兩個參與零和博弈的深度神經網絡。第一個網絡是生成器,它創建合成樣本;第二個網絡是鑒別器,它負責區分真實樣本和合成樣本。生成器的目標是生成可以欺騙鑒別器的樣本,使其無法區分真實樣本和合成樣本。

Transformer 與 GAN 的結合(稱為 TransGAN)表明,Transformer 既可以充當 GAN 中的生成器,也可以充當鑒別器。這些模型利用 Transformer 的優勢來捕捉數據的復雜特征。這種方法在2021 年Yifan Jiang、Shiyu ChangZhangyang Wang 發表的同名論文中進行了詳細介紹。TransGAN:兩個純 Transformer 可以組成一個強大的 GAN,而且可以擴展

TransGAN 是 Transformer 生成對抗網絡的縮寫。該模型是一種 GAN,其生成器和鑒別器均采用 Transformer 架構。與傳統 GAN 不同,TransGAN 不使用 CNN 作為生成器或鑒別器,而是同時采用 Transformer 結構。

14-20 Vision Transformer用AI的畫筆描繪新世界

這幅圖清晰地展示了 TransGAN 的架構以及生成器和鑒別器的結構。輸入圖像是一張 3×3 的彩色照片。來源

生成器Generator

在 TransGAN 中,生成器使用 Transformer 架構來生成數據序列。生成器從隨機噪聲輸入開始,該輸入通常是具有高斯(正態)分布的隨機值的向量。此噪聲輸入被轉換為更高維的特征空間。此階段涉及多個前饋層和 MHA 層。

基于 Transformer 的生成器逐步生成數據序列。在每個步驟中,生成器生成一部分數據(例如,圖像的一個像素),然后將此輸出用作下一步的輸入。注意力機制可幫助生成器對數據中存在的長期依賴關系和復雜性進行建模。

在生成完整的數據序列后,這些序列被轉換成完整的樣本(例如,完整的圖像)。這種轉換包括重建復雜的特征和最終的細節。

鑒別器Discriminator

TransGAN 中的 Discriminator 負責判斷 Generator 生成的樣本是真是假,它采用 Transformer 架構來分析生成的數據序列。

最初,鑒別器接收可能是真實圖像或虛假圖像的樣本。這些樣本作為圖像塊序列輸入到模型中。每個圖像塊代表圖像的一小部分,例如16×16像素塊。每個圖像塊首先轉換為矢量表示。此矢量表示通常通過嵌入層獲得,該嵌入層將每個圖像塊轉換為指定維度的矢量。然后將這些矢量與位置嵌入相結合,以保留每個圖像塊的空間信息。

然后將編碼的塊序列輸入到多個多頭注意力 (MHA) 層。這些層允許鑒別器對圖像不同塊之間的長期依賴關系和關系進行建模。MHA 幫助模型同時關注圖像的不同特征。

注意力層的輸出被輸入到多個前饋層。這些層提取并處理組合特征,從而產生更復雜、更豐富的圖像表示。然后,前饋層的最終輸出被輸入到聚合層。該層將所有提取的特征組合成一個綜合表示。然后,這個綜合表示連接到最后一層,例如密集層,最終決定圖像是真是假。

在 GAN 中使用

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/40738.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/40738.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/40738.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

分布式計算、異構計算與算力共享

目錄 算力 算力共享的技術支撐 云計算技術 邊緣計算技術 區塊鏈技術 分布式計算、異構計算與算力共享 分布式計算:計算力的“集團軍作戰” 異構計算:計算力的“多兵種協同” 算力共享:計算力的“共享經濟” 深入融合,共創計算新紀元 算力共享對科研領域的影響 …

openmetadata1.3.1 自定義連接器 開發教程

openmetadata自定義連接器開發教程 一、開發通用自定義連接器教程 官網教程鏈接: 1.https://docs.open-metadata.org/v1.3.x/connectors/custom-connectors 2.https://github.com/open-metadata/openmetadata-demo/tree/main/custom-connector (一&…

Matplotlib 文本

可以使用 xlabel、ylabel、text向圖中添加文本 mu, sigma 100, 15 x mu sigma * np.random.randn(10000)# the histogram of the data n, bins, patches plt.hist(x, 50, densityTrue, facecolorg, alpha0.75)plt.xlabel(Smarts) plt.ylabel(Probability) plt.title(Histo…

Qt讀取ini格式配置文件的類設計

目錄 1.引言 2.QSettings 2.1.功能特點 2.2.基本用法 3.讀取ini文件配置通用類設計 3.1.設計要點 3.2.完整實現 3.3.調用方法 4.總結 1.引言 在編寫應用程序的時,有些參數需要用戶配置,那么這些參數就涉及到存儲了,單從存儲來講&…

git 還原被刪除的分支

在多人項目開發中,有一次碰到忘記合并到master分支了,直接就把開發分支給刪除了,現在記錄下怎么還原被刪除的分支 必須保證刪除的分支之前已經被推送到了遠程倉庫 # 找出被刪除分支的最后一個提交的哈希值 git reflog show# 找到提交哈希值…

2024/07/04

1、梳理筆記(原創) 2、終端輸入一個日期&#xff0c;判斷是這一年的第幾天 scanf("%d-%d-%d",&y,&m,&d); 閏年2月29天&#xff0c;平年2月28天 #include<stdio.h> int main(int argc, char const *argv[]) {int y0,m0,d0;printf("please ente…

析構函數和拷貝構造函數

文章目錄 析構函數1.析構函數的定義&#xff1a;2.析構函數的語法&#xff1a;3.析構函數的特性&#xff1a; 拷貝構造函數1.拷貝構造函數的定義&#xff1a;2.拷貝構造函數的語法3.拷貝構造函數的特性(1)拷貝構造函數是構造函數的一個重載形式**(這個其實也很好理解&#xff0…

鴻蒙開發設備管理:【@ohos.thermal (熱管理)】

熱管理 該模塊提供熱管理相關的接口&#xff0c;包括熱檔位查詢及注冊回調等功能。 說明&#xff1a; 本模塊首批接口從API version 8開始支持。后續版本的新增接口&#xff0c;采用上角標單獨標記接口的起始版本。開發前請熟悉鴻蒙開發指導文檔&#xff1a;gitee.com/li-shi…

如何實現圖片垂直旋轉90度的問題

非常簡單的問題&#xff0c;一串代碼就可以解決。復制修改一下就可以直接使用&#xff0c;一個簡單的小demo。寫項目的時候需要寫的功能&#xff0c;不到二十行代碼就可以實現。 <html> <head><title>旋轉圖片</title><meta http-equiv"Conte…

Land survey boundary report (template)

Land survey boundary report (template) 土地勘測定界報告&#xff08;模板&#xff09;.doc

【高校科研前沿】南京地理與湖泊研究所博士后夏凡為第一作者在環境科學與水資源領域Top期刊發文:鈣對云南洱海溶解有機質與浮游細菌相互作用的調控作用

文章簡介 論文名稱&#xff1a;Calcium regulates the interactions between dissolved organic matter and planktonic bacteria in Erhai Lake, Yunnan Province, China 第一作者及單位&#xff1a;夏凡&#xff08;博士后|中國科學院南京地理與湖泊研究所&#xff09; 通訊…

Git指令

一 參考&#xff1a;https://zhuanlan.zhihu.com/p/389814854 1.clone遠程倉庫 git clone https://git.xiaojukeji.com/falcon-mg/dagger.git 2.增加當前子目錄下所有更改過的文件至index git add . 3.提交并備注‘xxx’ git commit -m ‘xxx’ 4.顯示本地分支 git branch 5.顯…

【pytorch13】激活函數及梯度

什么是激活函數 計算機科學家借鑒生物的神經元機制發明了計算機上的模型&#xff0c;這個模型與生物的神經元非常類似 激活的意思就是z變量要大于0&#xff0c;這一個節點才會激活&#xff0c;否則就會處于睡眠狀態不會輸出電平值 該激活函數在z0處不可導&#xff0c;因此不能…

Asp .Net Core 系列:基于 Castle DynamicProxy + Autofac 實踐 AOP 以及實現事務、用戶填充功能

文章目錄 什么是 AOP &#xff1f;.Net Core 中 有哪些 AOP 框架&#xff1f;基于 Castle DynamicProxy 實現 AOPIOC中使用 Castle DynamicProxy實現事務管理實現用戶自動填充 什么是 AOP &#xff1f; AOP&#xff08;Aspect-Oriented Programming&#xff0c;面向切面編程&a…

OpenCV——把YOLO格式的圖片目標截圖,并按目標類別保存

import os import cv2def get_class_folder(catagetory,class_id, base_folder):# 根據類別ID創建文件夾路徑class_folder os.path.join(base_folder, catagetory[int(class_id)])if not os.path.exists(class_folder):os.makedirs(class_folder)return class_folderdef crop_…

VPN是什么?

VPN&#xff0c;全稱Virtual Private Network&#xff0c;即“虛擬私人網絡”&#xff0c;是一種在公共網絡&#xff08;如互聯網&#xff09;上建立加密、安全的連接通道的技術。簡單來說&#xff0c;VPN就像是一條在公共道路上鋪設的“秘密隧道”&#xff0c;通過這條隧道傳輸…

圖像的反轉

圖像顏色的反轉一般分為兩種&#xff1a;一種是灰度圖片的顏色反轉&#xff0c;另一種是彩色圖像的顏色反轉。 本節使用的原圖如下&#xff1a; 1.1 灰度圖像顏色反轉 灰度圖像每個像素點只有一個像素值來表示&#xff0c;色彩范圍在0-255之間&#xff0c;反轉方法255-當前像…

信創產業政策,信創測試方面

信創產業的政策支持主要體現在多個方面&#xff0c;這些政策旨在推動產業的快速發展&#xff0c;加強自主創新能力&#xff0c;保障國家信息安全&#xff0c;以及促進產業結構的優化升級。 首先&#xff0c;政府通過財政支持、稅收優惠等方式&#xff0c;加大對信創產業的資金…

8.ApplicationContext常見實現

ClassPathXmlApplicationContext 基于classpath下xml格式的配置文件來創建 <?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http://www.springframework.org/schema/beans"xmlns:xsi"http://www.w3.org/2001/XMLSchema-i…

Flutter——最詳細(Drawer)使用教程

背景 應用左側或右側導航面板&#xff1b; 屬性作用elevation相當于陰影的大小 import package:flutter/material.dart;class CustomDrawer extends StatelessWidget {const CustomDrawer({Key? key}) : super(key: key);overrideWidget build(BuildContext context) {return…