CV論文--2024.3.4

1、Deep Networks Always Grok and Here is Why

中文標題:深度網絡總是讓人摸不著頭腦,原因如下

簡介:本文探討了深度神經網絡(DNN)中一種稱為"延遲泛化"或"Grokking"的現象。在接近零的訓練誤差之后,DNN的泛化會在較長時間后才發生。先前的研究已經報道了在特定的控制環境下出現延遲泛化的情況,例如使用大范數參數初始化的DNN或在算法數據集上訓練的transformers。本文證明了延遲泛化實際上更為普遍,并出現在許多實際環境中,例如在CIFAR10上訓練的卷積神經網絡(CNN)或在Imagenette上訓練的Resnet。我們引入了延遲魯棒性的新概念,即DNN在插值和/或泛化之后才能理解對抗性示例并變得魯棒。我們基于DNN的輸入輸出映射的局部復雜度提出了延遲泛化和延遲魯棒性的出現解釋。我們的局部復雜度測量了"DNN輸入空間中所謂的"線性區域"(也稱為樣條分區區域)的密度,并作為訓練的有用進展測量。我們首次提供了證據表明,在分類問題中,線性區域在訓練過程中會發生相變,之后它們會遠離訓練樣本(使DNN在那里的映射更平滑),并朝著決策邊界移動(使DNN在那里的映射不那么平滑)。Grokking發生在相變之后,因為DNN映射在訓練點周圍的線性化導致了輸入空間的魯棒分區的出現。更多詳情請參閱網址:https://bit.ly/grok-adversarial

2、DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

中文標題:DistriFusion:高分辨率擴散模型的分布式并行推理

簡介:擴散模型在生成高質量圖像方面已經取得了巨大的成功。然而,由于計算成本的限制,使用擴散模型生成高分辨率圖像仍然面臨挑戰,這導致交互式應用程序的響應延遲無法接受。為了解決這個問題,本文提出了DistriFusion方法,通過充分利用多個GPU之間的并行性。我們的方法將模型輸入分成多個補丁,并將每個補丁分配給一個GPU進行處理。然而,簡單地實現這樣的算法會破壞補丁之間的相互作用并導致失真,而將這種相互作用納入算法中則會增加大量的通信開銷。為了克服這個困境,我們觀察到相鄰擴散步驟的輸入具有很高的相似性,并提出了位移補丁并行性的概念。該方法通過重復使用前一時間步驟的預計算特征圖作為當前步驟的上下文,利用擴散過程的順序性。因此,我們的方法支持異步通信,并可以通過計算進行流水線處理。經過大量實驗證明,我們的方法可以應用于最新的Stable Diffusion XL模型,而不會降低生成圖像的質量。與使用單個NVIDIA A100 GPU的情況相比,在使用8個GPU時,我們實現了高達6.1倍的加速。我們已經在https://github.com/mit-han-lab/distrifuser上公開了我們的代碼。

3、Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

中文標題:Panda-70M:與多個跨模態教師一起為 70M 視頻添加字幕

簡介:數據和注釋的質量對下游模型的質量產生了限制。盡管存在大量的文本語料庫和圖像-文本對,但獲取高質量的視頻-文本數據卻非常困難。首先,手動標注非常耗時,因為需要注釋者觀看整個視頻。其次,視頻具有時間維度,由多個場景和多個動作組成。為了構建一個具有高質量標題的視頻數據集,我們提出了一種自動方法,利用多模態輸入,如文本視頻描述、字幕和單個視頻幀。具體來說,我們從公開可用的HD-VILA-100M數據集中收集了380萬個高分辨率視頻。然后,我們將這些視頻分成語義一致的片段,并使用多個跨模態的教師模型為每個視頻獲取標題。接下來,我們在一個小的子集上微調檢索模型,手動選擇每個視頻的最佳標題,然后將該模型應用于整個數據集,以選擇最佳標題作為注釋。通過這種方式,我們獲得了一個包含70M個視頻與高質量文本標題配對的數據集,稱為Panda-70M。我們展示了該數據集在三個下游任務上的價值:視頻字幕生成、視頻和文本檢索以及文本驅動的視頻生成。在所有任務中,基于我們提出的數據集進行訓練的模型在大多數指標上顯著優于其他模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/718311.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/718311.shtml
英文地址,請注明出處:http://en.pswp.cn/news/718311.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

使用ssh密鑰提交、拉取代碼的介紹

網絡世界中的數據并不安全 網絡中無時無刻有大量的數據傳輸,傳輸過程中需要經過各種網絡設備和物理媒介你的數據可能會在傳輸的某一個環節被一個“中間人”攔截,造成泄密,甚至會篡改你的數據,讓你發出錯誤的信息 SSH 為 Secure …

MySQL 5.5、5.6、5.7的主從復制改進

主從復制面臨的問題 MySQL一直以來的主從復制都是被詬病,原因是: 1、主從復制效率低 早期mysql的復制是通過將binlog語句異步推送到從庫。從庫啟動一個IO線程將接收到的數據記錄到relaylog中;另外啟動一個SQL線程負責順序執行relaylog中的語句實現對數據的拷貝。 這里的…

如何用Elementor創建WordPress會員網站

在下面的文章中,我們將向您展示如何使用Elementor和MemberPress在WordPress中輕松構建會員網站。這篇文章將涵蓋WordPress會員網站設置過程、會員資格和受保護內容創建、重要頁面和登錄表單設計、電子郵件通知管理、報告等。 目錄 什么是WordPress會員網站&#x…

【go從入門到精通】go基本類型和運算符用法

大家好,這是我給大家準備的新的一期專欄,專門講golang,從入門到精通各種框架和中間件,工具類庫,希望對go有興趣的同學可以訂閱此專欄。 --------------------------------------------------------------------------…

與字體有關的CSS

隱藏多余字體 text-overflow: ellipsis (多余文本顯示省略號) 需要配合overflow使用 -webkit-box-orient: vertical; display: -webkit-box; -webkit-line-clamp: number (超出多少行顯示省略號) 強制顯示一行 whi…

.NET高級面試指南專題十四【 觀察者模式介紹,最常用的設計模式之一】

簡介: 觀察者模式(Observer Pattern)是一種行為型設計模式,其目的是定義了一種一對多的依賴關系,當一個對象的狀態發生變化時,所有依賴于它的對象都會得到通知并自動更新。 原理: 在觀察者模式中…

從零開始搭建web組態

成果展示:by組態[web組態插件] 一、技術選擇 目前只有兩種選擇,canvas和svg Canvas: 是一個基于像素的渲染引擎,使用JavaScript API在畫布上繪制圖像,它的優點包括: Canvas渲染速度快,適合處理大量圖像和…

TIOBE 2024榜單啟示:程序員如何把握未來編程趨勢與機遇

程序員如何選擇職業賽道? 程序員的職業賽道就像是一座迷宮,有前端的美麗花園,后端的黑暗洞穴,還有數據科學的神秘密室。你準備好探索這個充滿挑戰和機遇的迷宮了嗎?快來了解如何選擇職業賽道吧! 方向一…

linux時間校準(ntpdate)

在Linux中,可以使用ntpdate命令來進行時間校準。 首先,打開終端并輸入以下命令安裝ntpdate工具 yum install ntpdate 然后,運行以下命令來同步系統的時間與網絡上的NTP服務器 ntpdate time.nist.gov 若要設置定期自動更新時間,可…

CSS中如何解決 1px 問題?

1px 問題指的是:在一些 Retina屏幕 的機型上,移動端頁面的 1px 會變得很粗,呈現出不止 1px 的效果。原因很簡單——CSS 中的 1px 并不能和移動設備上的 1px 劃等號。它們之間的比例關系有一個專門的屬性來描述: window.devicePix…

重構筆記系統:Docker Compose在微服務架構中的應用與優化

雖然我的筆記系統的開發是基于微服務的思想,但是在服務的配置和編排上感覺還是不太合理,具體來說,在開發上的配置和在生產上的配置差別太大。現在規模小,后面規模變大,估計這一塊會成為系統生長的瓶頸。 因此&#xff…

【Web】速談FastJson反序列化中BasicDataSource的利用

目錄 關于BCEL BCEL的惡意利用demo FastJson配合BCEL初始化任意類 parse情況下后天精心構造彌補先天之不足 exp 參考文章: BCEL ClassLoader去哪了 Java動態類加載,當FastJson遇到內網 關于BCEL BCEL(Byte Code Engineering Library)的全名是Apa…

跨時鐘信號處理方法

1. 背景 現在的芯片(比如SOC,片上系統)集成度和復雜度越來越高,通常一顆芯片上會有許多不同的信號工作在不同的時鐘頻率下。比如SOC芯片中的CPU通常會工作在一個頻率上,總線信號(比如DRAM BUS)會…

python+Django+Neo4j中醫藥知識圖譜與智能問答平臺

文章目錄 項目地址基礎準備正式運行 項目地址 https://github.com/ZhChessOvO/ZeLanChao_KGQA 基礎準備 請確保您的電腦有以下環境:python3,neo4j 在安裝目錄下進入cmd,輸入指令“pip install -r requirement.txt”,安裝需要的python庫 打…

貓為什么挑食?可以改善、預防貓咪挑食的主食凍干分享

現在的貓咪主人都把自家的小貓當成了心頭的寶貝,呵護備至。最令人頭疼的就是貓咪挑食不吃貓糧,貓為什么挑食?遇到這類情況怎么辦呢?今天,我要分享一個既能確保貓咪不受苦,又能有效改善挑食問題的方法。 一、…

vue api封裝

api封裝 由于一個項目里api是很多的,隨處都在調,如果按照之前的寫法,在每個組件中去調api,一旦api有改動,遍地都要去改,所以api應該也要封裝一下,將api的調用封裝在函數中,將函數集…

C++實現簡易版http server

mini服務器簡介 mini服務器功能 1.實現了GET和POST方法的HTTP request和HTTP respond的構建和發送,使服務器可以完成基本通信功能。 2.使用了線程池技術,使服務器可以一次接收更多的鏈接和加快了服務器處理數據的速度。 3.實現了簡易的CGI&#xff0…

【MATLAB源碼-第155期】基于matlab的OFDM系統多徑信道LS,LMMSE,SVD三種估計算法的比較誤碼率對比仿真。

操作環境: MATLAB 2022a 1、算法描述 OFDM(Orthogonal Frequency Division Multiplexing,正交頻分復用)是一種高效的無線信號傳輸技術,廣泛應用于現代通信系統,如Wi-Fi、LTE和5G。OFDM通過將寬帶信道劃分…

jmeter 按流量階梯式壓測數據庫

當前版本: jmeter 5.6.3mysql 5.7.39 簡介 JMeter 通過 BZM - Arrivals Thread Group 來模擬并發到達的用戶流量、按時間加壓,可以有效地幫助測試人員評估系統在高壓力和高并發情況下的性能表現。 文章目錄如下 1. 下載插件 2. 界面說明 3. 測試步驟…

C#在并發編程使用Frozen來確保線程安全性

在C#中,Frozen方法通常用于通過不可變對象來確保線程安全性。這通常在并發編程中很有用,特別是在共享狀態的多線程環境中。Frozen方法是Caliburn Micro框架中的一個方法,它用于將對象標記為不可變。 當你調用Frozen方法時,它返回…