AIGC 011-SAM第一個圖像分割大模型-分割一切!

AIGC 011-SAM第一個圖像分割大模型-分割一切!


文章目錄

    • 0 論文工作
    • 1論文方法
    • 2 效果

0 論文工作

這篇論文介紹了 Segment Anything (SA) 項目,這是一個全新的圖像分割任務、模型和數據集。SA 項目是一個具有里程碑意義的工作,它為圖像分割領域帶來了新的機遇和挑戰。該項目的模型和數據集將推動計算機視覺基礎模型的研究,為構建更強大、更通用的圖像分割模型奠定基礎。

Segment Anything (SA) 項目提出了一種新的圖像分割任務、模型和數據集。研究人員利用一個高效的模型,在數據收集循環中構建了迄今為止最大的分割數據集,包含超過 10 億個掩碼,覆蓋了 1100 萬張經過許可和尊重隱私的圖像。該模型被設計并訓練成可提示的,因此它可以零樣本遷移到新的圖像分布和任務中。對多個任務的評估表明,該模型的零樣本性能令人印象深刻,通常可以與或甚至超過先前完全監督的結果。為了促進計算機視覺基礎模型的研究,Segment Anything 模型 (SAM) 和包含 10 億個掩碼和 1100 萬張圖像的對應數據集 (SA-1B) 已發布在 https://segment-anything.com 上。
CLIP-diffusion-SAM-LRM再有就是一些多模態大模型,可以發現大模型的能力開始在開始在不同的視覺任務上開始涌現。
從目前來看無論2d還是3d方面都是大力出奇跡。在十億級別的數據上2d大模型能力得到很強的展現。在這一點上3d數據集就差很多,一方面數據量有限,另外一方面3d數據集都是合成數據集,對模型泛化能力還是有限制。
接下來我們想分享的3d理解的論文,無論是nerf基還是Gaussian基都是以CLIP或者SAM為基礎。這真的是一件很酷的事情。
論文鏈接
github
objaverse

1論文方法

  1. 任務、模型和數據集:
    任務: SA 項目定義了一個新的圖像分割任務,旨在構建一個可以處理各種圖像和分割場景的通用模型。
    模型: 論文提出了一種高效的分割模型,可以被提示(promptable),即可以零樣本遷移到新的圖像分布和任務中。
    數據集: 該項目構建了迄今為止最大的分割數據集,包含超過 10 億個掩碼,覆蓋了 1100 萬張經過許可和尊重隱私的圖像。
    在這里插入圖片描述
  2. 模型特點:
    可提示性: 模型被設計成可提示的,這意味著它可以根據不同的提示(例如點、框或文本描述)進行分割,無需重新訓練。
    零樣本遷移: 模型可以零樣本遷移到新的圖像分布和任務中,無需額外的訓練數據。
  3. 評估結果:
    論文在多個任務上評估了模型的能力,發現其零樣本性能非常出色,通常可以與或甚至超過先前完全監督的結果。
  4. 貢獻:
    SAM項目定義了一個新的圖像分割任務,為計算機視覺領域的研究開辟了新方向。
    SAM模型 (SAM) 和數據集 (SA-1B) 的發布,將推動計算機視覺基礎模型的研究。
    方法實現:
    論文沒有詳細描述模型的具體實現細節,但強調模型的可提示性和零樣本遷移能力。zero-shot的能力主要還是對比學習來展現的,即相似度。
    論文中提到模型是高效的,可能使用了Transformer 或者其他高效的架構。
    優點:
    大規模數據集: SAM數據集的規模非常大,包含了豐富的圖像和分割信息,有助于訓練更強大的模型。
    可提示性: 模型的可提示性使其可以處理各種分割任務,提高了模型的通用性。
    零樣本遷移: 模型的零樣本遷移能力,降低了模型應用的門檻,方便研究人員將其應用于新的任務和場景。

2 效果

這個可以去官網去體驗。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/22055.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/22055.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/22055.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于springboot的多媒體素材庫源碼數據庫

基于springboot的多媒體素材庫源碼數據庫 近年來,信息化管理行業的不斷興起,使得人們的日常生活越來越離不開計算機和互聯網技術。首先,根據收集到的用戶需求分析,對設計系統有一個初步的認識與了解,確定多媒體素材庫…

迎七一黨史知識競賽答題怎么做

迎七一黨史知識競賽答題,不僅是對于黨史知識的檢驗,更是對于參賽者學習態度和綜合能力的考量。在參與這類競賽時,我們需要做好充分的準備,掌握一定的答題技巧,才能取得好的成績。 首先,我們要深入了解競賽…

FFmpeg播放器的相關概念【1】

播放器框架 相關術語 ?容器/文件(Conainer/File):即特定格式的多媒體文件,比如mp4、flv、mkv等。 ? 媒體流(Stream):表示時間軸上的一段連續數據,如一段聲音數據、一段…

UFS Explorer Professional Recovery: 如何從啟用了 mSATA 緩存的 Drobo 設備中恢復數據

天津鴻萌科貿發展有限公司是 UFS Explorer Professional Recovery 數據恢復軟件的授權代理商。 UFS Explorer Professional Recovery 數據恢復軟件提供綜合性的解決方案,用于解決復雜的數據恢復案例,包括那些采用特殊存儲技術的案例,或介質受…

上海亞商投顧:創業板指震蕩收漲 超70家ST股跌停

上海亞商投顧前言:無懼大盤漲跌,解密龍虎榜資金,跟蹤一線游資和機構資金動向,識別短期熱點和強勢個股。 一.市場情緒 滬指昨日震蕩震蕩,創業板指走勢稍強,盤中一度漲超1%,黃白二線分化嚴重。算…

vue ts 導入 @/assets/ 紅色顯示的問題解決

vue ts 導入 /assets/ 紅色顯示的問題解決 一、問題描述 在使用的時候這樣導入會出現如上的錯誤。 在使用的時候,導入的類型也沒有對應的代碼提示,說明導入有問題。 二、解決 在 tsconfig.json 中添加如下內容: {"compilerOptions&…

AI大模型探索之路-實戰篇15: Agent智能數據分析平臺之整合封裝Tools和Memory功能代碼

系列篇章💥 AI大模型探索之路-實戰篇4:深入DB-GPT數據應用開發框架調研 AI大模型探索之路-實戰篇5:探索Open Interpreter開放代碼解釋器調研 AI大模型探索之路-實戰篇6:掌握Function Calling的詳細流程 AI大模型探索之路-實戰篇7…

模式識別判斷題

貝葉斯估計的方法類似于貝葉斯決策,也需要定義損失函數。(正確) 解釋:貝葉斯估計是一種基于貝葉斯定理的參數估計方法,它在估計參數時考慮了參數的先驗分布。與貝葉斯決策類似,貝葉斯估計也需要定義損失函數…

46.ThreadPoolExcutor接口

線程池狀態 ThreadPoolExcutor使用int高3位來表示線程池狀態,低29位表示線程數量 狀態高三位接收新任務處理阻塞隊列任務說明RUNNING111YYSHUTDOWN000NY不會接收新任務,但會處理阻塞隊列剩余任務,比較溫和,已經提交的任務都會執…

15.1 測試-重要性與testing包

1. 測試的重要性 1.1 單元測試 單元測試是針對一小部分代碼進行獨立地測試。 單元測試的對象通常是單個函數或方法,而要測試的是它在接受給定的輸入后,能否產生符合預期的輸出。 單元測試的作用主要表現在以下兩個方面: 驗證程序的最小…

C++ STL-迭代器函數對象適配器

目錄 一.迭代器 二. 函數對象 三. 適配器 一.迭代器 是一種通用的指針類型,可以用來遍歷 STL 容器中的元素。 具有以下作用和意義: 提供一種通用的方式來訪問容器中的元素。允許對不同類型的容器進行統一的操作。增強了代碼的靈活性和可擴展性。 一…

The Best Toolkit 最好用的工具集

The Best Toolkit 工欲善其事,必先利其器,整理過往工作與生活中遇到的最好的工具軟件 PDF合并等 PDF24 Tools PDF查看器 SumatraPDF 可以使用黑色來查看,相對不傷眼睛,也有電子書相關的閱讀器 Kindle pdf裁邊工具 briss 軟件卸載…

【C++題解】1085 - 尋找雷劈數

問題:1085 - 尋找雷劈數 類型:for循環 題目描述: 把整數 3025 從中剪開分為 30 和 25 兩個數,此時再將這兩數之和平方,計算結果又等于原數。 (3025)(3025)55553025 ,這樣的數叫“雷劈數”。 求所有符合這…

Photoshop版本選擇及系統要求

1、ps2018cc/2020cc版本 適合新手,增加了很多智能化操作,非常方便好上手。 2020: 2、ps2015版本 cc2015版本不論是功能還是硬件上,都是不二選擇,適合于配置較低的電腦,該有的基本功能它都有。 3、2021/2…

std::numeric_limits::max和宏定義重復報錯問題

問題描述 今天在編譯Beckhoff ADS開源組件的時候發現編譯報錯&#xff0c;報錯代碼如下 long AdsDevice::ReadReqEx2(uint32_t group, uint32_t offset, size_t length, void* buffer, uint32_t* bytesRead) const {if (length > std::numeric_limits<uint32_t>::ma…

Algorand 的復興之路:改變游戲規則,打造 RWA 第一公鏈

TLDR 發布 AlgoKit 2.0&#xff0c;支持 Python 原生語言&#xff0c;打造開發者友好的開發環境&#xff0c;Algorand 的開發者社區規模迅速擴大。 升級共識激勵機制&#xff0c;用 ALGO 獎勵共識節點參與共識的執行&#xff0c;增加 ALGO 的應用場景&#xff0c;同時進一步確…

GB28181的主動、被動的含義

GB28181有點象視頻會議&#xff1a; 終端通過SIP登錄服務器。管理員點擊某個終端&#xff0c;進行視頻。 就是這個主動、被動沒有聽說。于是問了同事&#xff0c;他說&#xff1a; 主動被動是從服務器角度來看的。所謂被動&#xff0c;就是服務器開一個端口&#xff0c;被動接…

鋼結構乙級資質延期,企業如何降低經營風險

當企業面臨鋼結構乙級資質延期時&#xff0c;為了降低經營風險&#xff0c;可以采取以下措施&#xff1a; 1. 提前規劃與準備 資質延續規劃&#xff1a;在資質到期前&#xff0c;提前規劃資質延續的相關工作&#xff0c;包括準備所需材料、明確流程和時間節點等。 項目評估&…

js去重的幾種方式

在JavaScript中&#xff0c;有多種方式可以實現數組去重。以下是幾種常見的方式&#xff1a; 使用Set數據結構&#xff1a;使用Set可以快速實現數組去重&#xff0c;Set會自動排除重復的元素。例如&#xff1a; const arr [1, 2, 3, 3, 4, 4, 5]; const uniqueArr [...new S…

如何從官網下載 mysql 二進制安裝包

一.下載二進行包 1. 官網網址: https://www.mysql.com/ 如圖所示進入官網 2. 點擊 DOWNLOADS ,進入如下圖 在該頁面找到 MySQL Community (GPL) Downloads 點進去 如上圖頁面&#xff0c;找到 MySQL Community Server 在點進去 下載 linux 通用版 點擊最下面 Compressed …