修復圖像、視頻和3D場景的AI工具–Inpaint Anything

TL; DR:用戶可以通過單擊來選擇圖像中的任何對象。借助強大的視覺模型,例如SAM、LaMa和穩定擴散 (SD),Inpaint Anything能夠順利地移除對象(即Remove Anything)。此外,在用戶輸入文本的提示下,Inpaint Anything 可以用任何想要的內容填充對象(即Fill Anything)或任意替換其背景(即Replace Anything)。

下載方式:

1、Github 開源項目Release 0.1.0 · geekyutao/Inpaint-Anything · GitHub

2、網盤【點擊下載

🌟 功能

  • 移除任何內容
  • 填充任意內容
  • 替換任何內容
  • 刪除任何3D內容(🔥新功能)
  • 填充任意3D內容
  • 替換任何3D內容
  • 刪除任何視頻(🔥新功能)
  • 填充任何視頻
  • 替換任何視頻

💡 亮點

  • 支持任意寬高比
  • 支持2K分辨率
  • arXiv 上的技術報告可用(🔥新)
  • 網站已上線 ( 🔥新)
  • 本地網頁用戶界面可用(🔥新)
  • 支持多種模式(即圖像、 視頻和 3D 場景)(🔥新)

📌 刪除所有內容

圖像

單擊圖像中的某個對象, Inpainting Anything 將立即將其刪除

  • 點擊一個對象;
  • 分割任何模型(SAM)將對象分割出來;
  • 修復模型(例如,LaMa)填補了“空洞”。

安裝

需要python>=3.8

python -m pip install torch torchvision torchaudio
python -m pip install -e segment_anything
python -m pip install -r lama/requirements.txt

在 Windows 中,我們建議您首先安裝miniconda并Anaconda Powershell Prompt (miniconda3)以管理員身份打開。然后 pip install ./lama_requirements_windows.txt而不是 ./lama/requirements.txt。

用法

下載Segment Anything和LaMa中提供的模型檢查點(例如sam_vit_h_4b8939.pth和big-lama),并放入./pretrained_models。 為了簡單起見,你也可以前往這里,直接下載pretrained_models,將目錄放入./,即可獲得./pretrained_models

對于 MobileSAM,sam_model_type 應使用“vit_t”,sam_ckpt 應使用“./weights/mobile_sam.pt”。對于 MobileSAM 項目,請參閱MobileSAM

bash script/remove_anything.sh

指定一個圖像和一個點,“Remove Anything”將會刪除該點處的對象。

python remove_anything.py \--input_img ./example/remove-anything/dog.jpg \--coords_type key_in \--point_coords 200 450 \--point_labels 1 \--dilate_kernel_size 15 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth \--lama_config ./lama/configs/prediction/default.yaml \--lama_ckpt ./pretrained_models/big-lama

如果你的機器有顯示設備,可以改為--coords_type key_in。如果設置了,運行上述命令后,圖像就會顯示出來。(1)使用左鍵單擊記錄單擊的坐標。它支持修改點,并且只記錄最后一個點的坐標。(2)使用右鍵單擊完成選擇。--coords_type click``click

演示

imgimgimg
imgimgimg
imgimgimg
imgimgimg

📌 填充任意內容

文字提示:“長凳上的一只泰迪熊”

img

單擊一個對象,輸入您想要填充的內容, Inpaint Anything 就會填充它!

  • 點擊一個對象;
  • SAM將物體分割出來;
  • 輸入文本提示;
  • 文本提示引導的修復模型(例如,穩定擴散)根據文本填補“空洞”。

安裝

需要python>=3.8

python -m pip install torch torchvision torchaudio
python -m pip install -e segment_anything
python -m pip install diffusers transformers accelerate scipy safetensors

用法

下載Segment Anything中提供的模型檢查點(例如sam_vit_h_4b8939.pth)并放入./pretrained_models。為了簡單起見,您也可以前往,直接下載pretrained_models,將目錄放入./,即可獲得./pretrained_models

對于 MobileSAM,sam_model_type 應使用“vit_t”,sam_ckpt 應使用“./weights/mobile_sam.pt”。對于 MobileSAM 項目,請參閱MobileSAM

bash script/fill_anything.sh

指定圖像、點和文本提示,然后運行:

python fill_anything.py \--input_img ./example/fill-anything/sample1.png \--coords_type key_in \--point_coords 750 500 \--point_labels 1 \--text_prompt "a teddy bear on a bench" \--dilate_kernel_size 50 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth

演示

文字提示:“手里拿著相機鏡頭”

imgimgimg

文字提示:“墻上有一幅畢加索的畫”

imgimgimg

文字提示:“海上有一艘航空母艦”

imgimgimg

文字提示:“路上的跑車”

imgimgimg

📌 替換任何東西

文字提示:“辦公室里的一名男子”

img

單擊一個對象,輸入您想要替換的背景,Inpaint Anything 將替換它!

  • 點擊一個對象;
  • SAM將物體分割出來;
  • 輸入文本提示;
  • 文本提示引導的修復模型(例如,穩定擴散)根據文本替換背景。

安裝

需要python>=3.8

python -m pip install torch torchvision torchaudio
python -m pip install -e segment_anything
python -m pip install diffusers transformers accelerate scipy safetensors

用法

下載Segment Anything中提供的模型檢查點(例如sam_vit_h_4b8939.pth)并放入./pretrained_models。 為了簡單起見,您也可以前往,直接下載pretrained_models,將目錄放入./即可./pretrained_models

對于 MobileSAM,sam_model_type 應使用“vit_t”,sam_ckpt 應使用“./weights/mobile_sam.pt”。對于 MobileSAM 項目,請參閱MobileSAM

bash script/replace_anything.sh

指定圖像、點和文本提示,然后運行:

python replace_anything.py \--input_img ./example/replace-anything/dog.png \--coords_type key_in \--point_coords 750 500 \--point_labels 1 \--text_prompt "sit on the swing" \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth

演示

文字提示:“坐在秋千上”

imgimgimg

文字提示:“一輛公交車,在一條鄉間小路的中央,夏天”

imgimgimg

文字提示:“早餐”

imgimgimg

文字提示:“城市十字路口”

imgimgimg

📌 刪除任何 3D 內容

imgimgimg
imgimgimg

只需單擊源視圖的第一個視圖中的對象,Remove Anything 3D 就可以從整個場景中刪除該對象!

  • 單擊源視圖的第一個視圖中的一個對象;
  • SAM將對象分割出來(使用三個可能的掩碼);
  • 選擇一個面具;
  • 利用OSTrack等跟蹤模型來跟蹤這些視圖中的對象;
  • SAM根據跟蹤結果在每個源視圖中分割出對象;
  • 利用LaMa等修復模型來修復每個源視圖中的對象。
  • 利用NeRF等新穎視圖合成模型來合成沒有物體的場景的新穎視圖。

安裝

需要python>=3.8

python -m pip install torch torchvision torchaudio
python -m pip install -e segment_anything
python -m pip install -r lama/requirements.txt
python -m pip install jpeg4py lmdb

用法

下載Segment Anything和LaMa中提供的模型 checkpoint (如sam_vit_h_4b8939.pth),放入./pretrained_models。 另外,從這里下載OSTrack預訓練模型(如vitb_384_mae_ce_32x4_ep300.pth)放入。 另外,下載 [nerf_llff_data](如horns),放入。 為了簡單起見,你也可以到這里,直接下載pretrained_models,將目錄放入,即可獲得。 另外,下載pretrain,將目錄放入,即可獲得。./pytracking/pretrain``./example/3d``./``./pretrained_models``./pytracking``./pytracking/pretrain

對于 MobileSAM,sam_model_type 應使用“vit_t”,sam_ckpt 應使用“./weights/mobile_sam.pt”。對于 MobileSAM 項目,請參閱MobileSAM

bash script/remove_anything_3d.sh

指定一個 3d 場景、一個點、場景配置和遮罩索引(指示使用第一個視圖的哪個遮罩結果),然后 Remove Anything 3D 將從整個場景中刪除該對象。

python remove_anything_3d.py \--input_dir ./example/3d/horns \--coords_type key_in \--point_coords 830 405 \--point_labels 1 \--dilate_kernel_size 15 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth \--lama_config ./lama/configs/prediction/default.yaml \--lama_ckpt ./pretrained_models/big-lama \--tracker_ckpt vitb_384_mae_ce_32x4_ep300 \--mask_idx 1 \--config ./nerf/configs/horns.txt \--expname horns

通常--mask_idx設置為 1,這通常是第一幀最可信的掩碼結果。如果對象沒有被很好地分割出來,你可以嘗試其他掩碼(0 或 2)。

📌 刪除所有視頻

imgimgimg

只需**單擊 視頻第一幀中的某個對象,“Remove Anything Video”即可從整個視頻中刪除該對象!

  • 點擊視頻第一幀中的某個對象;
  • SAM將對象分割出來(使用三個可能的掩碼);
  • 選擇一個面具;
  • 利用OSTrack等跟蹤模型來跟蹤視頻中的對象;
  • SAM根據跟蹤結果在每幀中分割出物體;
  • 利用STTN等視頻修復模型來修復每一幀中的對象。

安裝

需要python>=3.8

python -m pip install torch torchvision torchaudio
python -m pip install -e segment_anything
python -m pip install -r lama/requirements.txt
python -m pip install jpeg4py lmdb

用法

下載Segment Anything和STTN中提供的模型檢查點(例如sam_vit_h_4b8939.pth和sttn.pth),并將它們放入./pretrained_models。此外,從這里下載OSTrack預訓練模型(例如vitb_384_mae_ce_32x4_ep300.pth)并將其放入。為了簡單起見,您也可以前往這里,直接下載pretrained_models,將目錄放入并獲取。另外,下載pretrain,將目錄放入并獲取。./pytracking/pretrain``./``./pretrained_models``./pytracking``./pytracking/pretrain

對于 MobileSAM,sam_model_type 應使用“vit_t”,sam_ckpt 應使用“./weights/mobile_sam.pt”。對于 MobileSAM 項目,請參閱MobileSAM

bash script/remove_anything_video.sh

指定一個視頻、一個點、視頻 FPS 和蒙版索引(表示使用第一幀的哪個蒙版結果),Remove Anything Video 將從整個視頻中刪除該對象。

python remove_anything_video.py \--input_video ./example/video/paragliding/original_video.mp4 \--coords_type key_in \--point_coords 652 162 \--point_labels 1 \--dilate_kernel_size 15 \--output_dir ./results \--sam_model_type "vit_h" \--sam_ckpt ./pretrained_models/sam_vit_h_4b8939.pth \--lama_config lama/configs/prediction/default.yaml \--lama_ckpt ./pretrained_models/big-lama \--tracker_ckpt vitb_384_mae_ce_32x4_ep300 \--vi_ckpt ./pretrained_models/sttn.pth \--mask_idx 2 \--fps 25

通常--mask_idx設置為 2,這通常是第一幀最可信的掩碼結果。如果對象沒有被很好地分割出來,你可以嘗試其他掩碼(0 或 1)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/95296.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/95296.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/95296.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java -jar xxx.jar 提示xxx.jar中沒有主清單屬性報錯解決方案

xxx.jar 中沒有主清單屬性 (no main manifest attribute)解決方案 java -jar xxx.jar 提示xxx.jar中沒有主清單屬性報錯解決方案 這個錯通常出現在你用 java -jar xxx.jar 啟動,但 JAR 的 META-INF/MANIFEST.MF 里沒有 Main-Class 條目&#…

Myqsl建立庫表練習

目錄 一、windows中選擇一種方式安裝Mysql8.0 二、新建產品庫mydb6_product 1. 新建3張表如下: 1)employees表 2)orders表 3)invoices表 三、新建員工庫mydb8_worker,添加自定義表內容并插入數據 1. 新建庫表 2. 插…

STM32 輸入捕獲,串口打印,定時器,中斷綜合運用

實驗目的 使用定時器 2 通道 2 來捕獲按鍵 2 按下時間,并通過串口打印。 計一個數的時間:1us,PSC71,ARR65535 下降沿捕獲、輸入通道 2 映射在 TI2 上、不分頻、不濾波輸入捕獲原理定時器輸入捕獲實驗配置步驟測量按鍵按下時長思路…

Nacos-2--Nacos1.x版本的通信原理

在Nacos 1.x版本中,客戶端長輪詢(Long Polling)和服務端UDP主動推送是兩種不同的機制,分別用于配置管理和服務發現場景。它們的核心目標都是實現動態更新的實時感知,但實現方式、數據內容和適用場景完全不同。 1、長輪…

機器學習——09 聚類算法

1 聚類算法聚類算法: 是一種無監督學習算法,它不需要預先知道數據的類別信息,而是根據樣本之間的相似性,將樣本劃分到不同的類別中;不同的相似度計算方法,會得到不同的聚類結果,常用的相似度計算…

生成式AI應用生態的爆發與專業化演進:從零和博弈到正和共贏

2025年,生成式AI產業規模已突破7000億元,全球生成式AI市場規模預計在2028年達到2842億美元(IDC數據)。在這場技術革命中,AI基礎模型的分化已證明:差異化競爭而非同質化替代,才是推動產業發展的核心邏輯。如今,這一規律正從基礎模型層向應用生成平臺層蔓延——Lovable、…

Mysql——Sql的執行過程

目錄 一、Sql的執行過程流程圖解 二、Sql的執行過程流程 1.2.1、建立連接 1.2.2、服務層(緩存、解析器、預處理器、優化器、執行器) 1.2.2.1、緩存 1.2.2.2、解析器 1.2.2.3、預處理器 1.2.2.4、優化器 1.2.2.5、執行器 1.2.3、引擎層 一、Sql的執行過程流程圖解 Sql的執行過…

【Axure高保真原型】地圖路線和定位

今天和大家分享地圖路線和定位的原型模版,載入后,可以查看汽車行進路線和所在定位 提供了停靠和不停靠站點兩個案例,具體效果可以打開下方原型地址體驗或者點擊下方視頻觀看 【Axure高保真原型】地圖路線和定位【原型預覽含下載地址】 https…

【96頁PPT】華為IPD流程管理詳細版(附下載方式)

篇幅所限,本文只提供部分資料內容,完整資料請看下面鏈接 https://download.csdn.net/download/2501_92808811/91633108 資料解讀:華為IPD流程管理詳細版 詳細資料請看本解讀文章的最后內容 華為的集成產品開發(IPD)…

深度解析Mysql的開窗函數(易懂版)

SQL 開窗函數(Window Function)是一種強大的分析工具,它能在保留原有數據行的基礎上,對 "窗口"(指定范圍的行集合)進行聚合、排名或分析計算,解決了傳統GROUP BY聚合會合并行的局限性…

Java靜態代理和動態代理

Java靜態代理和動態代理 靜態代理 現在有一個計算類,有四個方法,加減乘除,如果需要給這四個方法都加上同一個邏輯,可以創建一個類作為代理類,把計算類注入到這個類中,然后再代理類中定義方法,并…

MySQL——MySQL引擎層BufferPool工作過程原理

目錄一、MySQL引擎層BufferPool工作過程圖解二、MySQL引擎層BufferPool工作過程原理一、MySQL引擎層BufferPool工作過程圖解 圖解 二、MySQL引擎層BufferPool工作過程原理 首先關閉自動提交,執行一條修改語句。 SET AUTOCOMMIT 0; update employees set name張三…

Python初學者筆記第二十二期 -- (JSON數據解析)

第31節課 JSON數據解析 1.JSON基礎概念 JSON 是一種輕量級的數據交換格式(另一個叫XML),具有簡潔、易讀的特點,并且在不同編程語言之間能很好地實現數據傳遞。在 Python 中,json模塊能夠實現 Python 數據類型與 JSON 數…

基于多模態大模型的個性化學習路徑生成系統研究

摘要 隨著互聯網技術的迅猛發展,個性化學習路徑生成系統的研究在教育領域日益凸顯其重要性。本研究聚焦于基于多模態大模型的個性化學習路徑生成系統,旨在通過整合多模態數據,為學習者提供更加精準、個性化的學習路徑。多模態大模型&#xf…

ESP32 燒錄固件失敗原因排除

ESP32 燒錄固件時,有哪些特殊引腳需要注意電平狀態的在 ESP32 燒錄固件時,有幾個關鍵引腳的電平狀態會直接影響燒錄過程,需要特別注意:GPIO0(BOOT 引腳):燒錄模式:需要拉低&#xff…

3D視覺系統在機器人行業中的應用

視覺引導機器人技術(VGR)具有成熟的2D成像技術,但是經濟高效的3D技術的出現使機器人應用的可能性更大。工業自動化的第一次迭代使用“盲”機器人,該機器人取決于待處理材料的精確定位。這樣的機器人相對不靈活,只能通過…

MySQL高可用改造之數據庫開發規范(大事務與數據一致性篇)

文章目錄一、前言二、延遲的原因三、大事務處理規范3.1. 刪除類操作優化設計3.2. 大事務通用拆分原則四、數據一致性核對規范4.1. 主從變更記錄識別方法五、小結一、前言 MySQL 高可用架構中最基礎、最為核心的內容:MySQL 復制(Replication)…

第9節 大模型分布式推理核心挑戰與解決方案

文章目錄 # 前言 一、通信瓶頸突破:讓數據“跑”得更快 1. 問題:通信為什么會成為瓶頸? 2. 解決方案:從硬件到算法的全鏈路優化 (1)硬件層:升級“高速公路” (2)算法層:給數據“瘦身”并“錯峰出行” (3)架構層:讓數據“少跑路” 3. 效果評估:如何判斷通信瓶頸已…

ESP32開發板接4陣腳屏幕教程(含介紹和針腳編號對應)

“4針屏幕” 一般有兩種常見類型:IC 屏幕(如 0.96" OLED、SSD1306 等) 4 個針腳通常是:VCC → 接 ESP32 的 3.3V(有的屏幕支持 5V)GND → 接 ESP32 的 GNDSCL(時鐘)→ 接 ESP32…

2025 年國內可用 Docker 鏡像加速器地址

文章目錄一、加速器地址搭建 Docker 鏡像源二、使用一、加速器地址 docker.1ms.rundocker.domys.ccdocker.imgdb.dedocker-0.unsee.techdocker.hlmirror.comcjie.eu.orgdocker.m.daocloud.iohub.rat.devdocker.1panel.livedocker.rainbond.cc 搭建 Docker 鏡像源 以上鏡像源…