CV計算機視覺每日開源代碼Paper with code速覽-2023.12.6

點擊@計算機視覺,關注更多CV干貨

論文已打包,點擊進入—>下載界面

點擊加入—>CV計算機視覺交流群

1.【基礎網絡架構:Transformer】Rejuvenating image-GPT as Strong Visual Representation Learners

  • 論文地址:https://arxiv.org//pdf/2312.02147

  • 開源代碼:https://github.com/OliverRensu/D-iGPT

2.【基礎網絡架構:Transformer】Bootstrapping SparseFormers from Vision Foundation Models

  • 論文地址:https://arxiv.org//pdf/2312.01987

  • 開源代碼:https://github.com/showlab/sparseformer

3.【異常檢測】Unsupervised Anomaly Detection using Aggregated Normative Diffusion

  • 論文地址:https://arxiv.org//pdf/2312.01904

  • 開源代碼:https://github.com/alexanderfrotscher/ANDi

4.【視頻異常檢測】Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection

  • 論文地址:https://arxiv.org//pdf/2312.01764

  • 開源代碼(即將開源):https://github.com/ArielZc/DE-Net

5.【圖像分割】UniGS: Unified Representation for Image Generation and Segmentation

  • 論文地址:https://arxiv.org//pdf/2312.01985

  • 開源代碼(即將開源):https://github.com/qqlu/Entity

6.【語義分割】Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic Segmentation

  • 論文地址:https://arxiv.org//pdf/2312.01850

  • 開源代碼(即將開源):https://github.com/JNiemeijer/DIDEX

7.【人臉識別】Effective Adapter for Face Recognition in the Wild

  • 論文地址:https://arxiv.org//pdf/2312.01734

  • 工程主頁:Effective Adapter for Face Recognition in the Wild

  • 開源代碼(即將開源):https://github.com/liuyunhaozz/faceadapter/

8.【醫學圖像分割】MobileUtr: Revisiting the relationship between light-weight CNN and Transformer for efficient medical image segmentation

  • 論文地址:https://arxiv.org//pdf/2312.01740

  • 開源代碼(即將開源):https://github.com/FengheTan9/MobileUtr

9.【視頻超分辨率重建】Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution

  • 論文地址:https://arxiv.org//pdf/2312.00853

  • 開源代碼(即將開源):https://github.com/IanYeung/MGLD-VSR

10.【圖像增強】Enhancing and Adapting in the Clinic: Source-free Unsupervised Domain Adaptation for Medical Image Enhancement

  • 論文地址:https://arxiv.org//pdf/2312.01338

  • 開源代碼:https://github.com/liamheng/Annotation-free-Medical-Image-Enhancement

11.【動作識別】DST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition

  • 論文地址:https://arxiv.org//pdf/2312.01431

  • 開源代碼(即將開源):https://github.com/qizhongtan/D2ST-Adapter

12.【多模態】Aligning and Prompting Everything All at Once for Universal Visual Perception

  • 論文地址:https://arxiv.org//pdf/2312.02153

  • 開源代碼:https://github.com/shenyunhang/APE

13.【多模態】Object Recognition as Next Token Prediction

  • 論文地址:https://arxiv.org//pdf/2312.02142

  • 開源代碼:https://github.com/kaiyuyue/nxtp

14.【多模態】Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites

  • 論文地址:https://arxiv.org//pdf/2312.01701

  • 開源代碼:https://github.com/Anonymousanoy/FOHE

15.【多模態】Good Questions Help Zero-Shot Image Reasoning

  • 論文地址:https://arxiv.org//pdf/2312.01598

  • 開源代碼:https://github.com/kai-wen-yang/QVix

16.【多模態】Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

  • 論文地址:https://arxiv.org//pdf/2312.01017

  • 開源代碼(即將開源):https://github.com/stoneMo/DeepAVFusion

17.【多模態】Segment and Caption Anything

  • 論文地址:https://arxiv.org//pdf/2312.00869

  • 工程主頁:Segment and Caption Anything

  • 開源代碼:https://github.com/xk-huang/segment-caption-anything

18.【多模態】VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

  • 論文地址:https://arxiv.org//pdf/2312.00845

  • 工程主頁:VMC

  • 開源代碼:https://github.com/HyeonHo99/Video-Motion-Customization

19.【多模態】A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video

  • 論文地址:https://arxiv.org//pdf/2312.01575

  • 開源代碼:https://github.com/keitokudo/Multi-VidSum

20.【數字人】GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians

  • 論文地址:https://arxiv.org//pdf/2312.02134

  • 工程主頁:Projectpage of GaussianAvatar

  • 開源代碼(即將開源):https://github.com/huliangxiao/GaussianAvatar

21.【數字人】VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior

  • 論文地址:https://arxiv.org//pdf/2312.01841

  • 工程主頁:VividTalk: One-Shot Audio-Driven Talking Head Generation Based 3D Hybrid Prior

  • 開源代碼(即將開源):https://github.com/HumanAIGC/VividTalk

22.【數字人】3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing

  • 論文地址:https://arxiv.org//pdf/2312.00870

  • 工程主頁:3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing

  • 開源代碼(即將開源):https://github.com/bala1144/3DiFACE

23.【半監督學習】Virtual Category Learning: A Semi-Supervised Learning Method for Dense Prediction with Extremely Limited Labels

  • 論文地址:https://arxiv.org//pdf/2312.01169

  • 開源代碼:https://github.com/GeoffreyChen777/VC

24.【深度估計】Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

  • 論文地址:https://arxiv.org//pdf/2312.02145

  • 工程主頁:Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

  • 開源代碼:https://github.com/prs-eth/marigold

25.【深度估計】Deeper into Self-Supervised Monocular Indoor Depth Estimation

  • 論文地址:https://arxiv.org//pdf/2312.01283

  • 開源代碼:https://github.com/fcntes/IndoorDepth

26.【場景補全】PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

  • 論文地址:https://arxiv.org//pdf/2312.02158

  • 工程主頁:PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

  • 開源代碼(即將開源):https://github.com/astra-vision/PaSCo

27.【風格遷移】Multimodality-guided Image Style Transfer using Cross-modal GAN Inversion

  • 論文地址:https://arxiv.org//pdf/2312.01671

  • 工程主頁:Multimodality-guided Image Style Transfer using Cross-modal GAN Inversion

  • 代碼即將開源

28.【Diffusion】Readout Guidance: Learning Control from Diffusion Features

  • 論文地址:https://arxiv.org//pdf/2312.02150

  • 工程主頁:Readout Guidance: Learning Control from Diffusion Features

  • 代碼即將開源

29.【Diffusion】ResEnsemble-DDPM: Residual Denoising Diffusion Probabilistic Models for Ensemble Learning

  • 論文地址:https://arxiv.org//pdf/2312.01682

  • 開源代碼(即將開源):https://github.com/nkicsl/ResEnsemble-DDPM

30.【Diffusion】DeepCache: Accelerating Diffusion Models for Free

  • 論文地址:https://arxiv.org//pdf/2312.00858

  • 開源代碼:https://github.com/horseee/DeepCache

31.【網絡剪枝】Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective

  • 論文地址:https://arxiv.org//pdf/2312.01397

  • 開源代碼:https://github.com/UNITES-Lab/VPNs

32.【網絡剪枝】Physics Inspired Criterion for Pruning-Quantization Joint Learning

  • 論文地址:https://arxiv.org//pdf/2312.00851

  • 開源代碼:https://github.com/fanxxxxyi/PIC-PQ

33.【姿態估計】Object 6D pose estimation meets zero-shot learning

  • 論文地址:https://arxiv.org//pdf/2312.00947

  • 工程主頁:PoMZ: Object 6D Pose Estimation Meets Zero-Shot Learning

  • 代碼即將開源

34.【NeRF】Mesh-Guided Neural Implicit Field Editing

  • 論文地址:https://arxiv.org//pdf/2312.02157

  • 工程主頁:Mesh-Guided Neural Implicit Field Editing

  • 開源代碼(即將開源):https://github.com/cassiePython/MNeuEdit/tree/master

35.【NeRF】SANeRF-HQ: Segment Anything for NeRF in High Quality

  • 論文地址:https://arxiv.org//pdf/2312.01531

  • 工程主頁:SANeRF-HQ

  • 開源代碼(即將開源):https://github.com/lyclyc52/SANeRF-HQ

36.【NeRF】VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams

  • 論文地址:https://arxiv.org//pdf/2312.01407

  • 工程主頁:VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams

  • 開源代碼(即將開源):https://github.com/aoliao12138/VideoRF

37.【NeRF】Self-Evolving Neural Radiance Fields

  • 論文地址:https://arxiv.org//pdf/2312.01003

  • 工程主頁:SE-NeRF

  • 開源代碼(即將開源):https://github.com/KU-CVLAB/SE-NeRF

38.【圖像合成】DiffiT: Diffusion Vision Transformers for Image Generation

  • 論文地址:https://arxiv.org//pdf/2312.02139

  • 開源代碼:https://github.com/NVlabs/DiffiT

39.【圖像合成】Style Aligned Image Generation via Shared Attention

  • 論文地址:https://arxiv.org//pdf/2312.02133

  • 工程主頁:StyleAlign

  • 開源代碼:https://github.com/google/style-aligned/

40.【人臉重建】DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

  • 論文地址:https://arxiv.org//pdf/2312.01068

  • 工程主頁:DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

  • 開源代碼(即將開源):https://github.com/tangjiapeng/DPHMs

41.【圖像檢索】Language-only Efficient Training of Zero-shot Composed Image Retrieval

  • 論文地址:https://arxiv.org//pdf/2312.01998

  • 開源代碼:https://github.com/navervision/lincir

42.【Visual Question Answering】How to Configure Good In-Context Sequence for Visual Question Answering

  • 論文地址:https://arxiv.org//pdf/2312.01571

  • 開源代碼:https://github.com/GaryJiajia/OFv2_ICL_VQA

論文已打包,下載鏈接

CV計算機視覺交流群

群內包含目標檢測、圖像分割、目標跟蹤、Transformer、多模態、NeRF、GAN、缺陷檢測、顯著目標檢測、關鍵點檢測、超分辨率重建、SLAM、人臉、OCR、生物醫學圖像、三維重建、姿態估計、自動駕駛感知、深度估計、視頻理解、行為識別、圖像去霧、圖像去雨、圖像修復、圖像檢索、車道線檢測、點云目標檢測、點云分割、圖像壓縮、運動預測、神經網絡量化、網絡部署等多個領域的大佬,不定期分享技術知識、面試技巧和內推招聘信息

想進群的同學請添加微信號聯系管理員:PingShanHai666。添加好友時請備注:學校/公司+研究方向+昵稱

推薦閱讀:

CV計算機視覺每日開源代碼Paper with code速覽-2023.12.5

CV計算機視覺每日開源代碼Paper with code速覽-2023.12.4

CV計算機視覺每日開源代碼Paper with code速覽-2023.12.1

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/214583.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/214583.shtml
英文地址,請注明出處:http://en.pswp.cn/news/214583.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

云原生Kubernetes系列 | Docker/Kubernetes的卷管理

云原生Kubernetes系列 | Docker/Kubernetes的卷管理 1. Docker卷管理2. Kubernetes卷管理2.1. 本地存儲2.1.1. emptyDir2.1.2. hostPath2.2. 網絡存儲2.2.1. 使用NFS2.2.2. 使用ISCSI2.3. 持久化存儲2.3.1. PV和PVC2.3.2. 訪問模式2.3.3. 回收策略1. Docker卷管理

從零開始搭建企業管理系統(六):RBAC 權限管理設計

RBAC 權限管理設計 前言權限分類功能權限設計什么是 RBACRBAC 組成RBAC 模型分類基本模型RBAC0角色分層模型RBAC1角色限制模型RBAC2統一模型RBAC3 RBAC0 權限設計用戶管理角色管理權限管理關聯表 總結 前言 作為一個后臺管理系統,權限管理是一個繞不開的話題&#…

視頻剪輯:視頻創意制作,背景圖片融合視頻制作畫中畫效果

隨著社交媒體的興起,視頻制作不再僅僅是專業人士的專利。每個人都可以通過一些技巧,創作出獨特而富有吸引力的視頻內容。視頻剪輯是一種非常重要的技術,它能讓視頻從平淡無奇變為生動有趣。背景圖片融合視頻制作畫中畫效果,也能增…

vm的centos本地配置yum

vm的centos本地配置yum 關于上篇文章vmware安裝centos7總結 出現關于配置yum源wget找不到命令,但是沒安裝yum就沒法下載wget,也就沒法使用wget 所以我們本地配置yum源,不用wget那個命令了 📕步驟: cd /etc/yum.repo…

springboot利用easyexcel在瀏覽器中下載excel

前言 項目中操作excel是一種很常用的功能,比如下載一份excel的報價單。這篇文章會介紹一款excel的處理工具以及導出遇到的三個常見異常(重要)。 之前遇到一個這樣的需求:后臺管理頁面,點擊下載按鈕,下載一份excel格式的報價清單…

《人工智能導論》知識思維導圖梳理【1~5章節】

文章目錄 說明第一章 緒論人工只能概述 第二章 知識表示和知識圖譜一階謂詞邏輯和知識表示法產生式表示和框架表示法 第三章 確定性推理方法推理的基本概念自然演繹推理歸結演繹推理謂詞公式化子句集魯賓孫歸結原理歸結反演歸結反演求解問題 第四章 不確定性推理方法似然推理可…

npm run build時提示vue/types/jsx.d.ts中的錯誤

解決方法一: 可能是因為vue版本過高引起的 我直接將package.json中vue以及vue-template-compiler的版本的前面^去掉,安裝指定的版本 注意:vue和vue-template-compiler需要版本一致 參考鏈接:鏈接 解決方法二: 如果如…

線上問題得解決

問題: 最近碰到一個比較棘手但是比較低級的問題,一直沒有找到原因,苦找了兩天才發現問題。場景就是訂單做了某一個操作之后(比如揀貨完成)然后到下一步(下道口)。 但是線上幾萬筆訂單 &#xf…

QT使用SQLite 超詳細(增刪改查、包括對大量數據快速存儲和更新)

QTSQLite 在QT中使用sqlite數據庫,有多種使用方法,在這里我只提供幾種簡單,代碼簡短的方法,包括一些特殊字符處理。在這里也給大家說明一下,如果你每次要存儲的數據量很大,建議使用事務(代碼中…

canvas 有趣的彈簧效果

先上效果 兩個小球之間有一根彈簧,這里有一條線表示,其中左球固定,在點擊開始后,右球開始做自由落體 思路 先做受力分析 經過受力分析可以發現,整個系統一共有三個力在起作用,我們分別把他們求出來并合成…

控制臺打印如來佛圖像

代碼 System.out.println(" _ooOoo_ \n"" o8888888o \n"" 88 \".\" 88 …

python——第十七天

方法重寫(overwrite) 、方法覆蓋(override ):在繼承的基礎上,子類繼承了父類的方法,如果不能滿足自己使用,我們就可以重寫或覆蓋該方法 函數重載(overload): 在強數據類型的編程語言中(如Java、C、C等等): 函數名稱…

轉換 pytorch 格式模型為 caffe格式模型 pth2caffemodel

基于 GitHub xxradon/PytorchToCaffe 源碼,修改 example\resnet_pytorch_2_caffe.py 如下 import os import sys sys.path.insert(0, .)import torch from torch.autograd import Variable from torchvision.models import resnet import pytorch_to_caffe"&q…

PDI/Kettle-9.4.0.0-343源碼下載及編譯

目錄 🍑一、概要🍊最新版本10.x(2023-11-30) 🍑二、下載🍑三、編譯🍊3.1、導入開發工具🍊3.2、開始編譯🍊3.3、編譯報錯🍊3.4、報錯原因:jdk版本低…

centos7安全防護_CPU占用率超過百分之300_centos7.4中毒CPU百分之百_清理毒源---Linux工作筆記068

執行top命令的時候看到有個進程: sshd占用cpu百分之300多...而且就算是kill -9 殺掉進程以后,進程又會自動啟動 ll /proc/7298 我們執行這個命令,可以看到有個/var/tmp/sshd的文件 我們進入cd /var/tmp 然后我們執行 rm -rf sshd刪除這個文件,然后我們再去top可以看到 cpu就…

【數倉理論】

一、數倉建模方法論 1.1 ER模型(Entity Relationship、實體關系模型、范式模型) ER模型是Bill Inmon提出的一種建模方法,實體關系模型將復雜的數據抽象為兩個概念 ---- 實體和關系 該模型在范式理論上符合3NF,這種模型目的是減少…

測距傳感器

測距傳感器 電子元器件百科 文章目錄 測距傳感器前言一、測距傳感器是什么二、測距傳感器的類別三、測距傳感器的應用實例四、測距傳感器的作用原理總結前言 測距傳感器廣泛應用于自動化控制、機器人導航、無人駕駛、測量儀器等領域。不同類型的測距傳感器具有不同的測距范圍、…

xtu oj 1178 Rectangle

題目描述 給你兩個平行于坐標軸的矩形,請判斷兩者是不是相交(面積有重合的部分)? 輸入 第一行是一個整數K,表示樣例數。 每個樣例占兩行,每行是4個整數,表示一個矩形的對角線點的坐標&#x…

重磅!2023中國高校計算機大賽-人工智能創意賽結果出爐

目錄 中國計算機大賽-人工智能創意賽現場C4-AI大賽頒獎及留影800個AI應用?這屆大學生真能“搞事情”AI原生時代,百度要再培養500萬大模型人才 中國計算機大賽-人工智能創意賽現場 12月8日,杭州,一位“白發老人”突然摔倒在地&…

[基礎IO]文件描述符{C庫函數\系統接口\初識fd}

文章目錄 1.基礎知識1.1對文件的認識1.2對系統調用接口的認識1.3如何理解LInux下一切皆文件? 2.C語言的庫函數2.1FILE *fopen(const char *path, const char *mode);2.2對fopen()的mode的w/a的深層認識2.3fclose()2.4size_t fwrite(const void *ptr, size_t size, size_t nmem…