論文閱讀 2025-9-13 論文閱讀隨心記

隨便記錄一下最近閱讀的幾篇論文

1. Does DINOv3 Set a New Medical Vision Standard?

第一章 動機 (Motivation)

自然圖像領域的成功范式:大型語言模型(LLMs)和視覺基礎模型(如 DINO 系列)證明,通過自監督學習(SSL)在海量無標注數據上進行預訓練,可以學習到極其強大且通用的表征能力,并遵循顯著的“縮放定律”(模型越大、數據越多,性能越好)。

醫學影像領域的獨特挑戰:

  1. 數據稀缺與獲取困難:醫學數據標注成本極高,且受隱私、法規限制,難以構建大規模數據集。
  2. 模態極度多樣化:包括 2D(X光、病理切片)、3D(CT、MRI)、灰度圖、RGB圖像等多種成像技術,每種都需要不同的視覺理解能力。
  3. 對細微特征敏感:診斷依賴于捕捉圖像中微小、細微的異常模式,因此對視覺表征的質量要求極高。

核心矛盾與問題: 醫學領域亟需一個強大的、現成的(off-the-shelf)視覺特征提取器,但受限于上述挑戰,很難從頭訓練一個大規模醫學視覺基礎模型。那么,一個直接的問題是:在自然圖像上訓練出的頂尖模型,其能力能否直接遷移到醫學領域? 這就引出了論文要探究的幾個根本性問題。

第二章 論文基準測試設置 (Benchmark Setup)

1. 2D醫學圖像分類 (2D Medical Image Classification)

任務描述:處理二維平面圖像進行診斷分類。
方法:直接將2D圖像輸入DINOv3編碼器,獲取圖像級特征后進行線性分類或更復雜的下游訓練。

使用的數據集與評估協議:

數據集模態內容與規模任務評估協議
NIH-14胸部X光112,120張圖像,30,805名患者14種胸廓疾病的多標簽分類嚴格遵守官方提供的患者劃分
RSNA-Pneumonia胸部X光29,700張圖像肺炎分類(二分類)遵循MGCA論文提出的標準化數據劃分方法
Camelyon16病理WSI (RGB)399張淋巴結切片乳腺癌轉移檢測(腫瘤 vs. 正常)1. 官方劃分(270訓練/129測試)
2. 多折交叉驗證 on test set
3. 在Camelyon17上測試泛化能力(跨中心)
Camelyon17病理WSI (RGB)多中心數據集,500張切片(100名患者)作為域外泛化測試集使用其官方訓練集作為測試集(因官方測試標注未公開),評估從Camelyon16訓好的模型在Unseen子集上的表現
BCNB病理WSI (RGB)1,058名患者的早期乳腺癌活檢切片5項預測任務:
- 腋窩淋巴結(ALN)轉移狀態
- 分子狀態(ER, PR, HER2, Ki67)
5折交叉驗證,每折內按 7:1:2 劃分訓練/驗證/測試集。使用CLAM方法提取圖像塊(~968 patches/WSI)

2. 3D醫學圖像分類 (3D Medical Image Classification)

  • 任務描述:對三維體積數據(如CT、MRI)進行整體分類。 核心方法:采用 “切片級特征提取 + 聚合” 策略:
  • 獨立處理:將3D體積的每一個2D切片分別輸入DINOv3 backbone,得到每個切片的特征嵌入(embedding)。
  • 特征聚合:將所有切片的特征通過平均池化(Mean Pooling) 聚合為一個代表整個體積的特征向量。
  • 下游分類:用聚合后的特征訓練分類器。

使用的數據集與評估協議:

數據集模態內容與規模任務評估協議
CT-RATE非增強CT47,000個CT體積,20,000名患者18種臨床異常的多標簽二分類使用官方數據劃分。采用兩種下游評估方法:
1. 零樣本 k-NN
2. 線性探測(Linear Probing)

3. 3D醫學圖像分割 (3D Medical Image Segmentation)

  • 任務描述:在三維體積數據上進行體素級的預測,以分割解剖結構或病變。
  • 核心方法:采用 “逐片特征提取 + 偽3D重構” 策略
  • 逐片處理:將3D體積的每一個2D切片分別輸入DINOv3,并保留完整的2D特征圖(而非圖像級嵌入)。
  • 構建偽3D特征體積:將所有2D特征圖沿切片方向堆疊,形成一個3D的特征體積
  • 輕量級分割頭:將這個偽3D特征體積輸入一個輕量的3D分割頭(如UNet式 decoder),最終生成體素級預測。

使用的數據集與評估協議:

數據集模態內容與任務評估協議
Medical Segmentation Decathlon (MSD)CT, MRI10個不同的3D分割任務,涵蓋腦腫瘤、心臟、肝臟、海馬體、前列腺、肺、胰腺、肝血管、脾臟和結腸官方評估平臺已關閉,采用 5折交叉驗證。遵循此前工作的標準協議(體積標準化、隨機旋轉/翻轉等數據增強)
CREMI電子顯微鏡(EM)3個子集(A,B,C),難度遞增,用于神經元分割每個子集:前100張切片訓練,后25張測試
AC3/AC4電子顯微鏡(EM)兩個密集標注的EM體積,用于神經元分割在AC4(前80切片)上訓練,在AC3(前100切片)上測試 -> 測試域外泛化
AutoPET-IIPET/CT1,014個全身PET/CT掃描,用于腫瘤病灶分割使用官方劃分的訓練/驗證集。強度標準化,使用隨機旋轉/翻轉等數據增強
HECKTOR 2022PET/CT882個頭頸部PET/CT掃描,用于原發灶(GTVp)和淋巴結(GTVn)腫瘤分割遵循官方挑戰協議和預處理流程(圖像配準、強度標準化)

實驗baseline model設置

模型參數量預訓練數據數據類型數據模態學習范式
BiomedCLIP86M1500萬圖像-文本對2D 圖像-文本多樣生物醫學圖像文本監督
CT-CLIP86M5萬體積+報告3D 體積-文本胸部CT文本監督
UNI304M1億圖像塊2D 圖像塊頭部/腹部/胸部CT視覺自監督
CONCH86M117萬 2D 塊-文本對2D 塊-文本病理學文本監督
DINOv3-S/B/L22M/86M/304M17億自然圖像2D 圖像自然圖像視覺自監督

第三章 實驗結論分析

任務類別具體任務與數據集實驗結論原因分析
2D分類胸部X光分類 (NIH-14, RSNA-Pneumonia)表現出色,確立新基線。DINOv3-L在NIH-14上AUC 0.7865,超越醫學專用模型BiomedCLIP (0.7771)。在RSNA上與BiomedCLIP性能接近。DINOv3從自然圖像中學到的物體結構和形狀表征能力,與X光片中基于宏觀結構異常進行診斷的模式高度吻合。
2D分類病理切片(WSI)分類 (Camelyon16, Camelyon17, BCNB)性能顯著落后。AUC (~0.84) 遠低于病理專用模型UNI和CONCH (AUC >0.96),僅與ResNet50相當。泛化能力差。病理分析依賴細粒度的紋理和細胞模式,與DINOv3關注的“物體”級特征不匹配。表明領域專業化預訓練絕對必要
3D分類3D CT體積分類 (CT-RATE)性能卓越,顯著超越基線。DINOv3-B (線性探測) AUC 0.798,顯著高于專用基線CT-CLIP (0.731)。DINOv3的2D特征通過切片平均池化聚合后,能有效表征整個3D體積,捕捉與診斷相關的視覺模式。
3D分割多器官分割 (MSD)都是物體級別特征,表現尚可但平庸。為自監督方法設立新SOTA基線,但整體性能(71% Dice)遠低于全監督nnU-Net (81.4% Dice)。在個別任務(肺、脾)上達到最佳。簡單的“凍結主干+逐片處理”策略不足以擊敗端到端訓練的復雜3D架構。但其強大的2D特征是一個“不錯的起點”。
3D分割神經元分割 (EM: CREMI, AC3/4)災難性失敗。誤差指標(VOI, ARAND)比經典方法高出十倍以上DINOv3特征缺乏高頻紋理細節,無法描繪神經元間錯綜復雜的邊界。自然圖像與EM圖像領域差距過大
3D分割腫瘤分割 (PET/CT: AutoPET-II, HECKTOR)性能極差。Dice分數極低(<15%),遠低于現有模型(>50%)。DINOv3特征適用于解剖結構,但無法解讀PET數據中的功能性代謝信息。這是與自然圖像模式的根本性背離
縮放定律所有任務縮放定律不一致且不可靠。性能不隨模型變大(S->B->L)或分辨率提高而單調增加。最佳模型規模因任務而異。自然圖像與醫學圖像存在領域差距。簡單地堆砌計算資源不能解決所有問題,必須為不同任務仔細選擇模型規模和分辨率

2. Training Language Models to Self-Correct via Reinforcement Learning(2024)

Google技術報告

任務定義: 大模型自我反思被定義為兩階段的問同一個問題,但是思考多次

在這里插入圖片描述
主要方法以及實驗可以在下面表示:
在這里插入圖片描述
主要方法的訓練過程:在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/96793.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/96793.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/96793.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Avalonia 基礎導航實現:從頁面切換到響應式交互全指南

在 Avalonia 開發中&#xff0c;導航功能是構建多頁面應用的核心需求。Avalonia 無需依賴第三方庫&#xff0c;僅通過內置控件與 MVVM 模式即可實現靈活的頁面切換。本文將以 “基礎導航” 為核心&#xff0c;從 ViewModel 與 View 設計、導航邏輯實現&#xff0c;到樣式美化與…

UniApp 分包異步化配置及組件引用解決方案

具體參考微信小程序文檔基礎能力 / 分包加載 / 分包異步化 一、分包頁面組件配置 在 UniApp 的pages.json中&#xff0c;為分包頁面&#xff08;或主包如 tabbar 頁面&#xff09;配置異步組件時&#xff0c;需同時設置usingComponents和componentPlaceholder&#xff1a; {&…

系統核心解析:深入操作系統內部機制——進程管理與控制指南(一)【進程/PCB】

???~~~~~~歡迎光臨知星小度博客空間~~~~~~??? ???零星地變得優秀~也能拼湊出星河~??? ???我們一起努力成為更好的自己~??? ???如果這一篇博客對你有幫助~別忘了點贊分享哦~??? ???如果有什么問題可以評論區留言或者私信我哦~??? ??????個人…

微論-神經網絡特征空間的動態聚集,對抗災難性遺忘的新范式

這是一個非常有趣且富有想象力的理論構想。受陀螺儀啟發&#xff0c;我將陀螺儀的“定軸性”與“進動性”原理引入神經網絡的特征空間&#xff0c;探討一種對抗災難性遺忘的新范式。---### **基于陀螺儀原理的神經網絡記憶鞏固理論探討**#### **引言&#xff1a;記憶的流失與穩…

鴻蒙審核問題——折疊屏展開態切換時,輸入框內容丟失

文章目錄背景解決歷程1、無意中發現了眉目2、確定問題原因3、解決辦法4、官方文檔5、總結背景 奇葩的事情年年有啊&#xff0c;今年特別多。這不今天又遇到了一個奇葩的問題。鴻蒙NextAPP上架AppGallery市場&#xff0c;審核拒了&#xff0c;說是折疊屏手機展開態切換時&#…

前后端分離架構中,Node.js的底層實現原理與線程池饑餓問題解析

在VueJava/.NET的前后端分離架構中&#xff0c;Node.js的底層實現原理與線程池饑餓問題解析 一、架構概述&#xff1a;Node.js的定位與角色 在現代Web開發中&#xff0c;Vue.js作為前端框架與Java/.NET后端結合的架構非常流行。在這種架構中&#xff0c;Node.js通常扮演著兩個關…

Django ModelForm:快速構建數據庫表單

Django 中的 forms.ModelForm —— 它是 Django 表單系統和 ORM 的一個“橋梁”&#xff0c;能幫助你快速基于 數據庫模型&#xff08;Model&#xff09; 自動生成表單&#xff0c;極大減少重復代碼。1. 什么是 ModelForm 普通 Form (forms.Form)&#xff1a;完全手寫字段&…

補 json的作用

&#xff1a;“我開車直接擰鑰匙就能走&#xff0c;為什么還要看儀表盤和用中控臺&#xff1f;”直接點擊“運行”&#xff0c;就像是汽車的自動駕駛模式。它能幫你開起來&#xff0c;但你不知道它走的是哪條路&#xff0c;油門踩多深。使用 launch.json 配置&#xff0c;就像是…

apache詳細講解(apache介紹+apache配置實驗+apache實現https網站)

1.apache HTTP server介紹httpd項目地址:https://httpd.apache.org/ 在Apache2中有三種工作模式&#xff0c;使用者可以根據不同的業務場景來進行選擇(1)prefork模式prefork模式是一種老而穩的模式:一個主進程管理者多個子進程&#xff0c;每個子進程單獨處理用戶請求&#xf…

jajajajajajajava

線程1 線程概念進程:進程指正在內存中運行的程序。進程具有一定的獨立性。線程:線程是進程中的一個執行單元。負責當前進程中程序的執行。一個進程中至少有一個線程。如果一個進程中有多個線程&#xff0c;稱之為多線程程序。java中的線程采用的是搶占式調度&#xff0c;如果線…

虛擬機CentOS里JDK的安裝與環境配置

---本文以JDK17為例---步驟 1&#xff1a;進入/tmp臨時目錄# 進入臨時目錄 cd /tmp步驟 2&#xff1a;下載 Java 17 安裝包wget https://github.com/adoptium/temurin17-binaries/releases/download/jdk-17.0.9%2B9/OpenJDK17U-jdk_x64_linux_hotspot_17.0.9_9.tar.gz步驟 3&am…

mybatis-plus多租戶兼容多字段租戶標識

默認租戶插件處理器的缺陷 在springboot工程中引入mybatis-plus的租戶插件TenantLineInnerInterceptor&#xff0c;能簡化我們的數據隔離操作&#xff0c;例如各類含租戶用戶登錄權限的rest接口中&#xff0c;不需要再根據登錄用戶-set租戶條件-觸發查詢&#xff0c;租戶插件能…

HBase高級特性(布隆過濾器和協處理器)、列族設計、rowkey設計以及熱點問題處理

在闡述HBase高級特性和熱點問題處理前&#xff0c;首先回顧一下HBase的特點&#xff1a;分布式、列存儲、支持實時讀寫、存儲的數據類型都是字節數組byte[]&#xff0c;主要用來處理結構化和半結構化數據&#xff0c;底層數據存儲基于hdfs。 同時&#xff0c;HBase和傳統數據庫…

redis sentinel 與 clauster 的區別

Redis Sentinel(哨兵)和Redis Cluster(集群)是Redis提供的兩種不同的高可用和擴展性解決方案,它們的設計目標和適用場景有顯著區別: 1. 核心功能與目標 Redis Sentinel 主要解決主從架構的高可用問題,實現自動故障轉移 監控主從節點狀態,當主節點故障時自動將從節點提…

MySQL數據庫中快速導入大數據sql

1.PwerShell命令頁面導入全表數據庫 -P3310 指定數據庫端口號Get-Content "本地sql文件目錄" | .\mysql -u root -p -P 33102.PwerShell命令頁面導入單表到數據庫 -P3310 指定數據庫端口號Get-Content "本地sql文件目錄" | .\mysql -u root -p -P 3310 數…

消息類型proto的編寫和生成

消息類型proto的編寫和生成 代碼如下&#xff1a; syntax"proto3"; package xypmq;enum ExchangeType {UNKNOWNTYPE0;DIRECT1;FANOUT2;TOPIC3; };enum DeliveryMode {UNKNOWNMODE0;UNDURABLE1;DURABLE2; };message BasicProperties {string id1;DeliveryMode deliver…

Vuetify:構建優雅Vue應用的Material Design組件庫

Vuetify是一個基于Material Design設計規范的Vue.js UI組件庫&#xff0c;它提供了80多個精心設計的組件&#xff0c;幫助開發者快速構建美觀且功能豐富的企業級應用。核心特性1. 完整的Material Design實現// 所有組件遵循Material Design規范 <v-btn color"primary&q…

SpringBoot 注解深剖:@RequestParam 與 @RequestBody 的終極對決,90% 的開發者都踩過這些坑!

在 SpringBoot 開發中&#xff0c;處理 HTTP 請求參數是我們每天都要面對的工作。而RequestParam和RequestBody這兩個注解&#xff0c;就像是我們手中的兩把利劍&#xff0c;既能高效解決問題&#xff0c;用不好也可能 "誤傷" 自己。作為一名資深 Java 開發者&#x…

【Docker】P2 Docker環境構建準備:MacOS 與 Linux

目錄操作系統與 Docker 的兼容性分析Docker 技術本質MacOS 環境下的 Docker 構建1. 安裝前準備2. Docker Desktop安裝3. 鏡像加速配置高級操作&#xff1a;文件共享配置Linux 環境下的 Docker 構建卸載歷史版本配置軟件源Docker 核心組件安裝系統服務配置鏡像加速器配置應用配置…

OpenCV 發票識別全流程:透視變換與輪廓檢測詳解

目錄 前言 一、核心技術原理&#xff1a;透視變換與輪廓檢測 1. 透視變換&#xff1a;讓傾斜發票 “正過來” &#xff08;1&#xff09;什么是透視變換&#xff1f; &#xff08;2&#xff09;透視變換的 5 個關鍵步驟 2. 輪廓檢測&#xff1a;精準定位發票區域 &#x…