51c視覺~合集16

自己的原文哦~? ? ? ? ???https://blog.51cto.com/whaosoft/14117000

#港大成立計算與數據科學學院,計算機+統計雙劍合璧

剛剛,港大成立新的計算與數據科學學院,由計算機科學系和統計學系合并。馬毅教授被任命為學院首任院長。

馬毅教授官宣:香港大學計算與數據科學學院成立。

同時,馬毅被任命為首任院長。

新學院的主要使命,就是通過全面改革和重新設計從本科一年級到研究生的整個課程體系,來革新AI和計算機科學的教育。

馬毅直言:這是一項巨大的工程,但也是我們這一代教育者的責任。

計算與數據科學學院

由現有的計算機科學系和統計與精算科學系合并后,新成立的計算與數據科學學院擁有大約60名知名學者和800名研究生,提供14個學術課程。

港大之所以要做出這種跨學院整合,就是希望在計算技術、數學建模和統計推理之間,創造出強大的協同效應。

如果既掌握了計算機科學,又把握了統計學課程的精髓,學院的畢業生必將具備強大的分析和計算技能。

另外,新成立的學院還會作為一個活躍的跨學科學術和研究合作中心,促進與其他所有院系的合作,以充分利用現代數據科學和AI的潛力。

學院提供的授課式研究生課程,充分考慮了行業和就業市場的需求。

課程將涵蓋多個主題,包括但不限于數據科學、人工智能、網絡安全、統計學和軟件工程。

同時,學院還會和行業伙伴密切合作,確保課程符合當前的行業需求。

課程設置

打開學院的課程設置列表,我們可以看到學院授予5個方向的碩士學位,分別是數據科學碩士、計算機科學碩士、電子商務與互聯網計算碩士、金融科技與數據分析碩士和統計學碩士。?

數據科學碩士(Master of Data Science)

數據科學碩士的課程結構包括廣泛的統計學和計算機科學課程,提供兩種學習模式:全日制模式為一年半學制,非全日制模式為兩年半學制。

本專業的碩士,將接受數據科學原理和實踐方面的培訓。

申請者應具備微積分和代數、計算機編程以及初級統計學的知識,并且應至少在這三個科目或相關領域中完成過一門大學或大專證書課程。?

計算機科學碩士(Master of Science in Computer Science)

計算機科學碩士課程,將為學生提供計算機科學領域的高級和深入知識,課程的最大特點就是多樣性和靈活性。

課程分為四個方向——網絡安全、金融計算、多媒體計算和通用方向,涵蓋了從數據工程、云計算、區塊鏈技術、深度學習到金融欺詐分析研究的廣泛主題。

- 通用方向涵蓋了一系列廣泛、全面的計算機科學科目,有多種課程可供學生選擇。

- 網絡安全方向是一個多學科的研究領域和專業活動,涉及網絡安全的最新技術。課程從技術、組織、人本導向和法律等不同角度,涵蓋網絡安全的各個方面。

- 金融計算方向研究用于金融的數據和算法,以及實現金融模型或系統的計算機程序的數學。金融計算強調實用的數值方法,側重于直接應用于商業和金融分析的技術。重點將放在金融行業的計算方面。

- 多媒體計算方向專注于多媒體計算、通信、分析、可視化和應用。學生將獲得理論和實踐技能,用于開發創新和創造性的多媒體計算技術。?

電子商務與互聯網計算碩士(Master of Science in Electronic Commerce and Internet Computing)

電子商務與互聯網計算碩士課程于1999年9月成立,是亞太地區首個結合商業與技術的課程。

香港在全球金融市場中擁有獨特的地位,這門課程結合了香港的這項優勢,它的目標是培養技術嫻熟且具備商業頭腦的人才,為香港的企業提供創新的季節方案。

另外,該專業還融入了一些先進、優秀的元素,幫助學生跟上信息技術的快速發展。

該專業希望,學生完成課程后,能夠區分炒作與現實,有能力分析行業內新的發展,將其既有、合理的結構和概念進行整合,從而發現創業機會和市場機遇。?

金融科技與數據分析碩士(Master of Science in Financial Technology and Data Analytics)

這門課程希望在不斷變化的金融科技世界中,為學生培養職業生涯的必備技能。

課程汲取了工程、商業、法律和統計等多個領域的專業知識,形成了一個以技術為重點的跨學科課程。

通過這些課程,學生將獲得在金融行業變化環境中所需的基本金融科技技能,以及對最新行業趨勢的了解。

學習該門課程的學生,將掌握AI、區塊鏈、大數據分析、金融欺詐分析等多項技術能力,應該能夠勝任需要強大技術技能的各類金融行業工作。?

統計學碩士(Master of Statistics)

申請統計學碩士的候選人,應具備矩陣和微積分、初級統計和線性建模的知識。

這門課程會對學生進行統計學原理和實踐的嚴格培訓。它非常強調應用,目標是通過計算機輔助和實踐經驗,為候選人在各個領域的深入學習、研究、咨詢工作和管理做好準備。

課程對學生提供極大的靈活性,無論是希望獲得普遍訓練,還是希望在風險管理、數據分析或金融統計方面進行專業化訓練的學生,都能找到自己適合的方式。

對于專業化主題,學生可以選擇核心課程和選修課程。

學院預計,申請該課程的學生將來自各個學科。同時,學院還推薦在職人員申請,作為兼職學生參與,相似或不同背景的學生在互動中都會受益。

另外,課程也適合應屆畢業生作為全日制學生來申請,以獲得研究生學位。

馬毅出任首任院長

馬毅教授是IEEE、ACM和SIAM的會士,目前擔任加州大學伯克利分校電氣工程與計算機科學(EECS)系教授、香港大學數據科學研究所的首任所長、香港大學計算機科學系主任,以及香港大學計算與數據科學學院的首任院長。

他于1995年在清華大學獲得自動化學士學位和應用數學學位。

在加州大學伯克利分校,他分別于1997年和2000年獲得EECS碩士學位和數學碩士學位,并于2000年獲得EECS博士學位。

在此之前,他曾于2000年至2011年在在伊利諾伊大學厄巴納-香檳分校(UIUC)電氣與計算機工程系擔任助理教授和副教授(現為兼職教授)。

2009年至2014年,擔任微軟亞洲研究院計算機視覺組主任及首席研究員。2014年至2017年,擔任上海科技大學信息科學與技術學院教授、執行院長。

此外,他還在Coordinated Science Laboratory的決策與控制小組和Beckman Institute的圖像形成與處理小組擔任研究教授。

學術服務方面,馬教授自2012年起開始擔任「IMA信息與推理雜志」的創刊副主編,自2018年起擔任「SIAM數據科學數學雜志」(SIMODS)的創刊副主編。

此前,曾在2007年至2011年擔任「IEEE模式分析與機器智能匯刊」(TPAMI)副主編,2010年至2014年擔任「國際計算機視覺雜志」(IJCV)副主編,2013年至2017年擔任「IEEE信息論匯刊」創刊副主編,以及「SIAM影像科學雜志」創刊副主編。

并且,還曾在2015年至2017年擔任「IEEE信號處理雜志」的高級編委,在2010年和2011年擔任「IEEE會刊」和「IEEE信號處理雜志」特刊的首席客座編輯。

在會議方面,他是2024年開辦「簡約與學習」(CPAL)的聯合創始人之一,曾多次擔任ICCV、CVPR和NIPS的領域主席,并擔任ICCV 2013(澳大利亞)的程序主席和ICCV 2015(智利)的大會主席。

馬教授的研究興趣包括3D計算機視覺、高維數據的低維模型、可擴展優化與機器學習以及智能機器。他的工作在自然圖像分割、穩健的人臉識別以及圖像對齊和校正等領域有廣泛應用。

最近的研究主題包括大規模3D幾何重建與交互,以及低維模型與深度網絡之間的關系。過去的研究主題包括高維數據的稀疏表示和低秩逼近、高維數據的聚類、壓縮和分類,以及從圖像重建3D結構。

馬教授發表了超過一百篇經過同行評審的文章,并出版了兩本廣受歡迎的教科書:《An Invitation to 3-D Vision》(2003年),《Generalized Principal Component Analysis》(2016年)。

最新的教科書《High-dimensional Data Analysis with Low-dimensional Models》,由劍橋大學出版社于2022年出版。

學術榮譽方面,馬教授于2016年被湯森路透的科睿唯安評為全球高被引研究者,并于2016年4月在《科學》雜志報道的Semantic Scholar中被評為全球計算機科學領域最具影響力作者的前50名。

他的博士研究與S. Soatto、J. Kosecka和S. Sastry一起在1999年國際計算機視覺會議(ICCV)上獲得了David Marr最佳論文獎。

2009年,他與學生Shankar Rao、Hossein Mobahi和Allen Yang一起在亞洲計算機視覺會議(ACCV)上獲得了Sang Uk Lee最佳學生論文獎,并在2015年獲得了IMA信息與推理雜志最佳論文獎二等獎。

馬教授在2003年獲得了國家科學基金會(NSF)的教師早期職業發展(CAREER)獎,并在2001年春季、2002年秋季和2006年春季被列入伊利諾伊大學的優秀教師名單。

他在2009年獲得了微軟公司的金星獎,并在2012年獲得了微軟亞洲研究院的年度最佳研究團隊獎。?

近期論文

AI教父Hinton在90年代,就提出了「深度學習的本質可能就是壓縮」的概念。

眾多AI大佬,在各種場合對這個概念性的提法做出了一些經驗性的總結,繼續擴展了這一理論。

例如,前OpenAI首席科學家Ilya Sutskever曾在UC伯克利的一個AI理論講座上分享到:「壓縮可能就是學習的本質!」

近期,馬教授和團隊提出了一種白盒Transformer架構——CRATE。它通過基本原理構建,擁有豐富的理論框架,并在各種訓練設置中實現了極具競爭力的性能。

具體來說,研究團隊認為,數據表征學習的核心目標是將數據從高維度分布壓縮到低維結構分布,從而實現有效的表征。

這種壓縮可以通過「稀疏編碼率減少」這個量化指標來衡量。

項目主頁:https://ma-lab-berkeley.github.io/CRATE/

研究團隊通過樸素的優化架構,將壓縮和稀疏作為損失函數,可以迭代地將數據分布壓縮到低維混合高斯分布模型,從而推導出類似Transformer的神經網絡結構。

這就是構建類Transformer構架的第一性原理。而進一步證明壓縮和去噪之間存在內在等價關系,就可以為構建Decoder提供理論依據,讓編碼器和解碼器具有幾乎相同的結構。

研究團隊的實驗結果表明,盡管架構較簡單,CRATE在許多任務和數據集上都能與現有的Transformer模型獲得類似的表現,同時其每一層和操作都可以明確解釋。

分析結果表明,CRATE相對于標準Transformer確實具有更強的可解釋性。

由于固有的數學可解釋性,CRATE也為視覺Transformer(ViTs)提供了一種有趣的替代方案。

為了探究架構的可擴展性,研究人員提出了CRATE-α——在對稀疏編碼塊進行策略性但最小化修改的同時,設計了一種輕量級的訓練方法。

項目主頁:https://rayjryang.github.io/CRATE-alpha/

MSSA(Multi-head Subspace Self-Attention )表示壓縮塊,ODL(Overcomplete Dictionary Learning)表示稀疏編碼塊

具體來說,CRATE-α主要做了三個修改:

1. 大幅擴展了通道,對稀疏編碼塊進行過參數化(overparameterized),使用過完備字典(overcomplete dictionary)對token表征進行稀疏化。

2. 解耦了關聯矩陣,在稀疏編碼塊的最后一部中引入一個解耦字典(decoupled dictionary)

3. 添加了殘差連接。

實驗結果證明,CRATE-α能夠隨著模型尺寸和訓練數據集的增大而擴展,性能可以持續提升。

例如,CRATE-α-B在ImageNet分類任務上的性能顯著超過了之前最好的CRATE-B模型,準確率提高了3.7%,達到了83.2%;進一步對模型進行擴展時,CRATE-α-L在ImageNet分類任務上達到了85.1%的準確率。

值得注意的是,模型性能的提升是在保持甚至增強了CRATE模型可解釋性的同時實現的,因為更大尺寸的CRATE-α模型學到的token表征能夠生成更高質量的無監督圖像分割。開發板商城 天皓智聯 TB上有視覺設備哦 支持AI相關~ 大模型相關也可用

參考資料:

??https://x.com/YiMaTweets/status/1822806291313782785??

??https://admissions.hku.hk/tpg/faculty/school-computing-and-data-science???

.

#Defect Spectrum

港科大聯手思謀新作:Defect Spectrum數據集重新定義AI工業質檢

AI 技術應用落地的元年,工業是主戰場,尤其是工業缺陷檢測。

在“生產制造-缺陷檢測-工藝優化-生產制造”的智能制造閉環鏈條中,基于AI的智能缺陷檢測扮演著“把關者”的角色。但這個把關者長期以來卻缺少一個稱手的工具——樣本量大、精度高、語義豐富的缺陷數據集。

近日,ECCV2024接收的一篇論文引起業界廣泛關注,該工作提出了Defect Spectrum缺陷數據集及DefectGen缺陷生成模型,主攻工業智能檢測,可解決模型無法識別的缺陷類別和位置問題,有效提升10.74%召回率,降低33.1%過殺率。

這是港科廣和專注于智能制造領域的人工智能獨角獸思謀科技聯合發布的又一杰作。去年,該合作團隊提出的《Ref-NeuS: Ambiguity-Reduced Neural Implicit Surface Learning for Multi-View Reconstruction with Reflection》被選為ICCV最佳論文候選。

  • Project Page: https://envision-research.github.io/Defect_Spectrum/
  • Arxiv Page: https://arxiv.org/abs/2310.17316
  • Github Repo: https://github.com/EnVision-Research/Defect_Spectrum
  • Dataset Repo: https://huggingface.co/datasets/DefectSpectrum/Defect_Spectrum

突破傳統限制,更貼近落地生產

高質量的數據集對CV技術和人工智能的發展起著至關重要的作用。如ImageNet不僅推動了算法的創新,還促進產業發展和進步。

在工業界,MVTec、VISION VI、DAGM2007等數據集幫助視覺學習算法更接近工業生產實際場景,但由于樣本量、精度、語義描述的不足,始終限制著AI工業檢測的發展。

Defect Spectrum數據集帶著突破傳統缺陷檢測界限的任務而來,為工業缺陷提供了詳盡、語義豐富的大規模標注,首次實現了超高精度及豐富語義的工業缺陷檢測。

相比其他工業數據集,“Defect Spectrum”數據集提供了5438張缺陷樣本、125種缺陷類別,并提供了像素級的細致標簽,為每一個缺陷樣本提供了精細的語言描述,實現了前所未有的性能突破。

圖片

相比其他工業數據集,Defect Spectrum精準度更高、標注更豐富

圖片

Defect Spectrum與其他數據集的數量、性質對比

從實際的工業生產來看,工廠對缺陷檢測的要求細致,需要在控制缺陷件的同時保證收益率。然而,現有缺陷檢測數據集常常缺乏應用所需的精確度和語義豐富性,無法良好支持實際生產。

例如,一件衣服的拉鏈齒出現了錯位,雖然缺陷尺寸不大但卻影響衣物功能,導致拉鏈無法正常使用,消費者不得不將其退回工廠進行修復。然而,如果缺陷發生在衣物的面料上,比如輕微的鉤絲或顏色略有差異,這時就需要仔細權衡其尺寸和影響。小規模的面料缺陷可被歸類在可接受的范圍內,允許這些產品通過不同的分銷策略銷售,比如以打折價格進行銷售,在不影響整體質量的同時保有收益。

傳統數據集如MVTEC和AeBAD盡管提供了像素級的標注,但常常局限于binary mask,無法細致區分缺陷類型和位置。Defect Spectrum數據集通過與工業界四大基準的合作,重新評估并精細化已有的缺陷標注,對細微的劃痕和凹坑進行了更精確的輪廓繪制,且通過專家輔助填補了遺漏的缺陷,確保了標注的全面性和精確性。

通過Defect Spectrum數據集這個強大的工具,工廠缺陷檢測系統能夠迅速識別、立即標記,并采取相關修復策略。

革命性生成模型,專攻缺陷樣本不足

港科大和思謀科技研究團隊還提出了缺陷生成模型Defect-Gen,一個兩階段的基于擴散的生成器。

圖片

Defect-Gen兩階段生成流程示意圖

Defect-Gen專門解決當前數據集中缺陷樣本不足的問題,通過利用極少量的工業缺陷數據生成圖像與像素級缺陷標簽,即使在有限的數據集上也能工作,為AI在復雜工業環境中的應用開辟了新的可能。

Defect-Gen具體通過兩個關鍵方法提高圖像的多樣性和質量:一是使用Patch級建模,二是限制感受野。

為彌補Patch級建模在表達整個圖像結構上的不足,研究團隊首先在早期步驟中使用大感受野模型捕捉幾何結構,然后在后續步驟中切換到小感受野模型生成局部Patch,可在保持圖像質量的同時,顯著提升了生成的多樣性。通過調整兩個模型的接入點和感受野,模型在保真度和多樣性之間實現了良好的平衡。而生成數據同樣可以作為數據飛輪的一部分,并加速其運轉。

目前,Defect Spectrum數據集的5438張缺陷樣本中,有1920張由Defect-Gen生成。研究團隊對應用Defect-Gen生成模型的Defect Spectrum數據集進行了全面的評估,驗證了Defect Spectrum在各種工業缺陷檢測挑戰中的適用性和優越性。

圖片

部分缺陷檢測網絡在Defect Spectrum數據集上的測評結果

圖片

Defect Spectrum數據集上的實際評估標準

圖片

Defect Spectrum在實際評估中的優異表現

比起原有的數據集,在Defect Spectrum數據集上訓練的模型召回率(recall)提升10.74%,過殺率(False Positive Rate)降低了33.1%。

Defect Spectrum數據集的引入,猶如為工業生產注入了一劑強心針。它讓缺陷檢測系統更加貼近實際生產需求,實現了高效、精準的缺陷管理。同時為未來的預測性維護提供了寶貴的數據支持,通過記錄每個缺陷的類別和位置,工廠可以不斷優化生產流程,改進產品修復方法,最終實現更高的生產效益和產品質量。

目前Defect Spectrum數據集已應用于思謀科技缺陷檢測視覺模型的預訓練中,未來將與IndustryGPT等工業大模型融合,深度落地并服務于工業質檢業務。AI技術落地驅動產業發展,也正是學術界和工業界共同努力方向。

.

#BioSAM2

跟最新熱點,做最快paper!BioSAM2:SAM-2在醫療領域的應用落地

本文提出BioSAM 2,這是一個優化過的SAM 2基礎模型,通過微調原始SAM 2實現。這個優化顯著提升了SAM 2在生物醫學圖像和視頻上的分割性能。在沒有提示的情況下,作者的自動分割始終保持顯著優勢,遠遠超過最先進的 Baseline 基礎方法。

醫學圖像分割及視頻目標分割對于識別和測量生物結構,從而輔助診斷和分析疾病至關重要。自然領域近期的發展推動了像 Segment Anything Model 2(SAM 2)這樣的基礎模型的進步。

為了探索 SAM 2 在生物醫學應用中的性能,作者設計了兩個評估 Pipeline ,用于單幀圖像分割和多幀視頻分割,采用不同的提示設計,揭示了 SAM 2 在醫學環境中的局限性。因此,作者開發了 BioSAM 2,這是一個根據 SAM 2 優化的高級基礎模型,用于生物醫學數據。

作者的實驗表明,BioSAM 2 不但超越了現有最先進的基礎模型性能,還可以與專業模型相媲美,甚至超過它們,證明了它在醫學領域的有效性和潛力。

1 引言醫學圖像分割對于識別生物結構和測量它們的形態,有助于各種疾病的診斷和分析。然而,盡管醫學影像技術取得了許多進步,分割仍然是一個巨大的挑戰,因為醫學圖像的復雜性和進行精確標注所需的大量手動努力。傳統方法通常需要詳細的手工標注,這不僅是耗時的,而且還容易犯 human error。

最近,分割基礎模型(如 Sam)的出現顯著推動了天然圖像分割領域的進步。SAM 在提示輸入下展示了令人印象深刻的零樣本分割性能,顯示了出色的通用性,并成為了各種分割任務的新的標準[6]。為了將 SAM 的能力擴展到醫學領域,已經提出了許多工作,其中 MedSAM 是一個代表。MedSAM 通過結合特定領域的知識修改了 SAM 的架構,以解決醫學圖像獨特的挑戰,如變化的對比度、噪聲水平和人工制品的存在[11]。這種方法在醫學圖像分割方面取得了顯著的改進,利用了 SAM 的基礎模型,同時為醫學應用進行了調整。

意識到需要將其能力擴展到更復雜的場景,SAM 2 開發了以包括視頻輸入的功能擴展 SAM。這使得 SAM 2 能夠處理圖像的時間序列,使其適合需要理解多個幀的時空連續性。通過處理空間和時間維度,SAM 2 在涉及自然圖像和視頻分割的各種任務上展示了零樣本的驚人性能。

然而,SAM 2在醫學分割任務上的潛力尚未完全探索。作者進行了全面的評估以研究其能力。具體而言,作者在6種醫學模式和9個感興趣目標的條件下評估了SAM 2的四個變體(Hiera-T, Hiera-S, Hiera-B+, 和Hiera-L)的性能。作者設計了兩套評估 Pipeline ,分別針對單幀圖像分割和多幀視頻分割,包括各種不同的提示設計。為了進一步評估性能,作者將它與各種 Baseline 模型進行了對比,包括基于CNN、Transformer和SSM的模型,使用各種指標。作者的發現表明,SAM 2不能直接用于醫學圖像或視頻分割。主要原因是自然數據與醫學數據之間的顯著領域差距以及SAM 2無法將分割區域與有意義語義類別關聯。換句話說,SAM 2不能在醫學領域執行語義分割,這限制了其在計算機輔助診斷中的應用。

在這些觀察的基礎上,作者進一步引入BioSAM 2,這是一個優化過的SAM 2基礎模型,通過微調原始SAM 2實現。這個優化顯著提升了SAM 2在生物醫學圖像和視頻上的分割性能。值得注意的是,在沒有提示的情況下,作者的自動分割始終保持顯著優勢,遠遠超過最先進的 Baseline 基礎方法。

作者的貢獻可以概括如下:

  • 作者已開發了兩個適用于6種醫學模式和9個感興趣目標的單幀生物醫學圖像和多幀生物醫學視頻的評估 Pipeline 。這些 Pipeline 全面評估了SAM 2在生物醫學應用中的性能。
  • 為了增強SAM 2在生物醫學領域的適應性,作者引入了BioSAM 2,這是一個通過微調原始SAM 2實現的優化基礎模型。這個改進顯著提升了SAM 2的分割性能。值得注意的是,在不需要任何提示的情況下,作者的自動分割始終明顯優于競爭最先進的 Baseline 基礎方法。
  • 實驗結果表明,BioSAM 2在相同模態的醫學數據上與專業模型訓練的性能相匹配,甚至超過了。這些發現強調了BioSAM 2作為通用醫學圖像和視頻分割的新范式具有巨大的潛力。

通過將BioSAM 2與醫學影像分割任務相結合,作者可以預計在分割準確度和標注效率方面取得顯著改進,最終為更好的臨床結果作出貢獻,并促進人工智能在醫學影像領域的應用。本研究旨在推動當前醫學影像分割技術的發展邊界,探索先進的AI模型如BioSAM 2處理醫學影像數據的全部潛力。

2 Related Work

醫學圖像分割。CNN基礎和Transformer基礎的模型在醫學圖像分割領域取得了顯著進步。U-Net[17],是一種顯著的基于CNN的方法,特征為一個對稱的編碼器-解碼器結構,并在跳躍連接中保留細節。增強版,如自適應的nnU-Net[13],展示了在各種醫學分割挑戰中強大的性能。在基于Transformer的模型中,TransUnet[18]將視覺Transformer(ViT)[19]集成用于特征提取并將之與CNN配對進行解碼,有效地處理全局信息。UNETR[15],和Swin-UNet[20]將Transformer架構與U-Net相結合,以增強3D成像分析,并發掘Swin視覺Transformer塊[21]。基于圖神經網絡(SNM)的模型如U-Mamba[22]已經用于在醫學圖像中進行高效的長序列數據分析。最近,SAM[6],一種預訓練于10億面罩上的視覺基礎模型,在各種分割任務上展現了驚人的零樣本學習能力。受到SAM在自然圖像中性能的啟發,針對醫學分割的適應性迅速出現[23, 24, 25, 26]。MedSAM[7]在11個模態的20萬個面罩上對SAM進行了細調,而SAM-Med2D[27]使用了全面的提示,用于2D醫學圖像。SAMed[23]和MA-SAM[28]使用了PETL[29]進行細調,超越了一些現有的醫學分割方法。

圖片

圖2:根據不同的分割提示,SAM 2 和大型SAM 2的圖像分割結果。

醫學視頻物體分割。許多語義分割模型依賴單張圖像識別場景中的物體。這可能導致在多幀視頻中特別是在需要時間上下文的多幀視頻中,做出空間和時間上不準確的預測。為了應對這個問題,時空記憶網絡(STM)[30]及其變體[31, 32, 33]使用內存網絡從由所有 previous video sequences 組成的時間基緩沖中提取關鍵信息。在這個方法的基礎上,DPSTT[34]集成了一個內存庫并使用了解耦的Transformer來跟蹤醫學超聲視頻中的時間病變移動。然而,DPSTT需要大量的數據增強以避免過擬合,且處理速度較低。隨后的FLANet[35]引入了一個集頻率和位置特征聚合的網絡,涉及大量的內存占用。手術視頻的光流方法[36, 37]局限于使用圖像對之間的特征,而無法利用擴展的時間上下文。

其他方法在時間解碼器中使用結合2D編碼器與3D卷積層[38]以及卷積長短時記憶單元(ConvLSTM)[39]。替代的方法通過在訓練中使用損失函數強制時間一致性[40],或者使用結合高幀率和低幀率模型分支來整合視頻的不同部分的時間上下文[41]。最近引入的SAM 2[12]擴展了SAM的背部到3D,增強了在視頻中“分割任何東西”的能力。具體來說,SAM 2配備了內存,它可以存儲物體信息和之前的交互信息,允許它在整個視頻中生成并糾正面罩預測。?

3 Method

Preliminary Study of SAM 2

Segment Anything Model 2(SAM 2)是一種統一的基于 Transformer 的模型,適用于圖像和視頻分割。對于每個視頻幀,分割預測利用當前提示和之前觀察到的記憶。視頻以順序方式處理,每幀由圖像編碼器單獨處理,而記憶注意力則將當前幀特征與過去幀的特征和預測的條件起來。遮擋解碼器,可以 optionally 接收輸入提示,預測該幀的分段 Mask 。最后,記憶編碼器將預測結果和圖像嵌入轉換為可用于未來幀的格式,以確保多個幀的連續性。

圖像編碼器中的視覺 Transformer 使用層次 Mask 自編碼器模型Hiera [42]進行預訓練,實現多尺度特征解碼。記憶注意力將當前幀特征與過去幀的特征和預測的條件起來。多個 Transformer 塊堆疊,第一個塊將當前幀的圖像編碼作為輸入。每個塊執行自注意,然后執行交叉注意力至幀和目標指針的內存。在SAM 2中,提示使用位置編碼和兩個可學習的標記表示前景和背景。遮擋解碼器包括雙向 Transformer 塊,用于更新提示和幀嵌入。該模型為每個幀預測多個 Mask ,如果不加后續提示澄清的歧義則僅傳播預測IoU最高的 Mask 。此外,輔助預測頭確定當前幀中目標目標的存在。最后,記憶編碼器通過使用卷積模塊對輸出 Mask 下采樣,然后與圖像編碼器的無條件幀嵌入按元素求和來整合這個過程。這種方式保留的信息的記憶存儲器中,在視頻序列中保留了對目標目標的最重要的預測信息。

Medical Applications of SAM 2

基于SAFM 2在自然圖像和視頻中展示的令人印象深刻的全零樣本學習能力,作者探討了它在醫療應用中的性能。具體來說,作者設計了兩條 Pipeline :單幀圖像分割和多幀視頻分割,以評估SAFM 2在醫療背景下的零樣本分割任務處理能力。

單幀圖像分割。?作者的方法在非迭代方式下設計單幀圖像分割,其中所有提示都無需從前置預測中獲取反饋。首先,通過特定策略自動化生成點提示。從初始 Mask 中隨機選擇一個點作為提示。給定源自初始 Mask 的一組候選點?, 選定的點??如下:?.正如SAFM 2的文檔[12]所指出的,使用單個點提示可能帶來分割 ambiguity,因為模型可能將提示與多個有效 Mask 關聯,而無法識別出預期的一個。盡管SAFM 2包含一個解決歧義的模塊,該模塊會根據置信得分生成多個 Mask 并對其進行排名,但使用多個點提示可顯著減輕這個問題。因此,作者還評估了在初始 Mask 候選詞中隨機選擇的附加點提示性能。這種從 Mask 中采樣的方法將初始分割 Mask 視為可靠的結果,并利用提示選擇不變性來增強分割精度,同時合并附加點提示。

多幀視頻分割。?在評估視頻分割時,作者采用離線和在線評估的混合模式。具體來說,作者選取前n幀作為交互幀,在這些幀上添加點擊線索。多個點擊線索可使模型更準確地確定目標的邊界,實現更高的分割精度和可靠性。此外,多個交互幀可有效解決SAFM 2中出現的問題,即模型無法跟蹤出現在 未標注 幀中的目標,使得它對視頻場景更合理且有效。總體而言,作者的一次視頻評估僅遍歷一次視頻,從而最終得到分割結果。

總之,在直接使用SAFM 2進行醫療圖像和視頻分割時,生成的 Mask 可能是模糊的,需要多個提示或迭代進行預測和校正。盡管SAFM 2具有很大的潛力,但它在為各種醫療圖像/視頻分割任務產生令人滿意的分割結果時遇到了挑戰。此外,由于SAFM 2的視頻訓練數據主要包含高分辨率視頻,在處理低分辨率醫學視頻時,它可能完全無效果。鑒于這些局限性,本研究的目標是開發一個強大的分割基礎模型,能夠有效地解決各種分割目標。

BioSAM 2: Dedicated biomedical segmentation foundation model

為將SAM 2調整用于醫學視頻分割,選擇適合的網絡組件進行微調至關重要。SAM 2的結構包含幾個關鍵元素:圖像編碼器、提示編碼器、記憶注意力、 Mask 解碼器和記憶編碼器。可以微調這些組件的任何組合。對于作者進行的適應,提示編碼器,它是處理給定提示信息的部分,從預訓練模型中保留并因此將其凍結以保持其原始功能。相反,圖像編碼器和 Mask 解碼器都被微調以增強SAM 2在醫學影像領域適用性。這種適應策略如圖3所示。

圖片

對于圖像編碼器,作者選擇了一個微型配置,以在計算成本和性能效用之間取得平衡。作者從官方預訓練權重開始訓練SAM 2,并為圖像和視頻數據進行單獨的會話。在訓練過程中,作者采用AdamW優化器[43]并實現了圖像編碼器上的層衰減策略[44],以提高其學習效率。對于 Mask 解碼器,其配置簡化為每幀生成一個 Mask ,因為提供的提示明確指定了期望的分割目標。

在損失設計中,作者使用dice損失和二進制交叉熵(BCE)損失的組合來監督模型預測。具體而言,?和??分別是預測和實際像素值,??是總像素數。dice損失定義為:

圖片

BCE損失為:

圖片

在訓練過程中,作者使用這些損失的結合來優化模型參數:

圖片

如果實際數據中不包含某個幀的 Mask ,則不監督任何 Mask 輸出,但始終監督預測是否應在幀中存在 Mask 的 Mask 預測頭。?

4 Experiments

實驗概述

本實驗分為四部分,旨在探討深度學習和強化學習技術在人工智能領域的應用及其在實際問題中的性能表現。本實驗將采用深度學習平臺如TensorFlow和PyTorch,以及強化學習庫如PyTorch-RL庫實現。

實驗內容包括:

  • 實驗一:手寫數字識別
  • 實驗二:環境感知和導航
  • 實驗三:游戲策略學習
  • 實驗四:自適應機器人控制

實驗一:手寫數字識別

首先,作者將展示深度學習在手寫數字識別任務上的應用。在這個實驗中,作者將訓練一個卷積神經網絡(Convolutional Neural Network,CNN)來識別常見的數字手寫體。通過這個實驗,作者將了解深度學習如何提高識別精度。

實驗二:環境感知和導航

接著,作者將進行環境感知和導航實驗。在這個實驗中,作者將使用深度強化學習技術,訓練智能代理在復雜環境中自主導航。這個實驗將展示強化學習在實際問題中的優越性能。

實驗三:游戲策略學習

實驗三作者將研究游戲策略學習技術。在這個實驗中,作者將研究深度學習在博弈領域中的應用,如AlphaGo、StarCraft等。通過對這些游戲的分析,作者將了解到深度學習在解決實際問題中的潛力。

實驗四:自適應機器人控制

最后一個實驗將研究自適應機器人控制技術。在這個實驗中,作者將使用深度強化學習來實現機器人在不同環境下的自適應控制。這個實驗將進一步證明深度學習的廣泛應用。

實驗總結

通過本次實驗,作者對深度學習和強化學習有了更深入的了解,這些技術在實際應用中都取得了顯著的成果。在今后的研究中,作者可以進一步探討如何將深度學習和強化學習技術相結合,以更好地解決實際問題。?

Biomedical Image Segmentation

4.1.1 Datasets

為評估BioSAM 2的性能和可擴展性,作者采用了兩個醫學圖像數據集,包括內窺鏡圖像數據集[45]和顯微鏡圖像數據集[46]。

內窺鏡圖像:從MICCAI 2017年內窺鏡圖像挑戰賽[45]中(EndoVis Challenge[45]),該數據集關注內窺鏡圖像中的儀器分割,包括大針頭驅動器、主動力鉗、單極彎剪鉗、卡萊爾鉗、雙極鉗、血管密封器和插入式超聲探頭等七種不同儀器。該數據集分為1800個訓練幀和1200個測試幀。

顯微鏡圖像:從NeurIPS 2022年細胞分割挑戰[46]中(Cell Segmentation Challenge[46])的數據集,該數據集用于細胞分割顯微鏡圖像,包括1000個訓練圖像和101個測試圖像。遵循U-Mamba[22]的處理方法,作者將其視為語義分割任務,關注細胞邊界和內部結構而不是實例分割。

4.1.2 Experimental Setup

作者的實驗設置與每個方法在官方倉庫中的對應設置相同,以確保公平的比較。具體地,內窺鏡和顯微鏡數據集的批處理大小為8。作者采用無權重組合Dice損失和交叉熵損失,用于所有數據集,利用AdamW優化器,初始學習率為1e-4。每個數據集的訓練周期設置為200個周期。對于基于SAM的方法的評估,作者遵循其官方技術報告的實現細節。作者將不同的點作為提示,并將其輸入到模型中。所有提示都隨機選擇對應圖像的 Mask 。

在作者對BioSAM 2進行評估時,作者將與兩種著名的基于CNN的分割方法進行比較:nnUNet [13]和SegResNet [14]。另外,作者還包含了與UNETR [15]和SwinUNETR [16]的比較,這兩個基于Transformer的神經網絡方法在醫學圖像分割任務上越來越受歡迎。U-Mamba [22],最近的方法基于Mamba模型,也被納入作者的比較,以提供對其性能的全面概述。對于每個模型,作者實現其推薦的優化器,以確保訓練條件的一致性。為了保持所有比較的公平性,作者將在每個數據集上微調所有這些模型,并應用nnUNet [13]中的默認圖像預處理。作者也通過直接允許它們推理圖像對應的 Mask 來評估SAM和SAM 2的性能。為確保進行全面評估,作者使用三種提示測試了SAM 2的兩個大小。

對于評估指標,作者使用Dice相似系數(DSC)和歸一化表面距離(NSD)評估內窺鏡圖像中手段分割的性能。對于細胞分割任務,作者使用F1得分和NSD來評估方法性能。

4.1.3 Results

如圖1所示,作者對各種SAM 2變體進行了深入分析。結果表明,隨著點擊次數的增加,性能明顯提高,特別是在顯微鏡數據集上,F1指標從0.0654提高至最大值0.3566。同樣,在內窺鏡數據集上也有顯著進步,DSC評分從最低的0.4115上升至0.5382,NSD評分從0.4227上升至0.5520。此外,作者在兩個不同模型大小下評估了SAM 2的性能。較大的模型尺寸在點擊總數相同的情況下,在大多數DSC和NSD評分上超過了小巧的變體,這表明較大的SAM 2模型具有更強的分割能力。

圖片

在與專門為醫學圖像分割設計的其他微調模型(例如nnU-Net)的比較中,SAM 2的零樣本表現遜色。這一差異凸顯了盡管SAM 2的遷移學習能力很強,但在醫學圖像領域仍然有巨大的提高空間。這強調了將SAM 2微調至最佳性能的必要性。此外,發現當SAM 2采用多個點擊時,SAM 2的零樣本結果超過了SAM,即使SAM使用了其最大的版本SAM_h。這強調了SAM 2先進設計和適應性的優勢,與SAM相比。

表1還顯示了作者的提出方法BioSAM 2的性能。BioSAM 2與SAM 2之間的比較分析揭示了巨大的改進,BioSAM 2實現的最小改進為0.0772,最大改進為0.5138。這表明BioSAM 2在儀器分割和細胞分割上的優越性能,并突顯了SAM 2在醫學圖像領域的巨大潛力。SAM 2是一個通用模型,由于其通用設計而非專業設計,因此在醫學領域需要適應,這是由于其對醫學數據集的知識庫有限以及輸出 Mask 數量有限的限制。雖然SAM 2可以有效地分割圖像級實例, But it struggles with accurately segmenting class-level instances. SAM 2可以輕松地劃分兩個細胞的邊界,但不能確定它們是否屬于同一類別。這些限制影響了SAM 2的性能,尤其是在多類別醫學分割數據集上。BioSAM 2因此在這些方面發揮著關鍵作用,增強了模型處理醫學圖像分割任務的能力。

圖片

最后,根據表1,BioSAM 2在內窺鏡數據集上取得了0.6251的DSC分數和0.6427的NSD分數。在顯微鏡數據集上,它獲得了0.5792的F1分數和0.7436的NSD分數。這些結果超越了大多數競爭方法,并與最先進的模型具有可比性。這些性能驗證了BioSAM 2在醫學圖像分割方面的優異性能,并證實了它有能力提供高質量的結果。?

Biomedical Video Segmentation

生物醫學視頻分割部分的內容開始。

4.2.1 Datasets

為了驗證SAM 2在生物醫學視頻上的性能,作者從醫學場景中選擇了兩個數據集,包括來自EndoVis 2018 [47]和EchoNet-Dynamic [48]的數據集。

EndoVis 2018。?來自Robotic Scene Segmentation Challenge [47]。這個數據集包括使用da Vinci Xi系統在豬實驗室中進行16次機器人腎切除術的視頻數據,旨在支持手術機器人的機器學習研究。最初錄制的頻率為60 Hz,數據已降采樣到2 Hz以降低標簽成本,在去除最小運動序列后,每個程序有149幀。每一幀,以12801024的分辨率顯示,包括來自左右眼相機的圖像以及立體相機校準參數。

EchoNet-Dynamic。?EchoNet-Dynamic數據集[49] 包含10,030個標記的心電圖視頻,收集自2016年到2018年斯坦福大學醫院日常臨床護理。這個廣闊的數據集為研究心臟運動和 chamber 尺寸提供了獨特的資源,這對于診斷各種心血管疾病至關重要。數據集中的每個視頻從心尖四腔視圖捕捉心臟動力學,經過仔細裁剪和遮擋以消除任何無關文本和外部信息,確保僅關注心臟成像區域。該視頻均統一縮放到112112像素,使用立方插值來標準化數據集。

4.2.2 Experimental Setup

在評估SAM 2在零樣本條件下的性能時,作者選擇了Jaccard指數和F-分數(記為)作為作者的評估指標。Jaccard指數描述了預測口罩和真實目標(gt)之間的交集與并集(IoU),而F-分數衡量了預測口罩邊界和真實目標邊界之間的對齊。

4.2.3 Results

SAM 2 與 SAM 相比最重要的突破在于其支持內部物體的視頻跟蹤能力。如圖2所示,作者對 SAM 2 在醫學視頻中零樣本分割的能力進行了詳細而全面的評估。結果表明,點擊計數有效增強了結果的準確性。只需要幾個額外的提示,模型就可以準確地描繪出物體的邊界。值得注意的是,EchoNet Dynamic [48] 顯示了最大的改進。如圖5所示,單擊一次 SAM 2 就能分割出成像區域。然而,隨著點擊次數的增加,分數從單個數字增加到超過70。此外,當點擊次數保持不變時,模型在大尺寸上表現得更好。

圖片

SAM 2 視頻分割的一個重要問題是,如果目標物體未出現在標注幀中,則在視頻中進行跟蹤和分割變得不可行。作者通過增加交互幀的數量解決了這個問題。表3中的結果展示了這種方法帶來的改善。通過增加交互幀,SAM 2 在3-點擊場景下的性能得到了提高,甚至超過了僅使用第一幀的 Ground Truth ?Mask 的結果。作者觀察到,即使同樣的物體在交互幀中多次標記,它也能夠提高后續分割結果。作者推測,這種信息注入幫助模型從不同視角更好地識別同一物體,從而實現更好的結果。總體而言,雖然 SAM 2 在醫學視頻中實現了零樣本分割,但在某些醫學場景中缺乏對醫學內容的學習使其表現復雜。這強調了后續努力中在視頻數據上訓練 BioSAM 2 的重要性。

圖片

5 Conclusion

總之,作者的BioSAM 2開發在生物醫學領域取得了重大進展。通過實現兩個專門針對單幀生物醫學圖像和多幀生物醫學視頻的評估 Pipeline ,作者對SAM 2在不同醫學場景和感興趣的物體上的性能進行了嚴格的評估。作者的結果表明,增強的BioSAM 2不僅超越了當前最先進的底層方法,而且超過了專門針對相同醫學方法訓練的大多數專用模型的性能。這些發現確認了BioSAM 2作為一種新的生物醫學分割方法,用于更高效、準確、適應性強的診斷技術的潛力。

.

#EAFormer

圖像文本擦除無痕跡!復旦提出EAFormer:最新場景文本分割新SOTA!

為了在文本邊緣區域實現更好的分割性能,本文提出了邊緣感知Transformer(EAFormer),該方法明確預測文本邊緣,并利用這些邊緣來引導后續的編碼器。

文章鏈接:??https://arxiv.org/pdf/2407.17020??

git鏈接:??https://hyangyu.github.io/EAFormer/??

亮點直擊

  • 為了在文本邊緣區域實現更好的分割性能,本文提出了邊緣感知Transformer(EAFormer),該方法明確預測文本邊緣,并利用這些邊緣來引導后續的編碼器。
  • 針對COCO_TS和MLT_S數據集的標注質量較低的問題,對這些數據集進行了重新標注,以提高EAFormer在這兩個數據集上的實驗結果的可靠性。
  • 在六個場景文本分割基準上的廣泛實驗表明,所提出的EAFormer能夠達到最先進的性能,尤其在文本邊緣區域表現更佳。

場景文本分割旨在從場景圖像中裁剪文本,這通常用于幫助生成模型編輯或去除文本。現有的文本分割方法通常涉及各種文本相關的監督以獲得更好的性能。然而,大多數方法忽略了文本邊緣的重要性,而文本邊緣對下游應用至關重要。本文提出了邊緣感知Transformer(Edge-Aware Transformers),簡稱EAFormer,以更準確地分割文本,特別是文本的邊緣。

具體而言,首先設計了一個文本邊緣提取器,以檢測邊緣并濾除非文本區域的邊緣。然后,提出了一個邊緣引導編碼器,使模型更加關注文本邊緣。最后,采用了一個基于MLP的解碼器來預測文本mask。在常用基準上進行了廣泛的實驗,以驗證EAFormer的有效性。實驗結果表明,所提出的方法在文本邊緣的分割上優于以前的方法。考慮到一些基準數據集(如COCO_TS和MLT_S)的注釋不夠準確,無法公平評估本文的方法,重新標注了這些數據集。通過實驗觀察到,當使用更準確的注釋進行訓練時,本文的方法能夠獲得更高的性能提升。?

方法

本節詳細介紹了所提出的EAFormer。首先,介紹EAFormer的提出動機。然后,詳細說明EAFormer的每個模塊,包括文本邊緣提取器、邊緣引導編碼器和文本分割解碼器。最后,介紹了本文方法的損失函數。

動機

不可否認,文本邊緣對場景文本分割任務至關重要,尤其是對于其下游任務如文本擦除。準確分割文本邊緣可以為文本擦除模型提供更多的背景信息,以填補文本區域。如下圖1所示,利用一個預訓練的修復模型,輸入不同類型的文本mask,以在場景圖像中擦除文本。通過實驗觀察到,文本邊界框mask過于粗糙,無法為修復模型提供更多的背景信息。此外,邊緣分割不準確的文本mask使得修復模型錯誤地將屬于文本的像素視為背景,導致擦除效果不佳。只有提供具有準確邊緣分割的文本mask時,修復模型才能生成令人滿意的文本擦除結果。

盡管PGTSNet已經意識到文本邊緣的重要性,并使用了二元交叉熵損失來檢測文本邊緣的像素,但它未能明確地將易于獲取的文本邊緣信息作為輸入信息之一。為了驗證其感知文本邊緣的能力,對主干網絡輸出的特征進行了K均值聚類,其中K設置為3,分別代表背景、文本邊緣和文本中心。通過下圖2中的可視化結果,觀察到該方法在感知文本邊緣方面仍存在一定的不足。

此外,研究者們發現傳統的邊緣檢測算法可以獲得準確的文本邊緣,這可能有助于場景文本分割任務。然而,由于傳統的邊緣檢測方法無法區分文本區域和非文本區域,因此大多數邊緣都被檢測到了非文本區域。如果直接將邊緣檢測結果作為輸入來輔助文本分割,可能會使文本分割模型產生混淆,從而對其性能產生不利影響。

邊緣感知Transformer(EAFormer)

如下圖3所示,所提出的EAFormer由三個模塊組成:文本邊緣提取器、邊緣引導編碼器和文本分割解碼器。給定輸入的場景文本圖像?, 文本邊緣提取器用于獲得文本區域的邊緣??。然后, 文本圖像??和檢測到的文本邊緣??被輸入到邊緣引導編碼器中, 以提取邊緣感知特征。最后, 文本分割解碼器以編碼器生成的特征作為輸入, 生成相應的文本mask?。

文本邊緣提取器。?由于文本邊緣對場景文本分割任務至關重要, 研究者們提出了一個文本邊緣提取器以獲得文本區域的邊緣。首先,使用傳統的邊緣檢測算法Canny來獲取整個輸入圖像的邊緣??。如前所述,??中的非文本區域的邊緣可能對文本分割產生負面影響。因此,在文本邊緣提取器中引入了一個輕量級的文本檢測模型來執行邊緣過濾。具體而言, 首先使用類似ResNet的[16]主干網絡提取多級視覺特征,其中表示ResNet-like主干網絡第-層的特征(有關文本檢測主干網絡的更多細節介紹見補充材料)。然后,采用文本檢測頭來預測文本區域的mask?,可以表示為

圖片

其中,??和??分別表示??卷積層和拼接操作。借助文本區域的mask?, 可以通過對文本區域mask??和檢測到的邊緣??進行逐像素相乘,過濾掉非文本區域的邊緣。因此,文本區域的邊緣??可以通過以下方式獲得:

圖片

值得一提的是, 在進行乘法操作之前對??施加了軟argmax操作, 因為聯合優化文本檢測和分割分支可以實現更好的文本檢測性能。然后, 經過過濾的文本邊緣??被輸入到接下來的邊緣引導編碼器中, 以增強其區分文本邊緣周圍像素的能力。

邊緣引導編碼器。?由于SegFormer在語義分割中表現出色,采用它作為邊緣引導編碼器的基礎框架。如前面圖3所示,邊緣引導編碼器由四個階段組成,過濾后的文本邊緣在第一個階段被合并。每個編碼階段包含三個子模塊:重疊補丁embedding、有效自注意力和前饋網絡。重疊補丁embedding用于提取每個補丁周圍的局部特征。隨后,這些特征被輸入到自注意力層中,以挖掘像素之間的相關性。基本自注意力層的公式如下:

圖片

其中,?、?和??是通過對相同特征應用不同的embedding層獲得的。為了減少計算成本, 遵循 [43]引入了空間降維操作來處理??和??。有關空間降維的更多細節見補充材料。最后, 對于第??階段, 使用前饋網絡生成輸出特征??。與此不同的是,在第一個階段的前饋網絡之后額外引入了一個對稱交叉注意力層, 以融合提取的邊緣引導??。具體而言, 對稱交叉注意力層包括兩個交叉注意力操作, 分別在第一個階段的特征??和邊緣引導??之間進行。一方面,??被視為查詢(Query),以提取邊緣感知的視覺信息?, 其中??被視為鍵(Key)和值(Value); 另一方面,??被用作查詢(Query),進一步挖掘有用的文本邊緣信息??,其中??被視為鍵(Key)和值(Value)。

因此,第一個階段的最終輸出??可以表示為:

圖片

其中,??代表上述的自注意力操作,??表示逐像素相加。隨后,??和其他階段的輸出被輸入到文本分割解碼器中。

文本分割解碼器。?類似于之前的方法, 采用幾個MLP層來融合特征并預測最終的文本mask??。首先,通過相應的MLP層統一四個階段輸出的通道維度。然后, 這些特征被上采樣到相同的分辨率, 并通過一個MLP層進一步融合。最后, 融合后的特征用于預測文本mask。假設第??階段特征的分辨率為?, 解碼過程可以表示為:

其中,??表示MLP中輸入特征和輸出特征的通道數分別為??和??。Fuse??表示輸入特征首先被拼接在一起, 然后通過MLP層在通道維度上進行降維。

損失函數

以前的文本分割方法通常引入各種損失函數來提高性能,這可能會帶來選擇適當超參數的困難。在所提出的EAFormer中,僅使用了兩種交叉熵損失:文本檢測損失??和文本分割損失??進行優化,它們可以表示為:

圖片

其中,??是用于平衡??和??的超參數;??和??分別是??和??的真實標注。請注意, 用于??的邊界框級別監督可以從語義級別的標注中獲得, 這意味著所提出的方法與之前的方法一樣, 僅需要語義級別的標注。?

實驗

實施細節

所提出的方法使用PyTorch實現,所有實驗都在8個NVIDIA RTX 4090 GPU上進行。采用AdamW優化器,所有實驗中的初始學習率設置為,權重衰減設為0.01。批量大小設置為4。與之前的方法 [32,41,45] 一樣,在訓練階段也采用了一些數據增強操作,如隨機裁剪和翻轉。不同于現有方法使用預訓練模型來檢測文本區域或識別字符,所提出的EAFormer中的所有模塊都是聯合訓練的。換句話說,訓練EAFormer時沒有使用額外的數據集。Canny邊緣檢測的兩個閾值分別設置為100和200。為了評估所提出方法的性能,同時使用前景交并比(fgIoU)和前景像素F值。fgIoU的度量標準采用百分比格式,F值采用小數格式。

實驗結果

定量比較。?為了全面評估EAFormer,研究者們在英文和雙語文本分割數據集上進行了實驗。下表2顯示了在五個英文文本分割數據集上的實驗結果。

與之前的方法相比,EAFormer在大多數基準測試中在前景交并比(fgIoU)和F值上都有明顯的提升。例如,在TextSeg數據集上,EAFormer在fgIoU和F值上分別超越了之前的SOTA方法TextFormer ?0.64% 和0.6%。盡管原始的COCO_TS和MLT_S數據集有粗糙的注釋,所提出的EAFormer仍然能表現出更好的性能,例如在COCO_TS數據集上比 TFT 提升了7.63%的fgIoU。考慮到基于不準確注釋的實驗結果不夠令人信服,重新標注了COCO_TS和MLT_S的訓練數據集和測試數據集。基于重新標注的數據集的實驗結果顯示在下表3中。實驗表明,當使用注釋更準確的數據集進行訓練和測試時,EAFormer仍然能夠實現顯著的性能提升。與原始數據集的結果相比,重新標注數據集上的性能似乎下降了很多。

以下兩個原因可能解釋了這一現象:

  1. 數據集中有許多模糊的文本,這確實給模型處理文本邊緣帶來了挑戰;
  2. 重新標注的測試數據集更為準確,評估中沒有忽略的區域。

此外,還在雙語文本分割數據集BTS上進行了實驗,結果顯示在下表4中。盡管PGTSNet不公平地引入了一個預訓練的文本檢測器,EAFormer在fgIoU/F值上仍然能實現1.6%/2.8%的提升,這驗證了所提出方法的有效性。由于引入了一個輕量級的文本檢測頭,不可避免地增加了更多參數。評估了參數數量和推理速度。與之前的SOTA方法TextFormer(85M參數和每張圖像0.42秒)相比,所提出的模型有92M參數,平均每張圖像需要0.47秒。雖然參數數量略有增加,但本文的方法仍能顯著提升性能。

定性比較。?研究者們還通過可視化將EAFormer與之前的方法在分割質量上進行了比較。如圖5所示,所提出的EAFormer在文本邊緣的表現優于之前的方法,這得益于引入的邊緣信息。此外,對于COCO_TS和MLT_S,比較了基于原始和修改后注釋的分割結果。盡管上表3表明,當使用重新標注的數據集進行訓練和測試時,本文的方法性能有所下降,但下圖5中的可視化結果表明,本文的模型在重新標注的數據集上能夠實現更好的分割結果。

消融研究

超參數。?在訓練EAFormer時,使用了兩種損失函數進行優化。超參數??用于平衡??和??的權重,適當的??可能會帶來更好的性能。因此,進行了幾次實驗來選擇??,范圍為??,??,實驗結果見下表 5 。當??設置為 1.0 時,EAFormer在TextSeg數據集上達到了最佳性能,相比于基線模型,其fgloU/F值分別提高了??和??。表5的結果表明,當??范圍在??時,對性能的影響較小。然而,如果??設置為 0.1 ,則EAFormer的性能不佳,這可能是由于過小的??使得文本檢測模塊難以收斂,從而進一步影響文本分割的性能。因此,在本文中,將??設置為 1.0 。

邊緣過濾和邊緣引導。?在所提出的EAFormer中,文本邊緣提取器中的邊緣過濾和邊緣引導編碼器中的邊緣引導是兩個關鍵組件。為了評估這兩種策略的性能提升效果,進行了消融實驗,結果見下表6。請注意,當僅使用邊緣過濾時,提取的邊緣信息與輸入圖像拼接后輸入到基于SegFormer的編碼器中。如表6所示,引入邊緣過濾可以顯著提升性能。然而,如果僅引入邊緣引導,本文的方法性能較差。一個可能的原因是非文本區域的邊緣引入了更多的干擾信息,導致模型無法有效利用提取的邊緣來輔助文本分割。因此,邊緣過濾和邊緣引導對本文的方法都是必要的,當兩者都被采用時,EAFormer能夠實現SOTA性能。?

討論

過濾非文本區域的邊緣。?在文本邊緣提取器模塊中,提出了過濾非文本區域邊緣信息的方法,以避免這些信息對模型性能的負面影響。在消融實驗部分中,可以得知,過濾非文本區域的邊緣信息可以明顯提高性能。通過可視化(見補充材料),觀察到,當所有邊緣信息用于輔助分割時,模型會錯誤地認為具有邊緣信息的區域應該被分類為前景。因此,為了給模型提供明確的邊緣引導,所提出的方法僅保留文本區域的邊緣信息作為輸入。

在不同層引入文本邊緣。?在邊緣引導編碼器中,通過對稱交叉注意機制僅在第一階段提取增強的邊緣特征信息。眾所周知,低層特征對文本邊緣信息更為敏感。在下圖6中對不同階段的特征進行聚類結果的可視化,結果表明只有第一階段的特征關注邊緣信息。因此,在早期階段引入檢測到的邊緣是合理且有效的。還嘗試在其他階段引入邊緣引導進行實驗。實驗結果表明,檢測到的邊緣引入的階段越高,EAFormer的性能提升越小。特別是,當在第三或第四階段引入檢測到的邊緣時,EAFormer的性能甚至低于基線。

利用現成的文本檢測器。?在文本邊緣提取器中,采用了一個輕量級的文本檢測器,包括一個基于ResNet的骨干網絡和一個MLP解碼器。實際上,可以利用一個在文本檢測數據集上預訓練的現成文本檢測器,這可以幫助EAFormer在實際應用中取得更好的性能。由于這可能對之前的方法不公平,只探討了EAFormer的性能上限。在實驗中,使用預訓練的DBNet 替換輕量級文本檢測器模塊,EAFormer在TextSeg上的性能可以達到新的SOTA水平(fgIoU/F值分別為90.16%和95.2%)。

與之前邊緣引導方法的區別。?實際上,將邊緣信息融入分割中是一個被廣泛探索的策略。然而,本文的方法與之前的工作仍有一些區別。首先,BCANet和 BSNet需要邊緣監督,而本文的方法直接使用Canny提取邊緣。盡管EGCAN也使用Canny,但本文的方法額外引入了邊緣過濾以保留有用的邊緣信息,這特別為文本分割設計。此外,EGCAN在所有編碼器層中融合邊緣信息,而本文的方法通過設計的對稱交叉注意機制僅在第一層融合邊緣信息。

局限性。?為了過濾非文本區域的邊緣,引入了一個輕量級的文本檢測器,這可能會略微增加可學習參數的數量。此外,僅利用了現成的邊緣檢測算法Canny來提取文本邊緣,而沒有使用更先進的深度學習邊緣檢測方法。引入SOTA邊緣檢測方法可能會進一步提高本文方法的性能。?

結論

本文提出了邊緣感知Transformer(Edge-Aware Transformers),稱為EAFormer,以解決文本邊緣處文本分割不準確的問題。具體而言,采用傳統的邊緣檢測算法Canny來提取邊緣。為了避免涉及非文本區域的邊緣,引入了一個輕量級文本檢測模塊,用于過濾掉無用的邊緣,以進行文本分割。此外,基于SegFormer,提出了一個邊緣引導編碼器,以增強其感知文本邊緣的能力。考慮到某些數據集的低質量標注可能影響實驗結果的可信度,對這些數據集進行了重新標注。在公開可用的基準測試上進行了廣泛的實驗,SOTA結果驗證了EAFormer在文本分割任務中的有效性。

.

#SC4D

基于稀疏控制點的單視角視頻到4D生成及運動遷移框架

本篇分享論文??SC4D: Sparse-Controlled Video-to-4D Generation and Motion Transfer??,華中科技大學、阿里達摩院提出 SC4D: 基于稀疏控制點的單視角視頻到 4D 生成及運動遷移框架。

  • 項目主頁:https://sc4d.github.io/
  • 代碼倉庫:https://github.com/JarrentWu1031/SC4D
  • 論文鏈接:https://arxiv.org/abs/2404.03736

1. 背景

1.1 ?任務設置

4D生成目標在于生成一個動態的物體或場景,當給定一個時間相關的相機軌跡時,通過對得到的4D目標進行投影可以渲染出相應的動態視頻。本文針對的任務為從一個單視角視頻中生成對應的動態物體,由于輸入是單視角視頻,目標物體有大面積不可見區域,保持生成動態物體與參考視頻的高對齊度、時空一致性和動作的合理性十分具有挑戰。

1.2 相關方法

由于當下真實4D數據的稀缺,直接生成4D物體是非常困難的。得益于近兩年2D/3D基礎生成模型的發展,通過對2D/3D模型的蒸餾來實現4D生成成為當下主流的方案。Consistent4D[1],4DGen[2]通過SDS[3]方式對Zero123[4]中的先驗知識進行蒸餾,并提出了相應的約束保持時域一致性。

2. 本文方案

2.1 ?研究動機

本文認為,4D表征對于單動態物體優化過程十分重要。在早前的工作中,Consistent4D[1]和4DGen[2]分別使用動態NeRF和稠密4d高斯作為表征。

然而,由于NeRF的隱式特性,以及稠密高斯運動學習的困難性。上述工作在與參考視頻的高對齊度、時空一致性和動作的合理性上難以達到較好的平衡。

受啟發于近期的動態場景重建工作SC-GS[5],本文提出了一種基于稀疏控制點的單視角視頻到4D物體的框架SC4D,通過對動作和外觀的分離建模,減少了兩者在學習過程中的模糊性和沖突。

對于在學習過程中由于控制點和稠密高斯的不對齊導致的形狀外觀退化問題,本文提出了一種適應性高斯(AG)初始化方法以及高斯對齊(GA)損失,保證了最終4D結果的優越性。

2.2 ?Video-to-4D生成

圖片

SC4D框架分為兩階段。在第一階段,稀疏控制點會被初始化為顯式的3D高斯球體,并由一個MLP來學習每個高斯的運動。

對于參考視角,使用與參考視頻幀的重建損失以及掩碼損失進行優化。

對于隨機采樣的新視角,使用送入Zero123中計算的SDS損失對目標4D物體進行優化。該過程會學習出一個與目標視頻動作大致對齊,外觀粗糙的目標物體。

在第二階段開始前,本文發現,稠密高斯的初始化方式會很大程度上影響最終的生成效果。主要原因在于,一階段的控制高斯在二階段會轉為隱式控制點,若二階段稠密高斯初始化方式未與控制點對齊,則會導致優化初期控制點運動和形狀的效果變差。

為了解決上述問題,本文提出了一種適應性高斯(AG)初始化方法,如下圖所示:

圖片

AG 初始化對于每個一階段的控制點高斯,以其 scale 參數為半徑隨機初始化 K 個稠密高斯,這些稠密高斯保證相互不重疊。假設共有 M 個控制點,則初始化后會得到 N=M * K 個稠密高斯。

由圖中可以看到,經過 AG 初始化后的稠密高斯在開始階段就很好繼承了一階段的形狀,并與相應控制點對齊得很好。對于每個稠密高斯,其運動由其最近鄰的四個控制點的運動插值得到。

除開在第二階段初期控制點與稠密高斯不對齊導致的形狀退化問題外,最終的動態物體仍可能發生變厚、位置偏移、紋理變差等問題。

造成這些問題的原因在于,在使用SDS從Zero123中蒸餾物體新視角的先驗時,在訓練前期當加噪尺度較大時,蒸餾得到的分數會著重于對物體形狀的優化。

而在訓練后期,為了加強紋理的優化,加噪尺度的減小會導致蒸餾分數無法保持物體的正常形狀,從而導致物體變厚、位置偏移等問題。

為了解決上述問題,本文提出了一種簡單有效的損失函數:高斯對齊(GA)損失。由于一階段中不用考慮細節紋理的優化,其蒸餾所用加噪系數是相對更大的,這也使得一階段控制點的位置和運動是更能還原物體的形狀的。

對于某采樣時刻t,高斯對齊損失會計算t時刻下的當前控制點位置與第一階段對應時間的控制點位置的L2距離作為能量函數:

圖片

有了 AG 初始化和 GA 損失作為保證,最終生成的 4D 物體便擁有了合理的動作和外觀。

2.3 ?動作遷移

本文還設計了一種基于控制點的運動遷移框架,如下圖所示:

圖片

假設已經擁有Video-to-4D生成過程中得到的控制點及稠密高斯,本文固定代表運動的所有參數,并使用AG初始化得到遷移個體的初始化高斯。

隨后,以原4D物體在采樣t時刻指定視角下渲染出的深度以及對外觀的文本描述作為監督,借助Depth-Condition的ControlNet[6]計算SDS損失來優化代表外表的稠密高斯的參數。

在訓練的后半程,本文將Depth源替換為了保存的中間狀態的新4D個體,這樣能夠在最終的紋理細節和動作一致性上有更好的表現。

3. 實驗結果?

3.1 Video-to-4D生成

圖片

在Video-to-4D生成任務,本文對比了現有的兩種方法:Consistent4D以及4DGen。如上圖所示,在與參考視角的符合程度、時空一致性、動作合理度上本文提出的SC4D都要優于對比的兩種方法。

在定量對比中,SC4D同樣超過了其他兩種方法:

圖片

3.2 消融實驗

圖片

圖片

由上圖和表中可以看到,本文提出的GA損失和AG初始化都對最終結果形狀和動作的準確性有至關重要的作用?

3.3 動作遷移

圖片

以上展示了部分本文方法進行動作遷移的例子。可以看到,生成的結果擁有和目標貼合的動作,并且外觀能夠根據文本靈活切換,且效果逼真。更多的例子請見:

  • 項目主頁https://sc4d.github.io/

.

#Rotation Equivariant Arbitrary-scale Image Super-Resolution

旋轉等變性拯救任意尺度超分:西安交大等提出旋轉等變ASISR框架

本篇介紹的論文是《Rotation Equivariant Arbitrary-scale Image Super-Resolution》,它被計算機視覺頂級期刊 IEEE TPAMI 接收。該研究由西安交通大學、澳門科技大學等機構的研究者共同完成。

這項工作聚焦于任意尺度圖像超分辨率(Arbitrary-scale Image Super-Resolution, ASISR),旨在從一張低分辨率(LR)輸入中,恢復出具有任意放大倍數的高分辨率(HR)圖像。研究團隊通過將旋轉等變性(rotation equivariance)這一關鍵特性嵌入到ASISR網絡中,首次實現了從輸入到輸出的端到端旋轉等變,顯著減少了由旋轉、形變引起的圖像偽影,提升了恢復質量。該方法作為一個即插即用的模塊,可以輕松集成到現有ASISR方法中,進一步增強其性能。

  • 論文標題:Rotation Equivariant Arbitrary-scale Image Super-Resolution
  • 作者:Qi Xie, Jiahong Fu, Zongben Xu, Deyu Meng
  • 機構:西安交通大學、澳門科技大學
  • 論文地址:https://arxiv.org/pdf/2508.05160v1
  • 項目地址:https://github.com/XieQi2015/Equivariant-ASISR
  • 錄用期刊:IEEE TPAMI

研究背景與意義

任意尺度圖像超分辨率(ASISR)是近年來計算機視覺領域的一個熱門方向。它不像傳統的超分技術只能放大固定倍數(如2x, 4x),而是希望能夠靈活地將圖像放大到任意尺寸。這通常通過將圖像表示為一個連續的隱式函數來實現,其核心包括一個深度網絡編碼器(Encoder)和一個隱式神經表示(Implicit Neural Representation, INR)模塊。

ASISR總體框架說明

ASISR總體框架說明

盡管ASISR取得了長足進步,但它本質上是一個高度病態(ill-posed)的問題。在低分辨率圖像中,許多常見的幾何圖案,如重復的紋理、邊緣或形狀,會發生嚴重的扭曲和變形。這導致現有方法在恢復高分辨率圖像時,常常會產生意想不到的偽影(artifacts)。

為了解決這個問題,研究者們認為,將旋轉等變性(rotation equivariance)引入ASISR網絡至關重要。一個具備旋轉等變性的網絡,意味著當輸入圖像旋轉時,其輸出(或內部特征)也會相應地發生旋轉,而不會改變其內在結構。這種特性能夠更好地保持輸入圖像中固有幾何圖案的原始方向和結構完整性,從而生成更忠實、更自然的高分辨率結果。

下圖直觀展示了引入旋轉等變性前后的差異。對于旋轉后的輸入圖像,傳統的ASISR方法(LIIF)無法保證其輸出也相應旋轉,導致結果不一致;而增強后的方法(LIIF-EQ)則能很好地保持這種一致性。

圖片

主要研究內容與方法

受上述觀察啟發,本研究致力于構建一個旋轉等變的ASISR方法(Rot-E ASISR)。作者沒有采用簡單的數據增強策略,而是從網絡架構本身入手,精心重新設計了編碼器和INR模塊,使它們具備內生的旋轉等變能力。

圖片

該研究的核心是確保從編碼器提取特征到INR模塊解碼生成像素值的整個流程都滿足旋轉等變性。

圖片

具體的框架如下圖所示,主要包含兩個旋轉等變的核心組件:

圖片

  1. 旋轉等變編碼器 (Rot-E Encoder)?:該編碼器可以使用旋轉等變卷積網絡(Rot-E convolutions)或旋轉等變Transformer(Rot-E transformers)來構建。它確保當輸入圖像旋轉時,提取出的特征圖也進行相應的旋轉。
  2. 旋轉等變INR模塊 (Rot-E INR)?:這是實現等變性的關鍵。該模塊的輸入層、中間層和輸出層都經過特殊設計,以處理旋轉后的坐標和特征。它通過將輸入的坐標進行旋轉群(rotation subgroup)的所有元素變換,來“提升”坐標,并確保后續的全連接層(MLP)能夠保持等變特性。

此外,論文還提供了堅實的理論分析來評估其固有的等變誤差,從理論上證明了所提方法嵌入等變結構的內在特性。

圖片

在濾波器參數化的具體實現上,該方法也展示了其優越性。與Harmonic expansion (E2-CNN)等方法相比,該文提出的方法能更精確地擬合濾波器的2D函數。

圖片

實驗設計與結果

為了驗證方法的有效性,研究者在多個模擬和真實世界數據集上進行了廣泛的實驗。結果表明,與現有的SOTA(State-of-the-Art)ASISR方法相比,所提出的Rot-E ASISR在各種評估指標下均表現出優越的性能,尤其是在處理包含豐富幾何紋理和結構的圖像時,效果提升更為明顯。

一個重要的驗證是,該框架可以作為即插即用的模塊,輕松集成到當前的ASISR方法(如LIIF)中,并顯著提升它們的性能,證明了其良好的通用性和實用性。

ASISR方法

圖片

圖片

圖片

圖片

現實世界任意比例圖像SR

圖片

高光譜圖像SR泛化

圖片

圖片

熱成像SR泛化

圖片

圖片

消融結果

圖片

論文貢獻與價值

本文的主要貢獻可以總結如下:

  1. 首次提出并實現了一個端到端的旋轉等變任意尺度超分辨率(ASISR)框架,有效解決了傳統方法在處理旋轉和幾何形變時產生的偽影問題。
  2. 精心設計了旋轉等變的編碼器和INR模塊,并從理論上分析了其等變誤差,為構建等變深度學習模型提供了新的思路。
  3. 所提出的框架具有即插即用的特性,可以方便地與現有方法結合,提升其性能,具有很高的實用價值。
  4. 開源了代碼和補充材料,方便社區進行復現和進一步研究。

總而言之,這項工作為解決任意尺度超分中的幾何失真問題提供了一個優雅而有效的方案,對推動隱式神經表示在圖像恢復領域的應用具有重要意義。

#xxx

#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx
#xxx

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92458.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92458.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92458.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

慣量時間常數 H 與轉動慣量 J 的關系解析

慣量時間常數 H 與轉動慣量 J 的關系解析 在電力系統穩定分析、旋轉機械動力學等領域,慣量時間常數(H) 和 轉動慣量(J) 是描述旋轉體慣性特性的兩個核心參數。二者雖然出發點不同,但在數學和物理層面具有緊…

DeepSeek-V3/R1 架構深度剖析:國產大模型的創新突圍之路

本文深入解析 DeepSeek-V3/R1 的核心架構設計,揭示其如何在模型效率、推理性能與知識處理等維度實現突破,成為中文大模型領域的標桿之作。 引言:大模型競技場中的"中國速度" #mermaid-svg-9Kk7tHp57CilWIFU {font-family:"trebuchet ms",verdana,arial,…

【從0到1制作一塊STM32開發板】5. 整體布局

在之前的學習中,我偏向的多是嵌入式軟件開發的工作,如果想要自己diy一款具備特定功能的嵌入式工具的話,還需要具備畫板子的能力。但由于我目前還沒學模電,故我打算直接找個b站的學習視頻先跟著畫個板子出來,簡單理解各…

nflsoi 8.8 題解

感覺這把難,不過今天狀態比較差,頭昏昏的。怎么后面幾道藍題別人光速切掉了?不過賽后再來看感覺也不算特別麻煩的題目。 C.#11698 雙循環錦標賽 / TopCoder 10687 The Basketball Div One 題意 約翰與布魯斯對團體體育賽事頗有研究&#xff0…

面向真實場景的定制化圖像降質模型設計方案

面向真實場景的定制化圖像降質模型設計方案 1. 核心思路:從真實圖像中學習退化模型 1.1 問題定義:合成數據與真實數據的域差距 在超分辨率(Super-Resolution, SR)算法的實際應用中,一個核心挑戰源于訓練數據與真實測…

計算機網絡:一個 IP 地址可以同時屬于 A 類、B 類或 C 類嗎?

一個IP地址不可以同時屬于A類、B類或C類。A類、B類、C類IP地址的劃分有明確的規則,通過網絡位的最高幾位即可唯一確定其類別,不存在重疊的可能。 IP地址分類的核心規則(針對IPv4) IPv4地址由32位二進制數組成,通常分為…

利用哥斯拉(Godzilla)進行文件上傳漏洞滲透實戰分析

利用哥斯拉(Godzilla)進行文件上傳漏洞滲透實戰分析本實驗通過DVWA靶機環境演示如何利用哥斯拉工具進行文件上傳漏洞的滲透測試,最終獲取目標服務器控制權限。實驗環境 攻擊工具:哥斯拉(Godzilla) v4.0.1靶機地址:http://192.168.3.101/dvwa目…

MMBFJ310LT1G一款N溝道JFE 晶體管適用于高頻放大器和振蕩器等射頻應用MMBFJ310LT1

MMBFJ310LT1G 是一款 N溝道JFET晶體管 ,適用于高頻放大器和振蕩器等射頻應用。以下是其核心性能參數:基本參數 ??漏源擊穿電壓?:25V ??柵源擊穿電壓?:25V ??漏源電流(Vgs0V)?:24mA至60…

【洛谷題單】--分支結構(二)

🔥個人主頁:草莓熊Lotso 🎬作者簡介:C研發方向學習者 📖個人專欄: 《C語言》 《數據結構與算法》《C語言刷題集》《Leetcode刷題指南》 ??人生格言:生活是默默的堅持,毅力是永久的…

Django模型開發全解析:字段、元數據與繼承的實戰指南

目錄 一、字段類型:精準匹配業務需求 1. 字符型字段的“長短之爭” 2. 數值型字段的“范圍控制” 3. 時間日期型字段的“自動記錄” 4. 布爾型字段的“三態處理” 5. 文件字段的“存儲策略” 二、元數據:控制數據庫與行為的“幕后玩家” 1. 數據…

使用 Grunt 替換 XML 文件中的屬性值

使用 Grunt 替換 XML 文件中的屬性值 在 Grunt 中替換 XML 文件的屬性值可以通過幾種方式實現,以下是詳細的解決方案: 方法1:使用 grunt-xmlpoke 插件(推薦) 1. 安裝插件 npm install grunt-xmlpoke --save-dev2. 配置…

docker緩存目錄轉移設置和生效過程

docker緩存目錄默認在系統盤/var/lib/docker,存在系統盤打滿,導致系統崩潰問題。 這里嘗試將docker緩存目錄轉移到數據存儲盤/store/docker。 1 查看現有緩存目錄 docker info 一般情況下是 Docker Root Dir: /var/lib 2 停止服務 systemctl stop dock…

滴滴云原生可觀測 HUATUO 開源項目正式入駐 CCF

8月2日,滴滴宣布其開源云原生操作系統可觀測性項目HUATUO正式入駐中國計算機學會(CCF),加入其重點孵化項目序列。本次入駐不僅體現了滴滴長期踐行開源共建共享的理念,也希望通過行業協作,共同推動可觀測領域…

python學智能算法(三十二)|SVM-軟邊界理解

【1】引言 前序學習進程中,已經對SVM的KKT條件,Slater條件等進行了探究,但這些都是完美情況,數據線性可分。 實際生活中需要處理的數據往往因為各式各樣的原因會不可分,所以必須學會容忍一些小錯誤,完美的…

實名認證 —— 騰訊云駕駛證識別接口

官方地址: API Explorer - 云 API - 控制臺https://console.cloud.tencent.com/api/explorer?Productocr&Version2018-11-19&ActionDriverLicenseOCR前置操作與下面博客前置操作一致:實名認證 —— 騰訊云身份證認證接口-CSDN博客 首先編寫Con…

科技云報到:Agent應用爆發,誰成為向上托舉的力量?

科技云報道原創。經過兩年多的發展后,AI開始加速進入Agent時代。當AI從“被動響應”邁向“主動決策”,AI Agent正成為連接數字世界與物理世界的核心樞紐。從自動處理客戶服務工單的企業Agent,到協調多步驟科研實驗的學術Agent,再到…

Python字典高階操作:高效提取子集的技術與工程實踐

引言:字典子集提取在現代數據處理中的關鍵作用在Python數據工程領域,字典結構作為核心數據載體占比高達68%(2025年Python生態調查報告)。字典子集提取作為高頻操作,在以下場景中至關重要:??API響應處理?…

Java學習進階--集合體系結構

Java 集合框架 (java.util 包) 是 Java 中用于存儲和操作數據集合的核心組件,其設計精良、功能強大且高度靈活。理解其體系結構是 Java 進階的關鍵一步。一.集合的核心思想接口與實現分離集合框架的核心在于接口定義了行為規范,而具體實現類提供了不同的…

【Unity】Unity中的StreamingAssets文件夾

目錄前言核心特性1. 文件保留原始格式2. 只讀訪問3. 平臺兼容性不同平臺下的路徑一、使用1、讀寫2、使用UnityWebRequest讀取二、AB讀取的特例三、注意事項前言 StreamingAssets 文件夾是Unity項目中的一個特殊目錄,用于存放需要在運行時訪問的資源文件。這個文件夾…

[windows]torchsig 1.1.0 gr-spectrumdetect模塊安裝

問題 按照提供的readme git clone https://github.com/TorchDSP/torchsig.git cd torchsig pip install . cd gr-spectrumdetect mkdir build cd build cmake ../ make install cd ../examples/ bash trained_model_download.sh gnuradio-companion example.grc &安裝總是出…