微軟具身智能感知交互多面手!Magma:基于基礎模型的多模態AI智能體

  • 作者: Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, MuCai, SeonghyeonYe, JoelJang, Yuquan Deng, Lars Liden, Jianfeng Gao

  • 單位:微軟研究院,馬里蘭大學,威斯康星大學麥迪遜分校,KAIST,華盛頓大學

  • 論文標題:Magma: A Foundation Model for Multimodal AI Agents

  • 論文鏈接:https://www.arxiv.org/pdf/2502.13130

  • 項目主頁:https://microsoft.github.io/Magma/

  • 代碼鏈接:https://github.com/microsoft/Magma

主要貢獻

圖片

  • Magma不僅具備多模態理解能力,還具備在數字和物理環境中進行智能體任務所需的時空推理能力的模型,能夠處理來自不同領域(包括數字和物理)的多模態輸入。

  • 提出Set-of-Mark(SoM)和Trace-of-Mark(ToM)來顯著增強模型的時空智能,以便進行動作對齊和規劃,使得Magma能夠在大量異構數據集上進行有效預訓練。

  • 創建了大規模的預訓練數據集,包含來自開源視覺語言數據集、UI數據、機器人數據和人類教學視頻的多樣化樣本,為模型的廣泛任務適應提供了基礎。

  • 通過廣泛的實驗驗證,Magma在多個任務上表現出色,特別是在UI導航和機器人操作任務上達到了SOTA。

研究背景

研究問題

近年來,基于視覺-語言-動作(VLA)模型的AI智能體引起了廣泛關注,但這些模型通常針對特定任務進行訓練,導致在不同環境和任務之間的泛化能力有限。

本文的任務是開發能夠感知視覺刺激、語言輸入和其他環境數據的自主智能體,并在物理和數字環境中產生有意義的具身動作以完成特定任務。

研究難點

該問題的研究難點包括:

  • 不同環境(如2D數字世界和3D物理世界)之間的固有差異;

  • 如何有效地將視覺語言理解能力(言語智能)與視覺空間世界中的規劃和行動能力(時空智能)結合起來。

相關工作

  • 大模型(LMMs)

    • 論文介紹了LLMs和結合視覺數據的模型,如GPT-4V(ision)和LLaVA等。

    • 這些模型通過結合視覺數據和語言模型的能力,在多模態任務上取得了顯著進展。

    • 近年來,研究人員開發了多種LMMs來處理更廣泛的任務和模態。

  • 數字世界中的UI智能體

    • 討論了設計自主GUI智能體以代替人類用戶執行任務的研究。這方面的工作包括訓練端到端模型直接預測下一個動作,以及利用現有的多模態模型(如GPT-4V)來執行用戶任務。

    • 這些方法通常依賴于DOM信息或視圖層次結構來獲取屏幕上可交互元素的精確位置。

  • 機器人領域的視覺-語言-動作(VLA)

    • 探討了幾項研究,這些研究調查了LMMs在機器人中的應用。這些研究包括在機器人軌跡數據上微調LMMs,以輸出離散的機器人動作token。

    • RT-2、OpenVLA、LLARVA和TraceVLA等工作展示了如何通過視覺軌跡預測和視覺軌跡提示來提高機器人的時空感知能力。

圖片

多模態智能體建模

問題定義

定義了一個通用的多模態AI智能體的問題框架,能夠處理過去視覺觀察和文本任務描述,并輸出一組token作為其響應。多模態AI智能體的定義如下:

其中:

  • 是過去的一系列視覺觀察(例如圖像序列)。

  • 是一個文本描述的任務。

  • 表示上下文信息。

  • 表示第 個token 是語言token還是空間token。

該框架適用于不同的任務,具體如下:

  • UI導航:在2D屏幕截圖中,任務可能是“預訂酒店”,輸出應包括表示動作語義類型的token(例如“type”、“click”等)以及動作應用的位置( 或 )。

  • 機器人操作:在3D世界中,任務可能是“關閉抽屜”,輸出包括末端執行器的6-DoF位移(),在某些情況下還包括一個額外的維度來指示夾持器是否打開。

  • 多模態理解任務:當任務僅涉及時(例如VQA任務),問題被簡化為生成輸入圖像/視頻的文本描述和/或對象位置的多模態理解任務。

輸出表示

  • 為了便于模型學習,論文將所有輸出轉換為文本token。具體來說,他們將2D動作轉換為文本字典,并使用LLMs中很少使用的最后256個離散語言token來表示機器人動作。

  • 盡管如此,不同任務之間仍存在顯著的沖突,并在實驗中展示了如何緩解這些挑戰以在廣泛的訓練數據上訓練智能體。

方法

該部分討論了構建多模態AI智能體基礎模型的兩個關鍵挑戰:預訓練目標(Pretraining objectives)和數據擴展(Data scaling-up)。

  • 預訓練目標(Pretraining Objectives)

    • 論文面臨如何創建統一的預訓練接口以促進聯合訓練的挑戰。直接預測UI導航的2D坐標和機器人任務的3D位置存在領域差距。

    • 為了解決這個問題,提出使用Set-of-Mark(SoM)提示。SoM用于在圖像上實現動作對齊,簡化了任務并幫助模型預測可操作點的數值token。

  • 數據擴展(Data Scaling-up)

    • 現有的視覺-語言-動作數據集數量有限且缺乏多樣性。

    • 論文提出使用Trace-of-Mark(ToM)來擴展數據集。ToM通過在視頻中預測未來軌跡來增強模型的能力,幫助模型理解時間動態并從原始視頻中獲取動作監督。

通過結合SoM和ToM,能夠在不同類型的任務之間實現無縫協同,并有效地擴展數據集。

Set-of-Mark (SoM)

SoM 是一種提示策略,用于增強模型在圖像上的動作對齊能力。

  • 輸入處理:給定一個圖像觀察值 和任務描述 ,模型首先提取一組候選區域或點 ,這些區域或點是可操作的(例如,可點擊的按鈕或機器人手臂的位置)。

  • token疊加:在圖像上疊加token和框(如果有的話),并用數值標簽token這些位置,形成一個新的token圖像 。

  • 輸出生成:模型需要選擇候選token并給出原始坐標,以便于動作對齊。公式表示為: 其中, 是 的子集。

  • 應用場景:SoM適用于UI截圖、機器人操作和人類視頻等多種場景。通過使用不同的網絡(如圖像分割模型、目標檢測模型)來獲取候選區域,模型可以有效地進行動作對齊。

Trace-of-Mark (ToM)

ToM 是一種從視頻中學習動作規劃的方法,通過預測未來的動作軌跡來增強模型的時間動態理解能力。具體方法如下:

  • 輸入處理:給定一個視頻序列的視覺觀察值 ,模型沿時間軸擴展到未來 幀,形成未來幀序列 。

  • 軌跡提取:在當前幀 的 個token中,提取未來 幀中對應位置的軌跡 。

  • 輸出生成:模型不僅需要預測動作類型和有效token,還需要預測有效token的未來軌跡: 其中, 是 的軌跡序列的子集。

  • 應用場景:ToM通過預測未來的動作軌跡,幫助模型在視頻數據中學習動作規劃。這種方法不僅減少了token的數量,還能捕捉更長的時間動態和動作相關的對象動態。

智能體模型

  • 為了保留Magma所需的多模態理解能力,視覺觀察通過視覺編碼器編碼后,與語言token一起輸入到一個解碼器中。

  • 視覺編碼器采用ConvNeXt,支持任意圖像分辨率的編碼。

  • 最終的智能體建模被描述為一個自回歸解碼過程,模型根據視覺輸入和語言任務描述生成輸出token。

多模態智能體預訓練

數據集

為了開發一個具有語言和空間智能的基礎模型,能夠處理多種智能體任務,論文從廣泛的圖像、視頻和機器人領域中收集了一個綜合的預訓練數據集。

機器人操作數據
  • 來源:遵循OpenVLA的研究方法,使用Open-X-Embodiment的數據集。

  • 內容:包含用于機器人任務的9.4百萬個圖像-語言-動作三元組,這些三元組是從326K條軌跡中提取的。

UI導航數據
  • 來源:利用兩個預訓練數據集,SeeClick和Vision2UI。

  • 內容:包括用于UI導航的屏幕截圖和相關標注。

指導性視頻
  • 來源:編輯ic-Kitchen、Ego4d、Something-Something v2和其他相關指導性視頻,這些視頻提供豐富的粗粒度目標驅動的人類動作。

  • 內容:包含大量的人類日常活動視頻片段,用于學習智能體模型的執行能力。

多模態理解數據
  • 來源:包括ShareGPT4V的1.2百萬個合成圖像-文本對,以及LLaVA-1.5的665K圖像指令調整數據。

  • 內容:用于保留基礎模型的通用多模態理解能力。

SoM和ToM生成

SoM用于UI導航
  • 應用:應用于所有UI數據以學習統一的動作定位。

  • 生成:基于DOM樹和Android視圖層次結構提取邊界框,并在圖像上繪制token。

SoM和ToM用于視頻和機器人數據
  • 應用:使用token和軌跡作為替代動作監督來預訓練Magma模型,用于動作定位和規劃。

  • 生成:使用點跟蹤模型CoTracker從視頻段中提取未來軌跡,并應用同源變換去除全局運動。

預訓練

通過上述數據集和標注,創建了一個全面的預訓練套件,涵蓋了不同的數字和物理環境、語言和空間標注以及各種多模態理解和智能體任務。

數據集規模
  • UI導航:約2.7百萬個UI導航屏幕截圖。

  • 機器人操作:970K條軌跡,包含9.4百萬個圖像-語言-動作三元組。

  • 視頻:超過25百萬個樣本,來自約4百萬個一致的短視頻片段。

  • 多模態理解:1.2百萬個圖像和文本對。

預訓練架構
  • 默認設置:使用LLaMA-3-8B作為語言骨干網絡,ConvNext-XXlarge作為視覺骨干網絡。

  • 訓練:使用Magma-SFT(820K)進行最多三輪預訓練,學習率為1e-5。

實驗

zero-shot評估

zero-shot評估旨在驗證Magma模型在不經過特定任務微調的情況下,能否在多種智能體任務上表現出色。研究者們在不同的基準測試上評估了Magma的zero-shot遷移能力。

UI導航
  • 數據集:使用ScreenSpot和VisualWebBench評估UI動作定位和導航。
    • ScreenSpot:用于評估UI動作定位,包含iOS、Android、macOS、Windows和網頁的屏幕截圖。

    • VisualWebBench:用于評估網頁UI的理解和導航。

  • 結果:Magma在UI導航任務上顯著優于其他通用領域的多模態模型和特定領域的智能體模型。特別是,Magma在屏幕截圖上的表現比使用GPT-4V和OmniParser的方法更好。

機器人操作
  • 數據集:使用SimplerEnv評估機器人操作。
    • SimplerEnv:包含多個機器人操作任務,用于評估機器人在模擬環境中的操作能力。

  • 結果:Magma在機器人操作任務上表現出色,成功率顯著高于其他模型,尤其是在復雜任務中。

多模態理解
  • 數據集:在VQA任務上評估模型的通用性和文本豐富性。
    • VQAv2:用于評估視覺問答任務。

    • POPE:用于評估對象幻覺任務。

  • 結果:Magma在多模態理解任務上也表現出色,優于其他模型。

高效微調

高效微調部分展示了通過適度微調,預訓練的Magma模型如何輕松轉移到各種下游智能體任務。

UI導航
  • 數據集:在Mind2Web和AITW上微調,評估網頁和移動UI導航能力。
    • Mind2Web:用于評估文本驅動的網頁UI導航。

    • AITW:用于評估Android UI導航。

  • 結果:Magma在UI導航任務上優于開源或商業模型,顯示出其在實際應用中的強大能力。

機器人操作
  • 數據集:在真實機器人數據和模擬環境中微調,評估任務適應能力和泛化能力。
    • 真實機器人:在WidowX機器人上評估復雜的多任務操作。

    • 模擬環境:在LIBERO基準測試上評估任務適應能力。

  • 結果:Magma在真實機器人操作任務中表現出色,能夠處理復雜的日常對象操作任務,并且在未見過的任務上也能保持良好的泛化能力。

空間推理能力

論文認為,Magma模型在UI導航和機器人操作任務上表現出的改進性能,主要是由于其空間推理能力的提高。

為了驗證這一點,論文在幾個具有挑戰性的空間推理基準測試上評估了Magma模型的效果。

基準測試

使用了幾個基準測試來評估Magma模型的空間推理能力:

  • VSR:是評估模型在視覺場景中進行空間推理的能力的基準測試。在zero-shot設置下評估了Magma模型,并與其他方法進行了比較。

  • BLINK:是多模態語言模型基準測試,專注于評估模型在視覺-語言任務中的感知能力。論文展示了Magma模型在沒有特定指令微調的情況下,在BLINK數據集上的表現。

  • SpatialEval:是綜合性的空間推理基準測試,涵蓋了多種空間推理任務。論文在zero-shot設置下評估了Magma模型,并與其他方法進行了比較。

結果分析

  • Magma的表現

    • 在VSR和SpatialEval基準測試上,Magma模型顯著優于現有的方法,顯示出其在空間推理任務上的強大能力。

    • 盡管Magma模型在預訓練時只使用了大約2900萬張圖像,但在這些基準測試上的表現與使用1.5億張圖像進行預訓練的CogVLM相當。

  • 消融研究

    • 論文還進行了消融研究,以驗證SoM和ToM預訓練任務對提高Magma模型空間推理能力的效果。

    • 結果表明,使用SoM和ToM進行預訓練顯著提高了Magma模型在空間推理任務上的表現。

    • 此外,論文還發現,去除訓練數據中的視頻會導致BLINK任務上的性能下降約8%,這進一步證明了視頻數據在預訓練中的重要性。

結論
  • 通過這些評估,證明Magma模型在空間推理任務上的優異表現主要歸功于其在預訓練過程中通過SoM和ToM任務獲得的空間推理能力的提升。

  • 這些結果表明,Magma模型不僅在多模態理解任務上表現出色,而且在需要復雜空間推理的任務上也具有強大的能力。

接下來主要關注評估Magma模型在多模態理解任務上的表現,通過一系列基準測試來驗證Magma在處理多模態輸入(如圖像和視頻)時的能力。

圖像理解任務

論文通過連續微調的方式,評估Magma在圖像理解任務上的表現,并將其與其他現有的多模態模型進行比較。

數據集
  • MME(Multimodal Multiple Choice):用于評估模型在多模態選擇題任務上的表現。

  • GQA(Generic Question Answering):用于評估模型在通用視覺問答任務上的表現。

  • ChartQA:用于評估模型在圖表理解任務上的表現。

結果
  • MME和GQA:Magma在大多數任務上優于最近提出的多模態模型,顯示出其在多模態理解任務上的優勢。

  • ChartQA:Magma在圖表理解任務上取得了顯著的提升,特別是在需要復雜邏輯推理的任務上。

預訓練任務的影響
  • SoM和ToM的貢獻:研究者的消融實驗表明,使用SoM和ToM進行預訓練任務有助于提高Magma在多模態理解任務上的表現,特別是在圖表理解任務上。

視頻理解任務

在多個視頻理解任務上評估了Magma的表現,以驗證其在處理動態多模態輸入時的能力。

數據集
  • IntentQA:用于評估模型在視頻意圖識別任務上的表現。

  • NextQA:用于評估模型在視頻上下文理解任務上的表現。

  • VideoMME:用于評估模型在視頻多模態任務上的表現。

  • MVBench:用于評估模型在多模態視頻理解任務上的表現。

結果
  • 視頻任務:Magma在大多數視頻任務上優于現有的最先進模型,顯示出其在處理視頻數據時的競爭力。

  • 視頻任務的優勢:Magma在視頻任務上的表現優于LongVA等模型,盡管其使用的視頻和文本數據量較小。

預訓練任務的影響
  • ToM的貢獻:研究者的實驗表明,ToM預訓練任務有助于提高Magma在視頻任務上的表現,特別是在動作預測和序列生成任務上。

討論

該部分討論了Magma模型的社會影響、局限性以及負責任的人工智能(Responsible AI)方面的考慮。

社會影響和局限性

為了開發一個具有語言和空間智能的多模態基礎模型,能夠處理數字和物理環境中的多樣化任務,論文從廣泛的圖像、視頻和機器人領域中整理了一個綜合的預訓練數據集。具體來說:

  • UI導航數據:使用了兩個預訓練數據集SeeClick和Vision2UI。

  • 教學視頻:為了學習能夠執行日常任務的智能體模型,論文編譯了來自Epic Kitchen、Ego4d、Something-Something v2和其他教學視頻的數據。

  • 機器人操作數據:遵循OpenVLA的方法,利用Open-X-Embodiment中的機器人數據。

  • 多模態理解數據:包括少量的多模態預訓練數據ShareGPT4V,以及LLaVA-1.5和其他特定領域的指令調整數據,以保留預訓練模型的通用多模態理解能力。

盡管如此,教學視頻中的人物身份和活動分布并不代表全球人類人口和社會的多樣性。意識到使用這些數據進行訓練可能會引入無意的性別、種族和其他偏見。因此,論文將在發布模型時確保有必要的免責聲明,并強調模型的使用場景和預期用途。

負責任的AI

  • 論文強調,模型專門設計用于在受控的Web UI和Android模擬器中進行UI導航,以及在機器人操作任務中使用。

  • 建議的使用場景應限于被訓練的環境,即配備有機器人臂和日常物品的封閉環境,以及運行在計算機上的Android模擬器進行UI操作。

  • 對于UI導航任務,研究人員應確保人類始終在控制中,對智能體系統生成的每個動作進行監督。由于模型本身不能自行行動,研究人員使用的子模塊在執行UI導航動作時應確保不會因執行模型提出的UI動作而導致意外后果。

  • 論文還提到,盡管模型在UI導航和機器人操作方面表現出色,但作為產品不可用于剝削性場景。恐怖威脅者可能將模型作為自動化UI導航的基礎,利用特定的訓練數據來針對特定惡意任務進行訓練。這是與智能體模型相關的通用風險。

總結

  • 論文提出了Magma,第一個能夠在數字和物理世界中理解和執行多模態輸入的基礎模型。

  • 通過引入SoM和ToM技術,Magma顯著增強了時空智能,并在多個任務上取得了新的SOTA結果。

  • 該模型的訓練數據集廣泛且多樣,涵蓋了圖像、視頻和機器人領域的多種數據類型,確保了模型的泛化能力。

  • 總體而言,Magma為多模態AI智能體的發展提供了一個強大的基礎模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896838.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896838.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896838.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux中jdk-8u291-linux-x64 中jdk工具包

jdk-8u291-linux-x64 指的是適用于 64 位 Linux 系統的 Java 開發工具包(JDK)8 更新 291 版本。這是 JDK 的一個特定版本,用于開發 Java 應用程序和小程序。 jdk-8u291-linux-x64 網盤下載鏈接:夸克網盤分享

Baklib云內容中臺的核心架構是什么?

云內容中臺分層架構解析 現代企業內容管理系統的核心在于構建動態聚合與智能分發的云端中樞。以Baklib為代表的云內容中臺采用三層架構設計,其基礎層為數據匯聚工具集,通過標準化接口實現多源異構數據的實時采集與清洗,支持從CRM、ERP等業務…

17.3 LangSmith Evaluation 深度解析:構建數據驅動的模型優化體系

LangSmith Evaluation 深度解析:構建數據驅動的模型優化體系 關鍵詞:模型評估體系、自動化測試框架、業務指標對齊、A/B測試集成、生產級質量監控 1. Evaluation 核心功能全景 1.1 評估維度矩陣 維度評估指標示例采集方式質量評估準確率、相關性評分、事實性檢查人工標注+A…

華為 VRP 系統簡介配置SSH,TELNET遠程登錄

華為 VRP 系統簡介&配置TELNET遠程登錄 1.華為 VRP 系統概述 1.1 什么是 VRP VRP(Versatile Routing Platform 華為數通設備操作系統)是華為公司數據通信產品的通用操作系統平臺,從低端到核心的全系列路由器、以太網交換機、業務網關等…

算法基礎 -- 字符串哈希的基本概念和數學原理分析

字符串哈希的基本概念和數學原理分析 1. 字符串哈希的定義和基本概念 哈希函數的定義 哈希函數(Hash Function)是一種將任意長度的輸入映射為固定長度輸出的函數。對于字符串而言,哈希函數通過某種算法將字符串轉換成一個整數,…

從新加坡《Companion Guide on Securing AI Systems 》看可信AI全生命周期防護框架構建

從新加坡《AI系統安全指南配套手冊》看可信AI全生命周期防護框架構建 一、引言 1.1 研究背景與意義 近年來,人工智能(AI)技術以前所未有的速度蓬勃發展,已然成為推動各行業變革與創新的核心驅動力。從醫療領域輔助疾病診斷,到金融行業的風險預測與智能投顧,再到交通領…

C++學習之C++初識、C++對C語言增強、對C語言擴展

一.C初識 1.C簡介 2.第一個C程序 //#include <iostream> //iostream 相當于 C語言下的 stdio.h i - input 輸入 o -output 輸出 //using namespace std; //using 使用 namespace 命名空間 std 標準 &#xff0c;理解為打開一個房間&#xff0c;房間里有我們所需…

HTMLS基本結構及標簽

HTML5是目前制作網頁的核心技術&#xff0c;有叫超文本標記語言。 基本結構 聲明部分位于文檔的最前面&#xff0c;用于向瀏覽器說明當前文檔使用HTML標準規范。 根部標簽位于聲明部分后&#xff0c;用于告知瀏覽器這是一個HTML文檔。< html>表示文檔開始&#xff0c;&l…

eMMC存儲器詳解(存儲區域結構、EXT_CSD[179]、各分區介紹、主要引腳、命令格式與類型等)

讀本篇博文所需要的先行知識 關于芯片內部的ROM的作用、工作原理的介紹&#xff0c;鏈接如下&#xff1a; https://blog.csdn.net/wenhao_ir/article/details/145969584 eMMC的物理結構、特點、用途 這個標題的相關內容見我的另一篇博文&#xff0c;博文鏈接如下&#xff1a…

分布式鎖—2.Redisson的可重入鎖一

大綱 1.Redisson可重入鎖RedissonLock概述 2.可重入鎖源碼之創建RedissonClient實例 3.可重入鎖源碼之lua腳本加鎖邏輯 4.可重入鎖源碼之WatchDog維持加鎖邏輯 5.可重入鎖源碼之可重入加鎖邏輯 6.可重入鎖源碼之鎖的互斥阻塞邏輯 7.可重入鎖源碼之釋放鎖邏輯 8.可重入鎖…

iOS實現一個強大的本地狀態記錄容器

我們開發中經常會遇到這樣的場景&#xff0c;就是我們客戶端用戶進行了某個操作&#xff0c;這個操作影響了數據的狀態&#xff0c;但是我們又不方便重新請求一次數據&#xff0c; 這個時候&#xff0c;就需要我們記錄一下本地狀態在內存中&#xff0c;隨著業務越來越復雜&…

vue中帶$的是什么

在Vue.js中&#xff0c;帶的 $ 符號用于表示 Vue實例的屬性和方法。 這些屬性和方法是Vue框架內部定義的&#xff0c;主要用于方便開發者在組件內部訪問和使用。 常見的帶$的屬性和方法: ?$data?&#xff1a;用于訪問組件的內部數據對象&#xff0c;包含組件內定義的所有響…

杰和科技工業整機AF208|防塵+靜音+全天候運行

在特殊的工業環境中&#xff0c;實現快速生產離不開各類工業計算機的強大支持。杰和科技工業計算機AF208&#xff0c;作為核心控制單元&#xff0c;憑借其堅固可靠的外殼、先進的散熱技術以及緊湊靈活的部署特點&#xff0c;發揮著關鍵作用。 硬實力外殼&#xff0c;無懼塵埃 …

【django】模型部署過程

模型部署 示例&#xff1a;保存 Scikit-learn 模型myapp/views.py全局加載模型tasks.py&#xff08;Celery任務&#xff09;views.py 修改為異步調用views.py 準備工作 模型保存格式 確保你的模型已保存為可加載的格式&#xff1a; ● TensorFlow/Keras&#xff1a;.h5 或 Save…

一、計算機網絡技術——概述、性能指標

網絡技術發展歷程 第一階段 一九六九年美國國防部研制的ARPANET&#xff0c;采用“接口報文處理機”將四臺獨立的計算機主機互聯在一起&#xff0c;實現數據的轉發。 這一階段的主要特點是TCP/IP協議初步成型 第二階段&#xff1a; 采用三級結構&#xff0c;這一階段的主要…

【向量數據庫Weaviate】與ChromaDB的差異、優劣

以下是 Weaviate 和 ChromaDB 的詳細對比&#xff0c;涵蓋設計目標、核心功能、性能、適用場景及優劣勢分析&#xff1a; 1. 核心定位與設計目標 維度WeaviateChromaDB類型向量數據庫 圖數據庫&#xff08;支持混合搜索&#xff09;輕量級純向量數據庫&#xff08;專注嵌入存…

Lua | 每日一練 (4)

&#x1f4a2;歡迎來到張胤塵的技術站 &#x1f4a5;技術如江河&#xff0c;匯聚眾志成。代碼似星辰&#xff0c;照亮行征程。開源精神長&#xff0c;傳承永不忘。攜手共前行&#xff0c;未來更輝煌&#x1f4a5; 文章目錄 Lua | 每日一練 (4)題目參考答案線程和協程調度方式上…

Fiji —— 基于 imageJ 的免費且開源的圖像處理軟件

文章目錄 一、Fiji —— 用于科學圖像處理和分析1.1、工具安裝&#xff08;免費&#xff09;1.2、源碼下載&#xff08;免費&#xff09; 二、功能詳解2.0、Fiji - ImageJ&#xff08;Web應用程序&#xff09;2.1、常用功能&#xff08;匯總&#xff09;2.2、Fiji - Plugins&am…

PyQT(PySide)的上下文菜單策略設置setContextMenuPolicy()

在 Qt 中&#xff0c;QWidget 類提供了幾種不同的上下文菜單策略&#xff0c;這些策略通過 Qt::ContextMenuPolicy 枚舉類型來定義&#xff0c;用于控制控件&#xff08;如按鈕、文本框等&#xff09;在用戶右鍵點擊時如何顯示上下文菜單。 以下是 Qt::ContextMenuPolicy 枚舉中…

快慢指針【等分鏈表、判斷鏈表中是否存在環】

一、等分鏈表&#xff1a;找到鏈表的中間節點 Java 實現 class ListNode {int val;ListNode next;ListNode(int val) {this.val val;this.next null;} }public class MiddleOfLinkedList {public ListNode findMiddleNode(ListNode head) {if (head null) {return null;}L…