【讀代碼】GLM-4.1V-Thinking:開源多模態推理模型的創新實踐

一、基本介紹

1.1 項目背景

GLM-4.1V-Thinking是清華大學KEG實驗室推出的新一代開源視覺語言模型,基于GLM-4-9B-0414基礎模型構建。該項目通過引入"思維范式"和強化學習課程采樣(RLCS)技術,顯著提升了模型在復雜任務中的推理能力。其創新點包括:

  • 64k超長上下文支持:可處理長達64k token的輸入序列
  • 4K分辨率處理:支持任意縱橫比的圖像輸入
  • 多模態推理強化:在數學推理、長文本理解等18項基準測試中超越72B參數模型
  • 中英雙語支持:原生支持中文和英文的混合輸入

1.2 技術定位

與同類模型(如CogVLM2、Qwen-VL)相比,GLM-4.1V-Thinking實現了三大突破:

# 模型能力對比示意
models = {

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/88252.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/88252.shtml
英文地址,請注明出處:http://en.pswp.cn/web/88252.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

從代碼生成到智能運維的革命性變革

AI大模型重塑軟件開發:從代碼生成到智能運維的革命性變革 希望對大家有一定的幫助,進行參考 目錄AI大模型重塑軟件開發:從代碼生成到智能運維的革命性變革 希望對大家有一定的幫助,進行參考一、范式轉移:軟件開發進入&…

豆包編寫Java程序小試

今天下載了一本第四版電氣工程師手冊,非常棒的一本書,在給PDF添加目錄的時候,由于目錄有將近60頁,使用老馬開發的PdgCntEditor有點卡頓,不過補充下,老馬這個PdgCntEditor還是非常好的。所以我決定用Java編一…

SpringBoot整合騰訊云新一代行為驗證碼

一 產品介紹 騰訊云官方介紹鏈接 騰訊云新一代行為驗證碼(Captcha),基于十道安全防護策略,為網頁、App、小程序開發者打造立體、全面的人機驗證。在保護注冊登錄、活動秒殺、點贊發帖、數據保護等各大場景下業務安全的同時&…

SenseGlove新一代外骨骼力反饋手套Rembrand來襲!亞毫米級手部動捕+指尖觸覺力采集+5Dof主動力反饋多模態

在遠程機器人操作領域,精準的觸覺感知與靈活的動作控制始終是核心需求。SenseGlove 新推出的 Rembrandt 力反饋外骨骼數據手套,以先進技術為支撐,為遠程操控人形機器人手部提供了無縫解決方案,讓操作更精準、更高效。值得一提的是…

Linux 信號機制:操作系統的“緊急電話”系統

想象一下,你正在電腦前專心工作,突然手機響了——這是一個通知,要求你立即處理一件新事情(比如接電話)。 Linux 系統中的信號(Signal)?? 機制,本質上就是操作系統內核或進程之間用…

論文略讀:Prefix-Tuning: Optimizing Continuous Prompts for Generation

2021 ACL固定預訓練LM,為LM添加可訓練,任務特定的前綴這樣就可以為不同任務保存不同的前綴這種前綴可以看成連續可微的soft prompt,相比于離散的token,更好優化,效果更好訓練的時候只需要更新prefix部分的參數&#xf…

CSS基礎選擇器、文本屬性、引入方式及Chorme調試工具

CSS基礎 1.1 CSS簡介 CSS 是層疊樣式表 ( Cascading Style Sheets ) 的簡稱. 有時我們也會稱之為 CSS 樣式表或級聯樣式表。 CSS 是也是一種標記語言 CSS 主要用于設置 HTML 頁面中的文本內容(字體、大小、對齊方式等)、圖片的外形(寬高、邊…

RabbitMQ 高級特性之事務

1. 簡介與 MySQL、Redis 一樣,RabbitMQ 也支持事務。事務中的消息,要么全都發送成功,要么全部發送失敗,不會出現一部分成功一部分失敗的情況。2. 使用事務發送消息spring 中使用 RabbitMQ 開啟事務需要兩步:第一步&…

iframe 的同源限制與反爬機制的沖突

一、事件背景A域名接入了動態防護(Bot 防護、反爬蟲機制),同時第三方業務B域名通過內嵌iframe的方式調用了A域名下的一個鏈接。二、動態防護介紹:動態防護(也稱為 Bot 防護、反爬蟲機制)是網站為了防止自動…

Rust 的 Copy 語義:深入淺出指南

在 Rust 中,Copy 是一個關鍵的特性,它定義了類型的復制行為。理解 Copy 語義對于掌握 Rust 的所有權系統和編寫高效代碼至關重要。一、核心概念:Copy vs Move特性Copy 類型非 Copy 類型 (Move)賦值行為按位復制 (bitwise copy)所有權轉移 (ow…

Qt的信號與槽(二)

Qt的信號與槽(二)1.自定義槽2.通過圖形化界面來生成自定義槽3.自定義信號3.信號和槽帶參數4.參數數量5.connect函數的設計🌟hello,各位讀者大大們你們好呀🌟🌟 🚀🚀系列專欄&#xf…

Java研學-MongoDB(三)

三 文檔相關 7 文檔統計查詢① 語法: // 精確統計文檔數 慢 準 dahuang> db.xiaohuang.countDocuments({條件}) 4 // 粗略統計文檔數 快 大致準 dahuang> db.xiaohuang.estimatedDocumentCount({條件}) 4② 例子: // 精確統計文檔數 name為奔波兒灞…

TCP協議格式與連接釋放

TCP報文段格式 TCP雖然是面向字節流的,但TCP傳送帶數據單元確是報文段。TCP報文段分為首部和數據段部分,而TCP的全部功能體現在它在首部中各字段的作用。因此,只有弄清TCP首部各字段的作用才能掌握TCP的工作原理。 TCP報文段首部的前20字節是…

CSS05:結構偽類選擇器和屬性選擇器

結構偽類選擇器 /*ul的第一個子元素*/ ul li:first-child{background: #0af6f6; }/*ul的最后一個子元素*/ ul li:last-child{background: #d27bf3; } /*選中p1:定位到父元素,選擇當前的第一個元素 選擇當前p元素的父級元素,選中父級元素的第…

使用策略模式 + 自動注冊機制來構建旅游點評系統的搜索模塊

? 目標: 搜索模塊支持不同內容類型(攻略、達人、游記等)每種搜索邏輯用一個策略類表示自動注冊(基于注解 Spring 容器)新增搜索類型時,只需添加一個類 一個注解,無需改工廠、注冊表等&#x…

第八十九篇 大數據開發中的數據算法:貪心策略 - 生活中的“精打細算”藝術

在資源有限的世界里,貪心算法教會我們:局部最優的累積,往往是通往全局最高效的捷徑。本文通過3個生活化場景原創圖表,揭示大數據開發中最實用的優化策略。目錄一、貪心算法核心思想:當下即最優二、三大核心應用場景詳解…

【論文閱讀】Dynamic Few-Shot Visual Learning without Forgetting

系統概述如下: (a) 一個基于卷積神經網絡(ConvNet)的識別模型,該模型包含特征提取器和分類器; (b) 一個少樣本分類權重生成器。這兩個組件都是在一組基礎類別上訓練的,我們為這些類別準備了大量訓練數據。在測試階段,權重生成器會接收少量新類別的訓練數據以及基礎類別的…

HTML應用指南:利用GET請求獲取全國山姆門店位置信息

山姆會員店作為全球知名的零售品牌,自進入中國市場以來,始終致力于為消費者提供高品質商品與便捷的購物體驗。隨著新零售業態的快速發展,門店位置信息的獲取變得愈發重要。品牌通過不斷拓展門店網絡,目前已覆蓋多個一、二線城市&a…

java ThreadLocal源碼分析

寫個demo測試下&#xff1a;private static void testThreadLocal() {ThreadLocal<Integer> threadLocal new ThreadLocal<>();new Thread(){Overridepublic void run() {threadLocal.set(9527);System.out.println("curr thread: " Thread.currentThr…

后端Web實戰(項目管理)

Restful風格 我們的案例是基于當前最為主流的前后端分離模式進行開發 在前后端分離的開發模式中&#xff0c;前后端開發人員都需要根據提前定義好的接口文檔&#xff0c;來進行前后端功能的開發。 后端開發人員&#xff1a;必須嚴格遵守提供的接口文檔進行后端功能開發&#…