gemma-3n-E2B多模態模型使用案例:支持文本、圖像、語音輸入

參考:
https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/
在這里插入圖片描述

下載:
https://modelscope.cn/models/google/gemma-3n-E2B-it 模型下載

運行代碼:
https://github.com/huggingface/huggingface-gemma-recipes

微調:
https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune#fine-tuning-gemma-3n-with-unsloth

代碼

報錯:Set TORCHDYNAMO_VERBOSE=1 for the internal stack trace (please do this especially if you’re reporting a bug to PyTorch). For even more developer context, set TORCH_LOGS=“+dynamo”

解決:
import torch._dynamo
torch._dynamo.config.suppress_errors = True
torch._dynamo.disable()
import os
os.environ["TORCH_COMPILE"] = "0"
os.environ["TORCHDYNAMO_DISABLE"] = "1"
os.environ["DISABLE_TORCH_COMPILE"] = "1"

完整代碼

from transformers import AutoProcessor, AutoModelForImageTextToText
import torchdevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")import torch._dynamo
torch._dynamo.config.suppress_errors = True
torch._dynamo.disable()
import os
os.environ["TORCH_COMPILE"] = "0"
os.environ["TORCHDYNAMO_DISABLE"] = "1"
os.environ["DISABLE_TORCH_COMPILE"] = "1"model_id = "./gemma-3n-E2B-it" # google/gemma-3n-e2b-it
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(model_id).to(device)def model_generation(model, messages):inputs = processor.apply_chat_template(messages,add_generation_prompt=True,tokenize=True,return_dict=True,return_tensors="pt",)input_len = inputs["input_ids"].shape[-1]inputs = inputs.to(model.device, dtype=model.dtype)with torch.inference_mode():generation = model.generate(**inputs, max_new_tokens=32)generation = generation[:, input_len:]decoded = processor.batch_decode(generation, skip_special_tokens=True)print(decoded[0])

文本推理

# Text
messages = [{"role": "user","content": [{"type": "text", "text": "你是誰"}]}
]
model_generation(model, messages)

圖像+文本推理

#   Image Onlymessages = [{"role": "user","content": [{ "type": "image", "image" : "./下載.jpg" },{"type": "text", "text": "詳細描述這張圖片"}]}
]
model_generation(model, messages)

語音+文本推理

# Interleaved with Audiomessages = [{"role": "user","content": [{"type": "text", "text": "Transcribe the following speech segment in English:"},{"type": "audio", "audio": "test-16b-caps.wav"},]}
]
model_generation(model, messages)

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/87918.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/87918.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/87918.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

計算機網絡實驗——互聯網安全實驗

實驗1. OSPF路由項欺騙攻擊和防御實驗一、實驗目的驗證路由器OSPF配置過程。驗證OSPF建立動態路由項過程。驗證OSPF路由項欺騙攻擊過程。驗證OSPF源端鑒別功能的配置過程。驗證OSPF防路由項欺騙攻擊功能的實現過程。二、實驗任務使用自己的語言簡述該實驗原理。如圖1所示的網絡…

Pytorch中torch.where()函數詳解和實戰示例

torch.where() 是 PyTorch 中非常常用的一個函數,功能類似于 NumPy 的 where,用于條件篩選或三元選擇操作。在深度學習訓練、掩碼操作、損失函數處理等場景中非常常見。一、基本語法 torch.where(condition, x, y)condition:一個布爾張量&…

基于Hadoop的公共自行車數據分布式存儲和計算平臺的設計與實現

文章目錄 有需要本項目的代碼或文檔以及全部資源,或者部署調試可以私信博主項目介紹:基于Hadoop的公共自行車數據分布式存儲與計算平臺設計與實現數據介紹數據預處理 Hadoop 集群的幾個主要節點介紹1. NameNode(主節點)2. DataNod…

Java項目:基于SSM框架實現的程序設計課程可視化教學系統【ssm+B/S架構+源碼+數據庫+畢業論文】

摘 要 使用舊方法對程序設計課程可視化教學信息進行系統化管理已經不再讓人們信賴了,把現在的網絡信息技術運用在程序設計課程可視化教學信息的管理上面可以解決許多信息管理上面的難題,比如處理數據時間很長,數據存在錯誤不能及時糾正等問題…

Unity 實現 NPC 隨機漫游行為的完整指南

在游戲開發中,NPC(非玩家角色)的行為邏輯對于營造真實、沉浸式的游戲世界至關重要。一個常見但又極具表現力的需求是:讓 NPC 在場景中自然地隨機移動,仿佛它們有自己的意識和目的地。 本文將詳細介紹如何使用 Unity 的…

重新學習Vue中的按鍵監聽和鼠標監聽

文章目錄按鍵事件1. 使用 keyup.enter 修飾符2. 使用 v-on 監聽鍵盤事件3. 在組件上監聽原生事件Vue 2Vue 34. 全局監聽鍵盤事件注意事項鼠標事件1. 基本鼠標事件監聽常用鼠標事件2. 事件修飾符3. 鼠標按鍵檢測4. 鼠標位置信息5. 自定義指令監聽鼠標事件6. 組合鼠標事件7. 性能…

vue2啟動問題以及解決方案

vue2啟動時:ERROR Invalid options in vue.config.js: "typescript.validate.enable" is not allowed如果需要在 VSCode 中控制 TypeScript 驗證:在項目根目錄創建 .vscode/settings.json 文件(如不存在)添加以下配置&a…

Vue響應式系統:從原理到核心API全解析

響應式原理 響應式機制的主要功能就是,可以把普通的JavaScript對象封裝成為響應式對象,攔截數據的讀取和設置操作,實現依賴數據的自動化更新。 Q: 如何才能讓JavaScript對象變成響應式對象? 首先需要認識響應式數據和副作用函數…

水下目標檢測:突破與創新

水下目標檢測技術背景 水下環境帶來獨特挑戰:光線衰減導致對比度降低,散射引發圖像模糊,色偏使顏色失真。動態水流造成目標形變,小目標(如1010像素海膽)檢測困難。聲吶與光學數據融合可提升精度&#xff0…

高通SG882G平臺(移遠):2、使用docker鏡像編譯

其實之前已經編譯過了。今日搜索時發現,只有當時解決問題的匯總,沒有操作步驟。于是記錄下來。 建議使用Ubuntu20 LTS。 安裝docker $ sudo apt update $ sudo apt install docker.io $ sudo docker -v Docker version 27.5.1, build 27.5.1-0ubuntu3…

輕松上手:使用Nginx實現高效負載均衡

接上一篇《輕松上手:Nginx服務器反向代理配置指南》后,我們來探討一下如何使用Nginx實現高效負載均衡。 在當今高并發、大流量的互聯網環境下,單臺服務器早已無法滿足業務需求。想象一下:一次電商平臺的秒殺活動、一個熱門應用的…

身份證號碼+姓名認證接口-身份證二要素核驗

身份證號實名認證服務接口采用身份證號碼、姓名二要素核驗的方式,能夠快速確認用戶身份。無論是新用戶注冊,還是老用戶重要操作的身份復核,只需輸入姓名及身份證號,瞬間即可得到 “一致” 或 “不一致” 的核驗結果。這一過程高效…

自動駕駛基本概念

目錄 自動駕駛汽車(Autonomous Vehicles ) 單車智能 車聯網 智能網聯(單車智能車聯網) 自動駕駛關鍵技術 環境感知與定位 車輛運動感知 車輛運動感知 路徑規劃與決策 自動駕駛發展歷程 自動駕駛應用場景 自動駕駛路測…

提示詞框架(10)--COAST

目前,有很多提示詞框架都叫COAST,但是每個的解釋都不同,出現很了很多解釋和演化版本,不要在意這些小事,我們都是殊途同歸--讓AI更好的完成任務COAST框架,比較適合需要詳細背景和技術支持的任務,…

基于selenium實現大麥網自動搶票腳本教程

閑來無事,打開大麥網發現現在大多數演唱票都需要手機端才能搶票,僅有很少一部分支持pc端用網頁去搶票,但正所謂:道高一尺,魔高一丈,解決這個反爬問題,我們可以采用Airtest連接仿真機來模擬手機端…

2048小游戲實現

2048小游戲實現 將創建一個完整的2048小游戲,包含游戲核心邏輯和美觀的用戶界面。設計思路 4x4網格布局響應式設計,適配不同設備分數顯示和最高分記錄鍵盤控制(方向鍵)和觸摸滑動支持游戲狀態提示(勝利/失敗&#xff0…

Windows VMWare Centos Docker部署Springboot + mybatis + MySql應用

前置文章 Windows VMWare Centos環境下安裝Docker并配置MySqlhttps://blog.csdn.net/u013224722/article/details/148928081 Windows VMWare Centos Docker部署Springboot應用https://blog.csdn.net/u013224722/article/details/148958480 Windows VMWare Centos Docker部署…

【科普】Cygwin與wsl與ssh連接ubuntu有什么區別?DIY機器人工房

Cygwin、WSL(Windows Subsystem for Linux)和通過 SSH 連接 Ubuntu 是三種在 Windows 環境下與類 Unix/Linux 系統交互的工具,但它們的本質、運行環境、功能范圍有顯著區別。以下從核心定義、關鍵差異和適用場景三個維度詳細說明:…

Web前端數據可視化:ECharts高效數據展示完全指南

Web前端數據可視化:ECharts高效數據展示完全指南 當產品經理拿著一堆密密麻麻的Excel數據走向你時,你知道又到了"化腐朽為神奇"的時刻。數據可視化不僅僅是把數字變成圖表那么簡單,它是將復雜信息轉化為直觀洞察的藝術。 在過去兩…

# IS-IS 協議 | LSP 傳輸與鏈路狀態數據庫同步機制

略作整理,待校。 SRM 和 SSN 標志的作用 SRM 標志 功能:SRM 標志用于跟蹤路由器從一個接口向鄰居發送鏈路狀態協議數據單元(LSP)的狀態。作用:確保 LSP 的正確傳輸和狀態跟蹤。 SSN 標志 廣播網絡 功能&#xff1…