【原創】基于gemini-2.5-flash-preview-05-20多模態模型實現短視頻的自動化二創

?畫面和解說保持一致,這個模型就是NB

[16:57:37] [*] 正在從視頻中提取幀和時長 (頻率: 1.0 幀/秒)...
[16:57:55] [+] 提取完成。視頻時長: 83.40秒, 提取了 84 幀。
[16:57:55] [*] 使用AI供應商: gemini
[16:57:55] [*] 正在進行視覺分析...
[16:57:55]   L-> 正在向Vision API (gemini-2.5-flash-preview-05-20) 發送 84 幀圖像...
[16:57:55]   L-> 請求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:28]   L<-收到API原始響應 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n  "timeline": [\n    {\n      "time": 0,\n      "event": "視頻開場,展示零食盒并提出盲測挑戰。"\n    },\n    {\n      "time": 8,\n      "event": "首位挑戰者品嘗零食后,表情顯示其味道偏辣。"\n    },\n    {\n      "time": 17,\n      "event": "男性挑戰者品嘗后夸張表示手中零食有“1000件小東西”,引人發笑。"\n    },\n    {\n      "time": 50,\n      "event": "女性挑戰者聞到下一款零食,直呼“聞起來很辣”的強烈反應。"\n    },\n    {\n      "time": 58,\n      "event": "成功猜中“印度”為零食原產國,引發全場歡呼。"\n    }\n  ]\n}'}], 'role': 'model'}, 'finishReason': 'S...
[16:58:28]   L<-從響應中提取的文本內容:
---
{"timeline": [{"time": 0,"event": "視頻開場,展示零食盒并提出盲測挑戰。"},{"time": 8,"event": "首位挑戰者品嘗零食后,表情顯示其味道偏辣。"},{"time": 17,"event": "男性挑戰者品嘗后夸張表示手中零食有“1000件小東西”,引人發笑。"},{"time": 50,"event": "女性挑戰者聞到下一款零食,直呼“聞起來很辣”的強烈反應。"},{"time": 58,"event": "成功猜中“印度”為零食原產國,引發全場歡呼。"}]
}
---
[16:58:28] [+] 視覺分析完成。
[16:58:28] [*] 正在生成解說文案...
[16:58:28]   L-> 正在向Script API (gemini-2.5-flash-preview-05-20) 發送指令...
[16:58:28]   L-> 請求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:41]   L<-收到API原始響應 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n  "script": [\n    {\n      "time": 0.5,\n      "text": "各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!"\n    },\n    {\n      "time": 8.5,\n      "text": "首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!"\n    },\n    {\n      "time": 17.5,\n      "text": "哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!"\n    },\n    {\n      "time": 50.5,\n      "text": "還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!"\n    },\n    {\n      "time": 58.5,\n      "text": "成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!"\n    },\n    {\n      ...
[16:58:41]   L<-從響應中提取的文本內容:
---
{"script": [{"time": 0.5,"text": "各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!"},{"time": 8.5,"text": "首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!"},{"time": 17.5,"text": "哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!"},{"time": 50.5,"text": "還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!"},{"time": 58.5,"text": "成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!"},{"time": 80.0,"text": "今天的精彩挑戰到這里就告一段落!喜歡我們的節目,記得點贊、分享、關注!下期再見!"}]
}
---
[16:58:41] [+] 文案生成完成。
[16:58:41] --- 生成的腳本 ---
[16:58:41] [0.5s] 各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!
[16:58:41] [8.5s] 首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!
[16:58:41] [17.5s] 哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!
[16:58:41] [50.5s] 還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!
[16:58:41] [58.5s] 成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!
[16:58:41] [80.0s] 今天的精彩挑戰到這里就告一段落!喜歡我們的節目,記得點贊、分享、關注!下期再見!
[16:58:41] --------------------
[16:58:41] [*] 正在為每一句解說合成語音...
[16:58:41]   - 合成第 1/6 句...
[16:58:41]   L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!'
[16:58:44]   L<- 收到來自本地TTS的音頻數據 (大小: 396008 bytes)
[16:58:44]   - 合成第 2/6 句...
[16:58:44]   L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!'
[16:58:47]   L<- 收到來自本地TTS的音頻數據 (大小: 341392 bytes)
[16:58:47]   - 合成第 3/6 句...
[16:58:47]   L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!'
[16:58:50]   L<- 收到來自本地TTS的音頻數據 (大小: 379624 bytes)
[16:58:50]   - 合成第 4/6 句...
[16:58:50]   L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!'
[16:58:53]   L<- 收到來自本地TTS的音頻數據 (大小: 333200 bytes)
[16:58:53]   - 合成第 5/6 句...
[16:58:53]   L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!'
[16:58:56]   L<- 收到來自本地TTS的音頻數據 (大小: 333200 bytes)
[16:58:56]   - 合成第 6/6 句...
[16:58:56]   L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '今天的精彩挑戰到這里就告一段落!喜歡我們的節目,記得點贊、分享、關注!下期再見!'
[16:59:00]   L<- 收到來自本地TTS的音頻數據 (大小: 497040 bytes)
[16:59:00] [+] 語音合成完成。
[16:59:00] [*] 正在使用ffmpeg合并視頻和所有音軌...
[17:00:01] 
[+] 成功!二創視頻已保存為 'H:/013-AI/instagram搬運/downloadfile/thesmilyfam\2025-08-02_Blindfolded taste testing this month’s @Universal _7401325663703092511_translated_recreated.mp4'
[17:00:01] [*] 正在清理臨時音頻文件...
[17:00:01] [+] 清理完成。

成本預算,我使用的是本地tts

1. 視覺分析 (Vision)

  • 抽幀頻率: 根據您的 config.ini 設置,是 0.5 幀/秒。

  • 消耗計算: 120秒 × 0.5幀/秒 = 60幀

  • API消耗: 這60張圖片會在1次API請求中全部發送給Gemini進行分析。所以,這里會消耗您每日1000次免費額度中的 1次

2. 文案生成 (Script)

  • 消耗計算: 程序會根據視覺分析的結果,再向AI發起1次請求,讓它生成解說腳本。

  • API消耗: 這里會再消耗您每日1000次免費額度中的 1次

3. 語音合成 (TTS)

  • AI判斷: 根據我們的智能規則,一個120秒的視頻,AI大概會生成 120 / 25 = 4.8,也就是4-6句左右的解說詞。

  • API消耗: 因為您在 config.ini 中已經將 tts_model 設置為了 local,所以這一步的所有請求都會發送到您自己的本地TTS服務

  • 云端API消耗: 0次


總結

處理一個2分鐘的視頻,總共會消耗您云端API的:

  • Gemini API (視覺+文案): 1 + 1 = 2次請求 (在您每日1000次的免費額度內)。

  • TTS API: 0次請求 (因為使用的是您自己的本地服務)。

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/92158.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/92158.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/92158.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

數倉架構 數據表建模

數倉架構 主要用來描述 數據加工的實時鏈路 和 離線鏈路之間的關系,即 流批 關系; lamda 架構, 是兩條路, 實時計算式的, 維護數據的實時性。然后每天經過批計算后, 覆蓋實時的計算結果。 保證數據準確性。 kappa架構, 即流批一體了 數據建模 星型模型是數據倉庫中最…

vscode調試python腳本時無法進入函數內部的解決方法

只需在launch.json配置文件中添加“justMyCode”:false.

Python day37

浙大疏錦行 python day37. 內容&#xff1a; 保存模型只需要保存模型的參數即可&#xff0c;使用的時候直接構建模型再導入參數即可 # 保存模型參數 torch.save(model.state_dict(), "model_weights.pth")# 加載參數&#xff08;需先定義模型結構&#xff09; mod…

ORACLE進階操作

1 事務 事務的任務便是使數據庫從一種狀態變換成為另一種狀態&#xff0c;這不同于文件系統&#xff0c;它是數據庫所特用的。 所有的數據庫中&#xff0c;事務只針對DML&#xff08;增刪改)&#xff0c;不針對select select只能查看其他事務提交或回滾的數據&#xff0c;不能查…

Modbus 的一些理解

疑問&#xff1a;&#xff08;使用的是Modbustcp&#xff09;我在 Modbus slave 上面設置了slave地址為1&#xff0c;位置為40001的位置的值為1&#xff0c;40001這個位置上面的值是怎么存儲的&#xff0c;存儲在哪里的&#xff1f;他們是怎么進行交互的&#xff1f;在Modbus協…

【運動控制框架】WPF運動控制框架源碼,可用于激光切割機,雕刻機,分板機,點膠機,插件機等設備,開箱即用

WPF運動控制框架源碼&#xff0c;可用于激光切割機&#xff0c;雕刻機&#xff0c;分板機&#xff0c;點膠機&#xff0c;插件機等設備&#xff0c;考慮到各運動控制硬件不同&#xff0c;視覺應用功能&#xff08;應用視覺軟件&#xff09;也不同&#xff0c;所以只開發各路徑編…

RabbitMQ-日常運維命令

作者介紹&#xff1a;簡歷上沒有一個精通的運維工程師。請點擊上方的藍色《運維小路》關注我&#xff0c;下面的思維導圖也是預計更新的內容和當前進度(不定時更新)。中間件&#xff0c;我給它的定義就是為了實現某系業務功能依賴的軟件&#xff0c;包括如下部分:Web服務器代理…

【Linux基礎知識系列】第九十篇 - 使用awk進行文本處理

在Linux系統中&#xff0c;文本處理是一個常見的任務&#xff0c;尤其是在處理日志文件、配置文件和數據文件時。awk是一個功能強大的文本處理工具&#xff0c;廣泛用于數據提取、分析和格式化。它不僅可以處理簡單的文本文件&#xff0c;還可以處理復雜的結構化數據&#xff0…

第二十七天(數據結構:圖)

圖&#xff1a;是一種非線性結構形式化的描述: G{V,R}V:圖中各個頂點元素(如果這個圖代表的是地圖&#xff0c;這個頂點就是各個點的地址)R:關系集合&#xff0c;圖中頂點與頂點之間的關系(如果是地圖&#xff0c;這個關系集合可能就代表的是各個地點之間的距離)在頂點與頂點…

數據賦能(386)——數據挖掘——迭代過程

概述重要性如下&#xff1a;提升挖掘效果&#xff1a;迭代過程能不斷優化數據挖掘模型&#xff0c;提高挖掘結果的準確性和有效性&#xff0c;從而更好地滿足業務需求。適應復雜數據&#xff1a;數據往往具有復雜性和多樣性&#xff0c;通過迭代可以逐步探索和適應數據的特點&a…

什么是鍵值緩存?讓 LLM 閃電般快速

一、為什么 LLMs 需要 KV 緩存&#xff1f;大語言模型&#xff08;LLMs&#xff09;的文本生成遵循 “自回歸” 模式 —— 每次僅輸出一個 token&#xff08;如詞語、字符或子詞&#xff09;&#xff0c;再將該 token 與歷史序列拼接&#xff0c;作為下一輪輸入&#xff0c;直到…

16.Home-懶加載指令優化

問題1&#xff1a;邏輯書寫位置不合理問題2&#xff1a;重復監聽問題已經加載完畢但是還在監聽

Day116 若依融合mqtt

MQTT 1.MQTT協議概述MQTT是一種基于發布/訂閱模式的輕量級消息傳輸協議&#xff0c;設計用于低帶寬、高延遲或不穩定的網絡環境&#xff0c;廣泛應用于物聯網領域1.1 MQTT協議的應用場景1.智能家居、車聯網、工業物聯網&#xff1a;MQTT可以用于連接各種家電設備和傳感器&#…

PyTorch + PaddlePaddle 語音識別

PyTorch PaddlePaddle 語音識別 目錄 概述環境配置基礎理論數據預處理模型架構設計完整實現案例模型訓練與評估推理與部署性能優化技巧總結 語音識別&#xff08;ASR, Automatic Speech Recognition&#xff09;是將音頻信號轉換為文本的技術。結合PyTorch和PaddlePaddle的…

施耐德 Easy Altivar ATV310 變頻器:高效電機控制的理想選擇(含快速調試步驟及常見故障代碼)

施耐德 Easy Altivar ATV310 變頻器&#xff1a;高效電機控制的理想選擇&#xff08;含快速調試步驟&#xff09;在工業自動化領域&#xff0c;變頻器作為電機控制的核心設備&#xff0c;其性能與可靠性直接影響整個生產系統的效率。施耐德電氣推出的 Easy Altivar ATV310 變頻…

搭建郵件服務器概述

一、電子郵件應用解析標準郵件服務器&#xff08;qq郵箱&#xff09;&#xff1a;1&#xff09;提供電子郵箱&#xff08;lvbuqq.com&#xff09;及存儲空間2&#xff09;為客戶端向外發送郵件給其他郵箱&#xff08;diaochan163.com&#xff09;3&#xff09;接收/投遞其他郵箱…

day28-NFS

1.每日復盤與今日內容1.1復盤Rsync:本地模式、遠程模式&#x1f35f;&#x1f35f;&#x1f35f;&#x1f35f;&#x1f35f;、遠程守護模式&#x1f35f;&#x1f35f;&#x1f35f;&#x1f35f;&#x1f35f;安裝、配置Rsync啟動、測試服務備份案例1.2今日內容NFS優缺點NFS服…

二叉搜索樹--通往高階數據結構的基石

目錄 前言&#xff1a; 1、二叉搜索樹的概念 2、二叉搜索樹性能分析 3、二叉搜索樹的實現 BinarySelectTree.h test.cpp 4、key 和 key / value&#xff08; map 和 set 的鋪墊 &#xff09; 前言&#xff1a; 又回到數據結構了&#xff0c;這次我們將要學習一些復雜的…

Profinet轉Ethernet IP網關接入五軸車床上下料機械手控制系統的配置實例

本案例為西門子1200PLC借助PROFINET轉EtherNet/IP網關與搬運機器人進行連接的配置案例。所需設備包括&#xff1a;西門子1200PLC、Profinet轉EtherNet/IP網關以及發那科&#xff08;Fanuc&#xff09;機器人。開啟在工業自動化控制領域廣泛應用、功能強大且專業的西門子博圖配置…

專題二_滑動窗口_長度最小的子數組

引入&#xff1a;滑動窗口首先&#xff0c;這是滑動窗口的第一道題&#xff0c;所以簡短的說一下滑動窗口的思路&#xff1a;當我們題目要求找一個滿足要求的區間的時候&#xff0c;且這個區間的left和right指針&#xff0c;都只需要同向移動的時候&#xff0c;就可以使用滑動窗…