?畫面和解說保持一致,這個模型就是NB
[16:57:37] [*] 正在從視頻中提取幀和時長 (頻率: 1.0 幀/秒)...
[16:57:55] [+] 提取完成。視頻時長: 83.40秒, 提取了 84 幀。
[16:57:55] [*] 使用AI供應商: gemini
[16:57:55] [*] 正在進行視覺分析...
[16:57:55] L-> 正在向Vision API (gemini-2.5-flash-preview-05-20) 發送 84 幀圖像...
[16:57:55] L-> 請求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:28] L<-收到API原始響應 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n "timeline": [\n {\n "time": 0,\n "event": "視頻開場,展示零食盒并提出盲測挑戰。"\n },\n {\n "time": 8,\n "event": "首位挑戰者品嘗零食后,表情顯示其味道偏辣。"\n },\n {\n "time": 17,\n "event": "男性挑戰者品嘗后夸張表示手中零食有“1000件小東西”,引人發笑。"\n },\n {\n "time": 50,\n "event": "女性挑戰者聞到下一款零食,直呼“聞起來很辣”的強烈反應。"\n },\n {\n "time": 58,\n "event": "成功猜中“印度”為零食原產國,引發全場歡呼。"\n }\n ]\n}'}], 'role': 'model'}, 'finishReason': 'S...
[16:58:28] L<-從響應中提取的文本內容:
---
{"timeline": [{"time": 0,"event": "視頻開場,展示零食盒并提出盲測挑戰。"},{"time": 8,"event": "首位挑戰者品嘗零食后,表情顯示其味道偏辣。"},{"time": 17,"event": "男性挑戰者品嘗后夸張表示手中零食有“1000件小東西”,引人發笑。"},{"time": 50,"event": "女性挑戰者聞到下一款零食,直呼“聞起來很辣”的強烈反應。"},{"time": 58,"event": "成功猜中“印度”為零食原產國,引發全場歡呼。"}]
}
---
[16:58:28] [+] 視覺分析完成。
[16:58:28] [*] 正在生成解說文案...
[16:58:28] L-> 正在向Script API (gemini-2.5-flash-preview-05-20) 發送指令...
[16:58:28] L-> 請求URL: https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash-preview-05-20:generateContent?key=...
[16:58:41] L<-收到API原始響應 (片段): {'candidates': [{'content': {'parts': [{'text': '{\n "script": [\n {\n "time": 0.5,\n "text": "各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!"\n },\n {\n "time": 8.5,\n "text": "首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!"\n },\n {\n "time": 17.5,\n "text": "哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!"\n },\n {\n "time": 50.5,\n "text": "還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!"\n },\n {\n "time": 58.5,\n "text": "成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!"\n },\n {\n ...
[16:58:41] L<-從響應中提取的文本內容:
---
{"script": [{"time": 0.5,"text": "各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!"},{"time": 8.5,"text": "首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!"},{"time": 17.5,"text": "哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!"},{"time": 50.5,"text": "還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!"},{"time": 58.5,"text": "成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!"},{"time": 80.0,"text": "今天的精彩挑戰到這里就告一段落!喜歡我們的節目,記得點贊、分享、關注!下期再見!"}]
}
---
[16:58:41] [+] 文案生成完成。
[16:58:41] --- 生成的腳本 ---
[16:58:41] [0.5s] 各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!
[16:58:41] [8.5s] 首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!
[16:58:41] [17.5s] 哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!
[16:58:41] [50.5s] 還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!
[16:58:41] [58.5s] 成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!
[16:58:41] [80.0s] 今天的精彩挑戰到這里就告一段落!喜歡我們的節目,記得點贊、分享、關注!下期再見!
[16:58:41] --------------------
[16:58:41] [*] 正在為每一句解說合成語音...
[16:58:41] - 合成第 1/6 句...
[16:58:41] L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '各位觀眾,歡迎來到今天的盲測挑戰賽!一場味蕾的極限考驗即將展開!'
[16:58:44] L<- 收到來自本地TTS的音頻數據 (大小: 396008 bytes)
[16:58:44] - 合成第 2/6 句...
[16:58:44] L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '首位挑戰者,眉頭緊鎖!看來這股辣味,直沖天靈蓋啊!'
[16:58:47] L<- 收到來自本地TTS的音頻數據 (大小: 341392 bytes)
[16:58:47] - 合成第 3/6 句...
[16:58:47] L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '哇!這位選手表情夸張,直呼有“1000件小東西”!這零食到底藏了什么玄機?!'
[16:58:50] L<- 收到來自本地TTS的音頻數據 (大小: 379624 bytes)
[16:58:50] - 合成第 4/6 句...
[16:58:50] L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '還沒入口!她就直呼“聞起來很辣”!這嗅覺反應也太強烈了吧!'
[16:58:53] L<- 收到來自本地TTS的音頻數據 (大小: 333200 bytes)
[16:58:53] - 合成第 5/6 句...
[16:58:53] L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '成功猜中!“印度”!全場沸騰!恭喜這位挑戰者,完美通關!'
[16:58:56] L<- 收到來自本地TTS的音頻數據 (大小: 333200 bytes)
[16:58:56] - 合成第 6/6 句...
[16:58:56] L-> 正在向本地TTS服務 (http://127.0.0.1:5002/api/tts) 發送文本: '今天的精彩挑戰到這里就告一段落!喜歡我們的節目,記得點贊、分享、關注!下期再見!'
[16:59:00] L<- 收到來自本地TTS的音頻數據 (大小: 497040 bytes)
[16:59:00] [+] 語音合成完成。
[16:59:00] [*] 正在使用ffmpeg合并視頻和所有音軌...
[17:00:01]
[+] 成功!二創視頻已保存為 'H:/013-AI/instagram搬運/downloadfile/thesmilyfam\2025-08-02_Blindfolded taste testing this month’s @Universal _7401325663703092511_translated_recreated.mp4'
[17:00:01] [*] 正在清理臨時音頻文件...
[17:00:01] [+] 清理完成。
成本預算,我使用的是本地tts
1. 視覺分析 (Vision)
抽幀頻率: 根據您的
config.ini
設置,是0.5
幀/秒。消耗計算: 120秒 × 0.5幀/秒 = 60幀。
API消耗: 這60張圖片會在1次API請求中全部發送給Gemini進行分析。所以,這里會消耗您每日1000次免費額度中的 1次。
2. 文案生成 (Script)
消耗計算: 程序會根據視覺分析的結果,再向AI發起1次請求,讓它生成解說腳本。
API消耗: 這里會再消耗您每日1000次免費額度中的 1次。
3. 語音合成 (TTS)
AI判斷: 根據我們的智能規則,一個120秒的視頻,AI大概會生成
120 / 25 = 4.8
,也就是4-6句左右的解說詞。API消耗: 因為您在
config.ini
中已經將tts_model
設置為了local
,所以這一步的所有請求都會發送到您自己的本地TTS服務。云端API消耗: 0次。
總結
處理一個2分鐘的視頻,總共會消耗您云端API的:
Gemini API (視覺+文案): 1 + 1 = 2次請求 (在您每日1000次的免費額度內)。
TTS API: 0次請求 (因為使用的是您自己的本地服務)。
?