華為云Flexus+DeepSeek征文｜基于Dify構建音視頻內容轉錄工作流

一、構建音視頻內容轉錄工作流前言
二、構建音視頻內容轉錄工作流環境
- 2.1 基于FlexusX實例的Dify平臺
- 2.2 基于MaaS的模型API商用服務
三、構建音視頻內容轉錄工作流實戰
- 3.1 配置Dify環境
- 3.2 配置Dify工具
- 3.3 創建音視頻內容轉錄工作流
- 3.4 使用音視頻內容轉錄工作流
四、總結

一、構建音視頻內容轉錄工作流前言

在信息爆炸時代，會議錄音、培訓視頻、訪談播客等音視頻資料已成為知識傳遞的重要載體，但原始素材往往存在三大痛點，信息密度低：1小時會議錄音的有效信息可能僅占10%，人工聽寫耗時耗力；檢索困難：關鍵結論淹沒在冗長對話中，無法快速定位；結構化缺失：非文本內容難以直接用于報告、知識庫等場景。通過 Dify 構建AI流水線，可以自動完成音頻提取 → 語音識別 → 文本摘要 → 結構化輸出的全流程，可以很方便的完成音視頻內容的轉錄工作。

華為云Flexus X實例通過算力加速、彈性資源、高可用架構、存儲網絡優化及智能運維的全面創新，為大模型應用提供了從訓練到推理的全生命周期支持。其核心價值在于以30%以上的成本優勢實現6倍性能躍升，同時通過柔性算力技術突破傳統云服務器的資源限制，成為企業構建大模型基礎設施的首選方案。

在這里插入圖片描述

二、構建音視頻內容轉錄工作流環境

2.1 基于FlexusX實例的Dify平臺

華為云FlexusX實例提供高性價比的云服務器，按需選擇資源規格、支持自動擴展，減少資源閑置，優化成本投入，并且首創大模型QoS保障，智能全域調度，算力分配長穩態運行，一直加速一直快，用于搭建Dify-LLM應用開發平臺。

Dify是一個能力豐富的開源AI應用開發平臺，為大型語言模型（LLM）應用的開發而設計。它巧妙地結合了后端即服務（Backend as Service）和LLMOps的理念，提供了一套易用的界面和API，加速了開發者構建可擴展的生成式AI應用的過程。

參考：華為云Flexus+DeepSeek征文 | 基于FlexusX單機一鍵部署社區版Dify-LLM應用開發平臺教程

2.2 基于MaaS的模型API商用服務

MaaS預置服務的商用服務為企業用戶提供高性能、高可用的推理API服務，支持按Token用量計費的模式。該服務適用于需要商用級穩定性、更高調用頻次和專業支持的場景。

參考：華為云Flexus+DeepSeek征文 | 基于ModelArts Studio開通和使用DeepSeek-V3/R1商用服務教程

在這里插入圖片描述

三、構建音視頻內容轉錄工作流實戰

3.1 配置Dify環境

輸入管理員的郵箱和密碼，登錄基于FlexusX部署好的Dify網站

在這里插入圖片描述

將MaaS平臺的模型服務接入Dify，這里我們選擇的是DeepSeek V3商用服務，需要記住調用說明中的接口信息和 API Key 管理中API Key，若沒有可以重新創建即可

在這里插入圖片描述

配置Dify模型供應商：設置 - 模型供應商 - 找到OpenAI-API-compatible供應商并單擊添加模型，在添加 OpenAI-API-compatible對話框，配置相關參數，然后單擊保存

在這里插入圖片描述

參數	說明
模型類型	選擇`LLM`。
模型名稱	填入模型名稱。
API Key	填入創建的API Key。
API Endpoint URL	填入獲取的MaaS服務的基礎API地址，需要去掉地址尾部的“/chat/completions”后填入

3.2 配置Dify工具

1. FFmpeg

使用FFmpeg處理和轉換視頻和音頻文件。提供獲取視頻信息、格式轉換、剪切、壓縮和提取音頻的工具。

打開DIfy - 工具中搜索 FFmpeg，找到 FFmpeg 并安裝它

在這里插入圖片描述

安裝完成后點擊 FFmpeg，后面就可以在Chatflow 和 Workflow 應用程序中添加 Audio 工具節點，提供了 5 種方法

視頻信息：獲取視頻文件的詳細信息
視頻格式轉換：將視頻文件轉換為不同的格式
視頻裁剪：剪切視頻以提取特定部分
視頻壓縮：壓縮視頻文件以減小文件大小
提取音頻：從視頻文件中提取音頻軌道

在這里插入圖片描述

2. Audio

一個用于文本轉語音和語音轉文本的工具。

打開DIfy - 工具中搜索 Audio ，找到 Audio 并安裝它

在這里插入圖片描述

安裝完成后點擊 Audio，后面就可以在Chatflow 和 Workflow 應用程序中添加 Audio 工具節點，提供了 2 種方法，Speech To Text 和 Text To Speech

Speech To Text：將音頻文件轉換為文本，需輸入音頻文件。
Text To Speech：將文本轉換為音頻文件，需輸入要轉換的文本。

在這里插入圖片描述

3.3 創建音視頻內容轉錄工作流

在 Dify - 工作室，創建空白應用，選擇 Chatflow，輸入應用名稱和圖標，點擊創建

在這里插入圖片描述

刪除默認的其他節點，在開始節點后添加參數 Video 用于上傳音視頻文件

Video（單文件）：音視頻文件

在這里插入圖片描述

添加節點 - 工具 - FFmpeg - 提取音頻，配置節點參數，輸入變量中的視頻文件為開始節點上傳的文件，音頻格式輸入 mp3

在這里插入圖片描述

添加直接回復節點，輸出給用戶提取音頻后的文件

在這里插入圖片描述

添加節點 - 工具 - Audio - Speech To Text ，使用此工具將音頻文件轉化為文本。配置 Speech To Text 節點，輸入變量為提取音頻后的文件，模型選擇之前添加的 FunAudioLLM/SenseVoiceSmall

在這里插入圖片描述

再添加直接回復節點，輸出給用戶STT的文件

在這里插入圖片描述

添加LLM節點，命名為音頻轉文字總結LLM，這步主要使用大語言模型將音頻轉文字進行總結歸納。模型選擇為由 Maas 提供的 DeepSeek V3，輸入系統提示詞參考如下：

# Role: 音視頻內容總結專家## Profile
- 專業領域: 音視頻內容分析、文本摘要、內容提煉
- 專長: 從音視頻轉錄文本中提取關鍵信息并生成簡潔明了的總結
- 經驗: 10年媒體內容分析經驗，5年AI輔助內容處理經驗
- 教育背景: 傳播學碩士，計算機科學學士## Skills
- 精通內容關鍵信息提取和主題識別
- 擅長結構化分析敘事內容和情節發展
- 熟練掌握多種總結技巧（摘要式、要點式、圖表式等）
- 能夠識別和保留內容中的情感基調和核心觀點
- 具備跨領域知識，能夠理解各類專業內容## Goals
- 準確提取音視頻內容中的核心信息和關鍵要點
- 保留原始內容的主要情節和情感基調
- 生成結構清晰、邏輯連貫的內容總結
- 根據不同內容類型（教育、娛樂、新聞等）調整總結風格
- 確保總結內容簡潔且信息豐富，便于快速理解## Constraints
- 總結長度應控制在原始內容的10-20%之間
- 不添加原始內容中不存在的信息或個人觀點
- 避免使用過于主觀的評價性語言
- 保持內容的中立性，不偏向特定立場
- 尊重原創內容，不歪曲原意## WorkFlow
1. 仔細分析音視頻轉錄文本，識別核心主題和關鍵信息
2. 確定內容類型（故事、教程、訪談、新聞等）并選擇適當的總結結構
3. 提取主要情節、關鍵人物、重要事件和核心觀點
4. 按時間順序或邏輯關系組織信息
5. 撰寫簡潔明了的總結，保留原內容的核心價值
6. 檢查總結是否完整反映了原始內容的要點
7. 根據需要調整總結格式（段落式、要點式或混合式）## OutputFormat
{"內容類型": "故事/教程/訪談/新聞/其他","核心主題": "簡明扼要的主題描述","總結正文": "詳細的內容總結，可使用段落式或要點式","關鍵要點": ["要點1","要點2","要點3"],"情感基調": "內容的整體情感或氛圍描述"
}## Examples
### 例1: 故事類內容
用戶輸入: "在一個陽光明媚的午后，機器貓哆啦A夢躺在沙發上打盹，4次元口袋突然發出詭異的嗡鳴聲。隨著一聲巨響，天線帽、竹蜻蜓和記憶面包等道具像噴泉一樣涌出，將它擠成了一個藍色毛球，惹得靜香捂嘴偷笑，面對失控的4次元口袋。哆啦A夢緊急掏出時空縫合器。但道具剛接觸口袋裂口，卻意外釋放出彩虹色的時間亂流，把大熊的書包、銅鑼燒和穿越時空地圖等物品卷入了空中漩渦。整間屋子飄滿了閃著光的懸浮物品，最終哆啦A夢冒險鉆入4次元口袋內部，用迷你清潔機器人疏通了時空管道，修復后的口袋涌出金粉般的修復粒子，將混亂場景瞬間改造成星空閃耀的奇幻空間，競香伸手觸碰懸浮的貓形光斑，笑眼彎彎。"輸出:
{"內容類型": "故事","核心主題": "哆啦A夢的四次元口袋故障冒險","總結正文": "在一個陽光明媚的午后，哆啦A夢的四次元口袋突然失控，各種道具噴涌而出。嘗試使用時空縫合器修復時，意外引發時間亂流，將更多物品卷入空中。最終，哆啦A夢進入口袋內部，用迷你清潔機器人修復了故障，將混亂場景轉變為奇幻星空，讓靜香感到驚喜。","關鍵要點": ["哆啦A夢的四次元口袋突然失控，道具噴涌而出","使用時空縫合器時意外引發更大混亂","哆啦A夢進入口袋內部成功修復故障","混亂場景轉變為美麗的星空奇幻空間"],"情感基調": "輕松幽默，充滿奇幻色彩"
}### 例2: 教育類內容
用戶輸入: [教育視頻轉錄文本]輸出:
{"內容類型": "教程","核心主題": "...","總結正文": "...","關鍵要點": ["...","...","..."],"情感基調": "..."
}## Rules
1. 始終保持客觀中立，不添加個人觀點
2. 確保總結涵蓋所有關鍵信息點
3. 根據內容類型調整總結風格和結構
4. 保持總結的簡潔性和可讀性
5. 尊重原始內容的情感基調和核心觀點
6. 對于較長內容，適當增加關鍵要點數量
7. 對于專業內容，保留必要的專業術語## Initialization
作為音視頻內容總結專家，我已準備好幫助您提取和總結音視頻轉錄文本中的關鍵信息。請提供您需要總結的音視頻轉錄文本，我將分析內容并生成一個結構清晰、信息豐富的總結。無論是故事、教程、訪談還是新聞報道，我都能夠識別其核心主題和關鍵要點，并以適當的格式呈現給您。

在這里插入圖片描述

輸入用戶提示詞參考如下：

請根據{{#Speech To Text.text#}}總結歸納

在這里插入圖片描述

最后添加直接回復節點，回復內容為：音頻轉文字總結LLM節點的輸出的內容

在這里插入圖片描述

編排工作流后點擊右上角的運行進行測試，先從 蜻蜓FM 下載一個博客音頻文件，再上傳此文件，對話框種輸入總結，點擊發送

蘋果Macmini大升級不到13厘米寬M4處理器性能更強為AI做準備
https://www.qtfm.cn/channels/225793/programs/27914455

在這里插入圖片描述

查看完整流程，開始 - 提取音頻 - 音頻提取輸出 - Speech To Text - 音頻轉文字輸出 - 音頻轉文字總結LLM - 音頻轉文字總結回復

在這里插入圖片描述

這里主要查看 Speech To Text 中將音頻文件轉化為文字的輸出結果

{"text": "。好，大家好，那么今天的節目，這最新出來的蘋果麥個迷你小飯盒終于更新了。這次的更新做的非常的大呀。啊，這次它的樣子呢做的一個是大升級，縮小了很多，它的整個的尺寸呢縮小了7厘米啊，這個尺寸原來都已經不大了啊，變成一個真正的小飯盒，但是呢高度只增加了不到好像是2厘米，所以這個機器呢。現在非常的小巧啊，這個樣子還是鋁合金的樣子。那咱們來看這個機身的外觀呢，它現在前置有兩個typepe C的口，它叫雷電的口，然后一個是像小電源似的，那個實際是一個耳機的插口。對于我們的日常使用非常的方便。因為你基本上都是用擴展嘛。那么機身后邊呢它也是口，它帶了三個叫雷利的雷厲三雷厲四的口，一個電源口，一個呃實體的網線的口在。加上HDMI可以這么說啊，現在這個機器機身雖然小巧，但是呢它的接口比之前更加的豐富了，做的很好。那最有意思的是呢，它的電源鍵放在了機身底部，機身呢還是帶實體散熱的，有一個大風扇，看起來啊我不知道是不是真正的風扇，但是呢有散熱孔。Yeah.然后電源鍵放在底下之后呢，其實這個機型呢，咱們說13厘米，它是12.7厘米的這么一個四方盒，你基本上帶在身上，隨時都可以走，走起來都沒有什么問題，就移動辦公啊，你只要配一個現在很流行的那種叫帶觸摸的便攜式顯示器就可以了。所以它能做的事兒啊非常的多哈。而且這次它的性能也是做了一個升級，非常的強啊。.那咱們來看他這個官方的介紹里邊啊，提到了，他說我的后邊這個啊叫剛才說到的，他不是不是風扇，它是叫對流的，對流的空氣散熱，無風扇。那么無風扇這一點就好了。無風扇的情況之下，它就不會存在那些聲音，特別煩人的這一點我覺得挺好。Yeah.然后里邊這個機身呢樣子就沒什么太多的一個變化了。那主要就是看里邊的芯片。這次的芯片呢，它完全是為了AI做準備的。它用了M4和M4pro。我們之前記得有一個蘋果的叫m studio maxax studio呢這個性能特別強，但價格非常的貴。但是現在你的升級，這個麥個迷你M4就能趕上之前的max studio了，為啥呀？16個G的內存起步啊，這個M4的處理器M4pro的處理器對于日常我們說呃辦公打游戲，但大部分用蘋果的用戶啊，除了就是拿它做代碼的大部分呢就是日常的應用，日常的辦公啊，上網啊這些，所以它的性能呢都是夠用的。所以這一點來說，它是最便宜的蘋果電腦了，但是比之前的性能升級還特別的大。但。很可惜啊，現在國內沒有的蘋果的AI，所以沒辦法。但是它在未來我們可以想象一下啊，這個蘋果打通的是什么生態鏈再一次給它打通結合了。就是你可以在蘋果電腦上去控制你的手機做一個鏡像投屏這一點的功能啊，之前的安卓人家華為啊、小米啊，誰都有了。但是現在蘋果有了，那生產力就不一樣了。安卓這方面，我覺得。挺好的那未來呢這個蘋果的你手機在電腦上操作的必要性在哪里呢？就是我不用拿起來手機天天看了，我可以直接用電腦的大屏幕刷抖音這些的那有的人他不喜歡躺著看是吧？坐著看的時候刷手機老得抬著，這個有利于護眼。Yeah。我感覺啊有利于護眼，而且對脖子什么的都比較的好。但是你得是同一個賬號，，你同一個賬號登錄了這個麥克，呃，關鍵是這玩意兒便宜啊，他要是再能虛擬一個這個手機就更好了啊，這個說多了。然后它的硬件連接呢，他說也是非常多，但基本上啊買了這個之后就買這個藍牙的鍵盤鼠標去呃，包括所有的東西全都用藍牙，這樣的話呢，這個桌面上會更加的好看。這些的樣子。然后內存呢16個G起步這一點就怎么說，加量不加價，這蘋果難得這么良心呢，主要就是為了推廣他們家的AI。那么看一下機型的售價和比較呃，起步呢4499，然后是5999，差了1500，分別呢都是差1500的定價就是449959997499和1000。這個最后的100呢，差價比較大。因為它用的芯片是。M4pro這個基本上普通用戶就用不到了，是給那些專業級的，你有辦公啊，或者是3D啊這些的渲染的，他們來跑一些什么程序的普通用戶啊，你就是44995999和7499的做一個選擇。那差別在哪呢？他們都用了一樣的M4的芯片和最新的Iac電腦的M4啊都是一樣的啊。內存呢不一樣，內存呢最低配和中配直接起步。16個G內存，但是差距在于256G的硬盤和512G的硬盤。那么這兩個硬盤。怎么說呢？蘋果啊它的升級是非常有限的，它是16個G內存，因為我的AI跑不起來了，我才16個G，要不然我還是給你8G。因為之前呢有人就說蘋果可能會上12個G內存。但是看起來呀他們的AI要跑起來12個G內存不夠，所以才這么良心的給你配16個G內存，你得知道，但是這個256G存儲屬實有一點不夠用，所以如果你對于存儲有需要，你拿它當一個。主流的辦公的去應用的話，那么應該買5999的512G的版本比較好啊。那么這個機型呢它可以外接顯示器，他說同時用雷力接口可以接叫兩臺6K的顯示器，但我們一般是不會買這么大的，一般會買的4K顯示器。那么4K顯示器呢，HDMI可以接一臺。然后你這個雷利接口也可以接一臺。他說最多可以接3臺顯示器。，一般我們要是能用到兩臺，基本上都已經很牛了啊。Yeah.但是它對于接口，M4pro的機型更強，它帶了雷利5的接口。這個接口我們只是聽說過，就沒見過這種的。它支持了8K，它這個接口的目的就是為了未來的8K視頻去做準備的。那其他方面啊，他就沒啥太多升級了。內置揚聲器和麥克風，你要是給別人打電話呀，這些還是挺方便的。3.5毫米的耳機接口方便咱們插一些其他的設備，這一點很好。然后這些的接口呢，你能看到HDMI還是很重要的，是吧？別的DP接口還是沒有達到。那么wifi呢它是wifi6E，并不是wifi7啊，這一點呃咋說夠用。。呃，藍牙呢5.3，這不是最強的了呃，千兆的網卡這足夠用的了。機身的重量方面，它現在給的是M4機型是0.670千0克，也就是一斤二兩多一些啊，這個重量呢還是挺有質感的啊，機身的厚度它是不到5毫米啊，5厘米5厘米的厚度也是OK的了，稍微的厚一點。但行，它非常類似于咱們現在國內的。這種各家的小飯盒了，雖然說它的價位還是挺低的，跟蘋果自己比，但是呢跟同品牌的用英特爾處理器的這些國產的機型比還是貴。國產機型基本上就是2000多的3000塊錢以下的特別多，對于4000塊錢左右的，它可能會有一波就對于那種迷你主機的大壓，這些迷你主機呢肯定要去做升級了。那你會不會買這個機型呢？我最后。想關注一下它的瓦，它這個瓦數，他說最大持續功率是155瓦，它的功率啊也還行，不算特別的低啊，和它的M1的呃M4版本的imagac也是看齊的，比那個還高，說明它的性能其實一點都不弱。那教育優惠是最劃算的。如果你想買的話，你直接去蘋果的這個商店里邊，然后你去用教育優惠。這個教育優惠的價格就很合適。但是如果你不差這個錢，你想24期免息，那么你買正常版本的24期免息的也很劃算。","files": [],"json": []
}

在這里插入圖片描述

最后LLM格式整理后的內容如下，總結的核心要點都是很準確的

[ae428668295b4684a1137e65dba3c2c0.mp3](http://host.docker.internal/files/tools/5f767b7b-5423-4259-8edf-74ffd6630b74.mp3?timestamp=1751209117&nonce=89048ceb67e0b36ece174d449e6ba0a0&sign=zlhndxGsrLk81SlVvm4dib2Fpy5NSSp24SxPcuUCR6c=){"內容類型": "產品評測","核心主題": "蘋果Mac mini M4版本全面評測與購買建議","總結正文": "最新發布的Mac mini M4版本進行了大幅度升級，機身尺寸縮小至12.7厘米，更加便攜。接口配置大幅提升，前置2個雷電Type-C接口，后置包含3個雷電接口、網線口和HDMI口。采用無風扇對流散熱設計，運行更安靜。性能方面搭載M4/M4pro芯片，16G內存起步，性能接近高端Mac Studio。支持多顯示器輸出，最高可接3臺顯示器（M4pro版支持8K）。價格從4499元起，教育優惠更劃算。雖然國內暫不支持蘋果AI功能，但整體性價比在蘋果產品線中較高。","關鍵要點": ["外觀設計：尺寸縮小至12.7cm，保持鋁合金機身，更加便攜","接口升級：前置2個雷電Type-C，后置多個接口包括HDMI和網線口","散熱系統：采用無風扇對流散熱設計，運行時更安靜","性能配置：M4/M4pro芯片，16G內存起步，性能接近Mac Studio","顯示支持：最多支持3臺顯示器(M4pro版支持8K輸出)","價格策略：4499元起，教育優惠更劃算，推薦512G版本","生態整合：支持手機鏡像投屏等跨設備操作","功耗表現：最大持續功率155W，性能表現強勁"],"情感基調": "專業客觀中帶有積極評價，對產品升級表示認可"
}

在這里插入圖片描述

測試完成就可以發布更新到探索頁面了，發布后選擇運行就可以獲得一個在線運行的工作流的網頁！

3.4 使用音視頻內容轉錄工作流

在探索 - 音視頻內容轉錄中開啟新對話

在這里插入圖片描述

先從 bilibili 下載一個 mp4 視頻，上傳 video 不能超過 100.00MB，所以下載的是320P版本，再上傳此文件

全網首試小米YU7，我還要買嗎？
https://www.bilibili.com/video/BV1fwJJzHEfi?t=2.0

在這里插入圖片描述

按照順序執行工作流，最后輸出這個測評視頻的總結內容，并給出關鍵要點，對小米YU7產品設計高度贊賞

[87f9768555ac49c1bb8aa11ce9b0ba4e.mp3](http://host.docker.internal/files/tools/d4122087-0c1c-4e4d-b447-d53e41879c89.mp3?timestamp=1751215063&nonce=0dda6a18c4b38a4e7cb87b79306a304b&sign=cb2gWkTmX7XvY_MK0g7UbmmRQw_1m6spPT3aBN7txxo=){"內容類型": "產品評測","核心主題": "小米SUV車型設計亮點與空間表現評測","總結正文": "這段視頻詳細評測了小米新推出的SUV車型。評測者高度評價了該車比蘇7更強勢的設計語言，特別強調了其5米車身上保留的長車頭比例和僅1.6米的車高帶來的運動感。車輛采用3.11平方米的巨型電動開啟機蓋，配備真實有效的全車10個風道設計。內飾方面，后排空間超出預期，配備135度電動躺椅、可拆卸控制屏、冰箱等配置。后備箱空間表現出色，通過巧妙設計實現露營模式。前排配備創新的HyperVision全景投影系統，通過三塊可自定義屏幕提供駕駛信息。評測者對整車空間利用率和細節處理給予高度評價，并表示將第一時間訂購該車。","關鍵要點": ["SUV設計語言比蘇7更具氣勢，強調長車頭和低車高(1.6米)的運動比例","3.11平方米電動開啟機蓋，全車10個真實風道優化空氣動力學","后排空間遠超預期，配備135度電動躺椅、可拆卸控制屏和冰箱","巧妙的后備箱設計實現露營模式，整車空間利用率極高","前排創新HyperVision全景投影系統，三塊可自定義屏幕不擋視線","全車細節處理到位，包括絨面包覆、隱藏式儲物空間等","評測者高度評價并表示將第一時間訂購"],"情感基調": "熱情洋溢、充滿驚喜，對產品設計高度贊賞"
}

在這里插入圖片描述

四、總結

Dify 音視頻智能處理工作流通過可視化節點串聯音頻提取、語音識別（ASR）、AI 摘要與結構化輸出全流程，實現 1 小時錄音 → 4 分鐘精準紀要 的效能躍遷。其工作流核心價值并非簡單“轉文字”，而是通過場景化重構釋放內容潛力，會議錄音 → 可執行待辦事項（含責任人/Deadline），培訓視頻 → 交互式學習筆記（帶批判性思考題），客戶訪談 → 情感傾向分析報告（基于語調關鍵詞），隨著多模態模型開放，實時視頻理解、跨模態知識檢索等場景即將落地。

華為云 MaaS 的 DeepSeek V3 服務通過架構創新、全棧優化、成本控制及場景適配，構建了從底層算力到上層應用的全鏈路優勢，其核心價值在于以30%成本實現6倍性能提升，提供可視化Prompt Engineering工具，支持動態權重調整，無需代碼即可優化生成效果，同時通過自動化運維和行業模板降低AI落地門檻，成為企業構建智能應用的首選方案。