可視化智能體是語音小伴侶智能體的升級版,支持語音與視頻的雙模態交互。本文詳細介紹了音視頻交互的實現原理、智能體搭建方法及效果測試,幫助開發者快速構建支持音視頻交互的智能體。
應用場景
可視化智能體適用于多種場景,舉例如下:
- 智能穿戴:用戶可以通過智能眼鏡等設備與智能體交互,實時獲取導航指引,識別周邊地標并接收語音或文字提示,提升出行便捷性與安全性。
- 智慧家居:用戶通過音視頻與智能家居設備交互,可遠程查看空調、燈光等智能家電的狀態,實時監控漏水、外人入侵等異常情況并觸發報警,從而提升家居生活的便捷性和安全性。
- 智慧醫療:醫護人員通過音視頻與患者遠程會診,患者可在線展示癥狀(舌苔 / 傷口等),智能體自動識別分析初步判斷病因,同步病歷數據、調取檢驗報告并提供輔助診斷建議,優化遠程醫療流程。
- 智能客服:企業客服場景中,用戶通過音視頻描述問題(如產品故障畫面),智能體結合語音語義與視頻畫面精準定位需求,實時生成解決方案,支持復雜問題一鍵轉接人工并附詳細記錄,提升服務效率與用戶體驗。
實現原理
扣子音視頻交互的業務流程如下圖所示。
業務流程說明如下:
- 設備端采集音視頻數據。
- 視頻采集:設備通過攝像頭進行視頻采集,生成視頻流。
- 音頻采集:設備利用麥克風進行音頻采集,產生音頻流。
- RTC 網關處理音視頻流。
- 視頻流:從設備端傳輸至 RTC 網關后,RTC 網關對視頻流進行抽幀操作,將視頻流轉換為圖片流。
- 音頻流:保持原始音頻流傳輸,推送至扣子服務。
- 扣子智能體對音視頻數據進行智能處理并反饋結果。
- 音頻處理:音頻流進入扣子服務中的自動語音識別(ASR)模塊,將音頻流轉換為文本流。
- 智能處理與反饋:文本流和圖片流輸入智能體后,智能體根據預設的邏輯和模型進行處理。處理結果一方面傳輸至文本轉語音(TTS)模塊,TTS 模塊將文本轉換為音頻流,該音頻流傳輸至設備的揚聲器進行播放,從而實現語音交互功能;另一方面,智能體結合圖片信息和用戶輸入的文本信息,生成更精準、更豐富的交互內容。
搭建智能體
本場景中,你需要搭建一個能夠支持音視頻通話的智能體。扣子支持多種方式搭建音視頻通話的智能體,以下是各方案的優缺點及適用場景:
方案 | 適用場景 | 優缺點 |
單 Agent(對話流模式) | 對實時性要求較高的場景。 |
|
單 Agent(自主規劃模式) | 簡單的閑聊,對時延要求不高的場景,不適用于復雜的邏輯場景。 |
|
方案一:單 Agent(自主規劃模式)智能體
創建單 Agent(自主規劃模式)類型的智能體,選擇支持視覺理解的模型,例如豆包·視覺理解·Pro 模型。
在人設與回復邏輯區域,設計智能體的角色和回復邏輯。例如:
你是一個帶眼睛的智能體,看到的東西通過圖片傳給你,請結合圖片和用戶的輸入進行口語化回答。
測試智能體效果,并將智能體發布到 API 或其他渠道。
方案二:單 Agent(對話流模式)智能體
本場景基于語音小伴侶模板進行改造,在支持語音閑聊的基礎上,增加視頻閑聊的功能,實現語音 + 視覺雙模態交互。
步驟 1:復制模板
打開語音小伴侶智能體,然后單擊復制。
選擇智能體的所屬空間并輸入一個智能體名稱,然后單擊確定。
在智能體編排頁面開啟視頻通話,開啟后,扣子會自動添加 sys_images 系統變量。
在視頻通話過程中,扣子會將攝像頭或屏幕共享捕捉到的畫面進行抽幀處理,并將抽幀后的圖片流存放在sys_images變量中。你可以在對話流中引用該變量作為視覺模型的輸入,幫助智能體理解用戶的動作和行為。
(可選)在復制的智能體編排頁面,單擊智能體名稱旁的修改圖標,修改智能體名稱。
根據實際需求,修改開場白文案和預置問題。
步驟 2:改造對話流
在本場景中,需要將語音小伴侶智能體中的對話流改造為支持視頻閑聊的對話流。改造后的對話流編排詳情如下圖所示。
將閑聊節點修改為支持視頻的閑聊節點具體實現說明如下表所示。
區域 | 修改說明 | 示例 |
模型 | 將模型改為支持視覺理解的模型,例如豆包·視覺理解·Pro 模型。 | |
視覺理解輸入 | 添加 sys_images參數,參數的值引用智能體中添加的sys_images 系統變量。 sys_images參數用于存放視頻流抽幀后的圖片流。 | |
系統提示詞 | 根據實際場景,修改系統提示詞中的技能。 | |
用戶提示詞 | 引用輸入參數中的 sys_images 和 input 參數。 | ## 你眼前的內容 {{sys_images}} ## 用戶當前輸入 {{input}} |
測試并發布智能體。
修改對話流并調試發布之后,你就可以測試智能體效果并發布智能體。
在智能體編排頁面的右側調試區域,輸入問題進行測試。
完成測試后可單擊發布,將智能體發布到 API 或其他渠道。
效果測試
訪問 Realtime 智能音視頻 Demo,單擊 Settings,設置 Token 和對應的智能體。
單擊 Connect,選擇 Video,即可與智能體進行視頻通話。你可以通過語音指令讓智能體根據視頻畫面描述它看到的場景,智能體會根據你的語音指令進行回復。