【AI智能體】智能音視頻-搭建可視化智能體

可視化智能體是語音小伴侶智能體的升級版，支持語音與視頻的雙模態交互。本文詳細介紹了音視頻交互的實現原理、智能體搭建方法及效果測試，幫助開發者快速構建支持音視頻交互的智能體。

應用場景

可視化智能體適用于多種場景，舉例如下：

智能穿戴：用戶可以通過智能眼鏡等設備與智能體交互，實時獲取導航指引，識別周邊地標并接收語音或文字提示，提升出行便捷性與安全性。
智慧家居：用戶通過音視頻與智能家居設備交互，可遠程查看空調、燈光等智能家電的狀態，實時監控漏水、外人入侵等異常情況并觸發報警，從而提升家居生活的便捷性和安全性。
智慧醫療：醫護人員通過音視頻與患者遠程會診，患者可在線展示癥狀（舌苔 / 傷口等），智能體自動識別分析初步判斷病因，同步病歷數據、調取檢驗報告并提供輔助診斷建議，優化遠程醫療流程。
智能客服：企業客服場景中，用戶通過音視頻描述問題（如產品故障畫面），智能體結合語音語義與視頻畫面精準定位需求，實時生成解決方案，支持復雜問題一鍵轉接人工并附詳細記錄，提升服務效率與用戶體驗。

實現原理

扣子音視頻交互的業務流程如下圖所示。

業務流程說明如下：

設備端采集音視頻數據。
- 視頻采集：設備通過攝像頭進行視頻采集，生成視頻流。
- 音頻采集：設備利用麥克風進行音頻采集，產生音頻流。
RTC 網關處理音視頻流。
- 視頻流：從設備端傳輸至 RTC 網關后，RTC 網關對視頻流進行抽幀操作，將視頻流轉換為圖片流。
- 音頻流：保持原始音頻流傳輸，推送至扣子服務。
扣子智能體對音視頻數據進行智能處理并反饋結果。
- 音頻處理：音頻流進入扣子服務中的自動語音識別（ASR）模塊，將音頻流轉換為文本流。
- 智能處理與反饋：文本流和圖片流輸入智能體后，智能體根據預設的邏輯和模型進行處理。處理結果一方面傳輸至文本轉語音（TTS）模塊，TTS 模塊將文本轉換為音頻流，該音頻流傳輸至設備的揚聲器進行播放，從而實現語音交互功能；另一方面，智能體結合圖片信息和用戶輸入的文本信息，生成更精準、更豐富的交互內容。

搭建智能體

本場景中，你需要搭建一個能夠支持音視頻通話的智能體。扣子支持多種方式搭建音視頻通話的智能體，以下是各方案的優缺點及適用場景：

方案	適用場景	優缺點
單 Agent（對話流模式）	對實時性要求較高的場景。	靈活且高效，時延較低。通過對話流編排，能夠清晰地定義不同節點的邏輯，便于搭建復雜的業務場景。
單 Agent（自主規劃模式）	簡單的閑聊，對時延要求不高的場景，不適用于復雜的邏輯場景。	配置簡單，易于上手。智能體中添加插件和工作流會導致延時增加。

方案一：單 Agent（自主規劃模式）智能體

創建單 Agent（自主規劃模式）類型的智能體，選擇支持視覺理解的模型，例如豆包·視覺理解·Pro 模型。

在人設與回復邏輯區域，設計智能體的角色和回復邏輯。例如：

你是一個帶眼睛的智能體，看到的東西通過圖片傳給你，請結合圖片和用戶的輸入進行口語化回答。

測試智能體效果，并將智能體發布到 API 或其他渠道。

方案二：單 Agent（對話流模式）智能體

本場景基于語音小伴侶模板進行改造，在支持語音閑聊的基礎上，增加視頻閑聊的功能，實現語音＋視覺雙模態交互。

步驟 1：復制模板

打開語音小伴侶智能體，然后單擊復制。

選擇智能體的所屬空間并輸入一個智能體名稱，然后單擊確定。

在智能體編排頁面開啟視頻通話，開啟后，扣子會自動添加 sys_images 系統變量。

在視頻通話過程中，扣子會將攝像頭或屏幕共享捕捉到的畫面進行抽幀處理，并將抽幀后的圖片流存放在sys_images變量中。你可以在對話流中引用該變量作為視覺模型的輸入，幫助智能體理解用戶的動作和行為。

（可選）在復制的智能體編排頁面，單擊智能體名稱旁的修改圖標，修改智能體名稱。

根據實際需求，修改開場白文案和預置問題。

步驟 2：改造對話流

在本場景中，需要將語音小伴侶智能體中的對話流改造為支持視頻閑聊的對話流。改造后的對話流編排詳情如下圖所示。

將閑聊節點修改為支持視頻的閑聊節點具體實現說明如下表所示。

區域	修改說明	示例
模型	將模型改為支持視覺理解的模型，例如豆包·視覺理解·Pro 模型。
視覺理解輸入	添加 sys_images參數，參數的值引用智能體中添加的sys_images 系統變量。 sys_images參數用于存放視頻流抽幀后的圖片流。
系統提示詞	根據實際場景，修改系統提示詞中的技能。	# 角色你是一個高效且知識淵博的生活小助理，能陪伴用戶。## 技能 ### 技能 1: 閑聊陪伴 1. 積極與用戶互動，傾聽用戶的心聲，給予溫暖的回應，回復100字左右。 2. 結合歷史消息和用戶當前輸入，根據用戶的話題展開有趣的討論，讓用戶感受到陪伴。 3. 你擁有視覺，有必要的話，可以結合一下你眼前看到的東西。 4. 說話的人就在你眼前。## 用戶個人信息 - 用戶畫像是: {{user_profile}} - 用戶歷史記憶點是: {{user_memory_point}} - 結合用戶畫像和用戶歷史發生過的記憶點事件，靈活的回答用戶的問題## 環境信息 - 當前的日期：{{current_date}} - 當前的時間：{{current_time}}## 回答格式 - 直接輸出文本，不要輸出 json## 限制: - 只回答與生活相關或百科知識范圍內的問題，拒絕回答無關話題。 - 所輸出的內容必須按照給定的格式進行組織，不能偏離框架要求。 - 請確保信息來源準確可靠，必要時注明引用來源。用戶提示詞引用輸入參數中的 sys_images 和 input 參數。
用戶提示詞	引用輸入參數中的 sys_images 和 input 參數。	## 你眼前的內容 {{sys_images}} ## 用戶當前輸入 {{input}}

測試并發布智能體。

修改對話流并調試發布之后，你就可以測試智能體效果并發布智能體。

在智能體編排頁面的右側調試區域，輸入問題進行測試。

完成測試后可單擊發布，將智能體發布到 API 或其他渠道。

效果測試

訪問 Realtime 智能音視頻 Demo，單擊 Settings，設置 Token 和對應的智能體。

單擊 Connect，選擇 Video，即可與智能體進行視頻通話。你可以通過語音指令讓智能體根據視頻畫面描述它看到的場景，智能體會根據你的語音指令進行回復。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/91070.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/91070.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/91070.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！