【AI智能體】智能音視頻-搭建可視化智能體

可視化智能體是語音小伴侶智能體的升級版,支持語音與視頻的雙模態交互。本文詳細介紹了音視頻交互的實現原理、智能體搭建方法及效果測試,幫助開發者快速構建支持音視頻交互的智能體。

應用場景

可視化智能體適用于多種場景,舉例如下:

  • 智能穿戴:用戶可以通過智能眼鏡等設備與智能體交互,實時獲取導航指引,識別周邊地標并接收語音或文字提示,提升出行便捷性與安全性。
  • 智慧家居:用戶通過音視頻與智能家居設備交互,可遠程查看空調、燈光等智能家電的狀態,實時監控漏水、外人入侵等異常情況并觸發報警,從而提升家居生活的便捷性和安全性。
  • 智慧醫療:醫護人員通過音視頻與患者遠程會診,患者可在線展示癥狀(舌苔 / 傷口等),智能體自動識別分析初步判斷病因,同步病歷數據、調取檢驗報告并提供輔助診斷建議,優化遠程醫療流程。
  • 智能客服:企業客服場景中,用戶通過音視頻描述問題(如產品故障畫面),智能體結合語音語義與視頻畫面精準定位需求,實時生成解決方案,支持復雜問題一鍵轉接人工并附詳細記錄,提升服務效率與用戶體驗。

實現原理

扣子音視頻交互的業務流程如下圖所示。

業務流程說明如下:

  1. 設備端采集音視頻數據。
    • 視頻采集:設備通過攝像頭進行視頻采集,生成視頻流。
    • 音頻采集:設備利用麥克風進行音頻采集,產生音頻流。
  2. RTC 網關處理音視頻流。
    • 視頻流:從設備端傳輸至 RTC 網關后,RTC 網關對視頻流進行抽幀操作,將視頻流轉換為圖片流。
    • 音頻流:保持原始音頻流傳輸,推送至扣子服務。
  3. 扣子智能體對音視頻數據進行智能處理并反饋結果。
    • 音頻處理:音頻流進入扣子服務中的自動語音識別(ASR)模塊,將音頻流轉換為文本流。
    • 智能處理與反饋:文本流和圖片流輸入智能體后,智能體根據預設的邏輯和模型進行處理。處理結果一方面傳輸至文本轉語音(TTS)模塊,TTS 模塊將文本轉換為音頻流,該音頻流傳輸至設備的揚聲器進行播放,從而實現語音交互功能;另一方面,智能體結合圖片信息和用戶輸入的文本信息,生成更精準、更豐富的交互內容。

搭建智能體

本場景中,你需要搭建一個能夠支持音視頻通話的智能體。扣子支持多種方式搭建音視頻通話的智能體,以下是各方案的優缺點及適用場景:

方案

適用場景

優缺點

單 Agent(對話流模式)

對實時性要求較高的場景。

  • 靈活且高效,時延較低。
  • 通過對話流編排,能夠清晰地定義不同節點的邏輯,便于搭建復雜的業務場景。

單 Agent(自主規劃模式)

簡單的閑聊,對時延要求不高的場景,不適用于復雜的邏輯場景。

  • 配置簡單,易于上手。
  • 智能體中添加插件和工作流會導致延時增加。

方案一:單 Agent(自主規劃模式)智能體

創建單 Agent(自主規劃模式)類型的智能體,選擇支持視覺理解的模型,例如豆包·視覺理解·Pro 模型。

人設與回復邏輯區域,設計智能體的角色和回復邏輯。例如:

你是一個帶眼睛的智能體,看到的東西通過圖片傳給你,請結合圖片和用戶的輸入進行口語化回答。

測試智能體效果,并將智能體發布到 API 或其他渠道。

方案二:單 Agent(對話流模式)智能體

本場景基于語音小伴侶模板進行改造,在支持語音閑聊的基礎上,增加視頻閑聊的功能,實現語音 + 視覺雙模態交互。

步驟 1:復制模板

打開語音小伴侶智能體,然后單擊復制

選擇智能體的所屬空間并輸入一個智能體名稱,然后單擊確定

在智能體編排頁面開啟視頻通話,開啟后,扣子會自動添加 sys_images 系統變量。

在視頻通話過程中,扣子會將攝像頭或屏幕共享捕捉到的畫面進行抽幀處理,并將抽幀后的圖片流存放在sys_images變量中。你可以在對話流中引用該變量作為視覺模型的輸入,幫助智能體理解用戶的動作和行為。

(可選)在復制的智能體編排頁面,單擊智能體名稱旁的修改圖標,修改智能體名稱。

根據實際需求,修改開場白文案和預置問題。

步驟 2:改造對話流

在本場景中,需要將語音小伴侶智能體中的對話流改造為支持視頻閑聊的對話流。改造后的對話流編排詳情如下圖所示。

將閑聊節點修改為支持視頻的閑聊節點具體實現說明如下表所示。

區域

修改說明

示例

模型

將模型改為支持視覺理解的模型,例如豆包·視覺理解·Pro 模型。

視覺理解輸入

添加 sys_images參數,參數的值引用智能體中添加的sys_images 系統變量。

sys_images參數用于存放視頻流抽幀后的圖片流。

系統提示詞

根據實際場景,修改系統提示詞中的技能。

# 角色
你是一個高效且知識淵博的生活小助理,能陪伴用戶。## 技能
### 技能 1: 閑聊陪伴
1. 積極與用戶互動,傾聽用戶的心聲,給予溫暖的回應,回復100字左右。
2. 結合歷史消息和用戶當前輸入,根據用戶的話題展開有趣的討論,讓用戶感受到陪伴。
3. 你擁有視覺,有必要的話,可以結合一下你眼前看到的東西。
4. 說話的人就在你眼前。## 用戶個人信息
- 用戶畫像是: {{user_profile}}
- 用戶歷史記憶點是: {{user_memory_point}}
- 結合用戶畫像和用戶歷史發生過的記憶點事件,靈活的回答用戶的問題## 環境信息
- 當前的日期:{{current_date}}
- 當前的時間:{{current_time}}## 回答格式
- 直接輸出文本,不要輸出 json## 限制:
- 只回答與生活相關或百科知識范圍內的問題,拒絕回答無關話題。
- 所輸出的內容必須按照給定的格式進行組織,不能偏離框架要求。
- 請確保信息來源準確可靠,必要時注明引用來源。用戶提示詞
引用輸入參數中的 sys_images 和 input 參數。

用戶提示詞

引用輸入參數中的 sys_images 和 input 參數。

## 你眼前的內容

{{sys_images}}

## 用戶當前輸入

{{input}}

測試并發布智能體。

修改對話流并調試發布之后,你就可以測試智能體效果并發布智能體。

在智能體編排頁面的右側調試區域,輸入問題進行測試。

完成測試后可單擊發布,將智能體發布到 API 或其他渠道。

效果測試

訪問 Realtime 智能音視頻 Demo,單擊 Settings,設置 Token 和對應的智能體。

單擊 Connect,選擇 Video,即可與智能體進行視頻通話。你可以通過語音指令讓智能體根據視頻畫面描述它看到的場景,智能體會根據你的語音指令進行回復。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/91070.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/91070.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/91070.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Sensoglove推出新一代外骨骼力反饋手套:主動力反饋+亞毫米級手指追蹤,助力機器人操控與虛擬仿真

在工業自動化、虛擬現實和醫療康復等領域,高精度手部交互設備的需求日益增長。Sensoglove推出的Rembrandt外骨骼力反饋手套,結合主動力反饋、觸覺反饋與亞毫米級追蹤技術,為用戶提供更自然、更安全的操作體驗。Sensoglove外骨骼力反饋手套核心…

AutoMapper入門

在 ASP.NET Core 開發中,我們經常需要在不同層之間傳遞數據:比如從數據庫模型(Entity)轉換到 DTO,再從 DTO 轉換為前端視圖模型。這些轉換代碼大量重復、冗長、容易出錯。為了解決這個問題,AutoMapper 誕生…

PyTorch武俠演義 第一卷:初入江湖 第1章:武林新秀遇Tensor - 張量基礎

第一卷:初入江湖 第1章:武林新秀遇Tensor - 張量基礎晨起碼農村 雞鳴三聲,林小碼已經收拾好了行囊。他最后看了眼床頭那本翻舊的《Python入門心法》,輕輕撫平卷起的書角。 "小碼,路上小心。"父親將一把青銅匕…

Python進階(4):類與面向對象程序設計

面向對象OOPOOP:Object Oriented Programming,面向對象編程,面向對象中的對象(Obiect),通常是指客觀世界中存在的對象,這個對象具有唯一性,對象之間各不相同,各有各的特點,每個對象都有自己的運動規律和內部狀態;對象與…

如何在 Shopify 中創建退貨標簽

退貨是電商運營中不可避免的一環,而一個順暢、透明的退貨流程,不僅能減少客戶投訴,也有助于提升顧客對品牌的信任與忠誠度。Shopify 雖然沒有內建退貨標簽自動生成功能,但通過合理設置與外部工具整合,你完全可以打造一…

I2C設備寄存器讀取調試方法

1、查看I2C掛載設備 2、讀取i2C設備所有寄存器 3、讀取i2c設備的某個寄存器 4、向i2C設備某個寄存器寫入一個值1、查看

K8S的Helm包管理器

一、背景 官網: https://helm.sh/ 我們針對K8S環境中,部署對應的應用,無外乎就是編寫一堆yaml資源清單文件. 資源清單、依賴性少的時候,可以直接手動維護。但是,隨著資源清單越來越復雜,越來越多,不同的環…

多模態數據處理新趨勢:阿里云ODPS技術棧深度解析與未來展望

多模態數據處理新趨勢:阿里云ODPS技術棧深度解析與未來展望 🌟 嗨,我是IRpickstars! 🌌 總有一行代碼,能點亮萬千星辰。 🔍 在技術的宇宙中,我愿做永不停歇的探索者。 ? 用代碼丈…

AI數據分析儀設計原理圖:RapidIO信號接入 平板AI數據分析儀

AI數據分析儀設計原理圖:RapidIO信號接入 平板AI數據分析儀 1 、概述 本儀器是一款面向工業控制、新能源、震動測量等業務開發的平板AI數據分析儀。基于 Jetson Orin Nano(AI邊緣計算)、實現RapidIO接口數據接入,進行AI分析。Rap…

人工智能正逐步商品化,而“理解力”才是開發者的真正超能力

每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領…

玩轉ClaudeCode:ClaudeCode安裝教程(Windows+Linux+MacOS)

Windows 環境安裝 Claude Code 一、安裝 WSL 環境 1. 確認 Windows 功能已開啟 打開 “控制面板 → 程序 → 啟用或關閉 Windows 功能” 勾選 “適用于 Linux 的 Windows 子系統” 和 “虛擬機平臺” 點“確定”后重啟電腦。 開機后,管理員模式打開 Terminal…

PyTorch多層感知機(MLP)模型構建與MNIST分類訓練

沖沖沖😊 here😊 文章目錄PyTorch多層感知機模型構建與MNIST分類訓練筆記🎯 1. 任務概述?? 2. 環境設置2.1 導入必要庫2.2 GPU配置🧠 3. 模型構建3.1 模型定義關鍵點3.2 損失函數選擇3.3 模型初始化與設備選擇🔧 4. …

android tabLayout 切換fragment fragment生命周期

1、TabLayout 與 Fragment 結合使用的常見方式 通常會使用 FragmentPagerAdapter 或 FragmentStatePagerAdapter 與 ViewPager 配合,再將 TabLayout 與 ViewPager 關聯,實現通過 TabLayout 切換 Fragment。 以下是布局文件示例 activity_main.xml: <LinearLayout xmln…

馬蹄集 BD202401補給

可怕的戰爭發生了&#xff0c;小度作為后勤保障工作人員&#xff0c;也要為了保衛國家而努力。現在有 N(1≤N≤)個堡壘需要補給&#xff0c;然而總的預算 B(1≤B≤)是有限的。現在已知第 i 個堡壘需要價值 P(i) 的補給&#xff0c;并且需要 S(i) 的運費。 鑒于小度與供應商之間…

《Llava:Visual Instruction Tuning》論文精讀筆記

論文鏈接&#xff1a;arxiv.org/pdf/2304.08485 參考視頻&#xff1a;LLAVA講解_嗶哩嗶哩_bilibili [論文速覽]LLaVA: Visual Instruction Tuning[2304.08485]_嗶哩嗶哩_bilibili 標題&#xff1a;Visual Instruction Tuning 視覺指令微調 背景引言 大模型的Instruction…

【DataWhale】快樂學習大模型 | 202507,Task01筆記

引言 我從2016年開始接觸matlab看別人做語音識別&#xff0c;再接觸tensorflow的神經網絡&#xff0c;2017年接觸語音合成&#xff0c;2020年做落地的醫院手寫數字識別。到2020年接觸pytorch做了計算機視覺圖像分類&#xff0c;到2021年做了目標檢測&#xff0c;2022年做了文本…

機器學習中的樸素貝葉斯(Naive Bayes)模型

1. 用實例來理解樸素貝葉斯 下面用具體的數據來演示垃圾郵件 vs 正常郵件的概率計算假設我們有一個小型郵件數據集郵件內容類別&#xff08;垃圾/正常&#xff09;“免費 贏取 大獎”垃圾“免費 參加會議”正常“中獎 點擊 鏈接”垃圾“明天 開會”正常“贏取 免費 禮品”垃圾 …

document.documentElement詳解

核心概念定義 它始終指向當前文檔的根元素&#xff0c;在 HTML 文檔中對應 <html> 標簽。與 document.body&#xff08;對應 <body>&#xff09;和 document.head&#xff08;對應 <head>&#xff09;形成層級關系。與 document.body 的區別 <html> &l…

c#進階之數據結構(動態數組篇)----Queue

1、簡介這個是c#封裝的隊列類型&#xff0c;同棧相反&#xff0c;這個是先進先出&#xff0c;一般用于事件注冊&#xff0c;或者數據的按順序處理&#xff0c;理解為需要排隊處理的可以用隊列來處理。注意&#xff0c;隊列一定是有順序的&#xff0c;先進確實是會先出&#xff…

使用 keytool 在服務器上導入證書操作指南(SSL 證書驗證錯誤處理)

使用 keytool 在服務器上導入證書操作指南(SSL 證書驗證錯誤處理) 一、概述 本文檔用于指導如何在運行 Java 應用程序的服務器上,通過keytool工具將證書導入 Java 信任庫,解決因證書未被信任導致的 SSL/TLS 通信問題(如PKIX path building failed錯誤)。 二、操作步驟…