Pipecat: 創建語音對話agent的開源框架,支持多模態!

項目簡介

pipecat?是用于構建語音(和多模態)對話代理的框架。諸如私人教練、會議助理、兒童講故事玩具、客戶支持機器人、攝入流程和尖刻的社交伙伴。

看看一些示例應用:

??

語音代理入門

您可以開始在本地計算機上運行 Pipecat,然后在準備就緒后將代理進程移動到云中。您還可以添加📞電話號碼、🖼?圖像輸出、📺視頻輸入、使用不同的 LLMs,等等。

1 # install the module2 pip install pipecat-ai
4 # set up an .env file with API keys5 cp dot-env.template .env

默認情況下,為了最小化依賴關系,只有基本的框架功能可用。某些第三方 AI 服務需要額外的依賴項,您可以使用這些依賴項進行安裝:

您的項目可能需要也可能不需要這些,因此它們作為可選要求提供。下面是一個列表:

  • AI services:?anthropic,?azure,?fal,?moondream,?openai,?playht,?silero,?whisper

  • Transports:?local,?websocket,?daily

代碼示例

  • 基礎 — 相互構建的小片段,一次引入一個或兩個概念

  • 示例應用程序 — 可用作開發起點的完整應用程序

本地運行的簡單語音代理

這是一個非常基本的 Pipecat 機器人,當用戶加入實時會話時,它會向他們打招呼。我們將使用 Daily 進行實時媒體傳輸,并使用 ElevenLabs 進行文本轉語音。

?

運行它:

?

Daily 提供預構建的?WebRTC?用戶界面。在應用程序運行時,您可以訪問?https://<yourdomain>.daily.co/<room_url>?并聽機器人打招呼!

用于生產的 WebRTC

WebSocket?非常適合服務器到服務器的通信或初始開發。但對于生產用途,您需要客戶端-服務器音頻才能使用專為實時媒體傳輸而設計的協議。(有關 WebSockets 和 WebRTC 之間區別的解釋,請參閱這篇文章。

快速啟動和運行WebRTC的一種方法是注冊一個Daily開發者帳戶。Daily 為您提供用于音頻(和視頻)路由的 SDK 和全球基礎設施。每個帳戶每月可免費獲得 10,000 分鐘的音頻/視頻/轉錄時間。

在此處注冊并在開發者儀表板中創建房間。

什么是VAD?

語音活動檢測 — 對于了解用戶何時完成與機器人的通話非常重要。如果您不使用按壓通話,并希望 Pipecat 檢測用戶何時完成通話,VAD 是自然感覺對話的重要組成部分。

Pipecast 在使用 WebRTC 傳輸層時默認使用 WebRTC VAD。或者,您可以使用Silero VAD來提高精度,但代價是CPU使用率更高。

?

?首次使用 Silero 運行機器人時,啟動可能需要一段時間,同時在后臺下載和緩存模型。您可以在控制臺中查看此操作的進度。

黑客攻擊框架本身

請注意,在按照以下說明操作之前,您可能需要設置虛擬環境。例如,您可能需要從存儲庫的根目錄運行以下命令:????

?在此存儲庫的根目錄下,運行以下命令:

?這將生成包。若要在本地使用包(例如運行示例文件),請運行

運行測試

從根目錄中,運行:

項目鏈接

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/19567.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/19567.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/19567.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Nginx(openresty) 開啟目錄瀏覽 以及進行美化配置

1 nginx 安裝 可以參考:Nginx(openresty) 通過lua結合Web前端 實現圖片&#xff0c;文件&#xff0c;視頻等靜態資源 訪問權限驗證&#xff0c;進行鑒權 &#xff0c;提高安全性-CSDN博客 2 開啟目錄瀏覽 location /file{alias /data/www/; #指定目錄所在路徑autoindex on; …

【數學不建模】賽程安排

你所在的年級有5個班&#xff0c;每班一支球隊在同一塊場地上進行單循環賽, 共要進行10場比賽. 如何安排賽程使對各隊來說都盡量公平呢. 下面是隨便安排的一個賽程: 記5支球隊為A, B, C, D, E&#xff0c;在下表左半部分的右上三角的10個空格中, 隨手填上1,2,10, 就得到一個賽程…

【機器學習】之 K-最近鄰(KNN)算法原理及實現

K-最近鄰&#xff08;K-Nearest Neighbors, KNN&#xff09;是一種簡單且直觀的監督學習算法&#xff0c;廣泛應用于分類和回歸任務。本文將介紹KNN算法的基本概念、實現細節以及Python代碼示例。 基本概念 KNN算法的核心思想是&#xff1a;給定一個測試樣本&#xff0c;根據…

上位機圖像處理和嵌入式模塊部署(f407 mcu vs f103)

【 聲明&#xff1a;版權所有&#xff0c;歡迎轉載&#xff0c;請勿用于商業用途。 聯系信箱&#xff1a;feixiaoxing 163.com】 對于一部分嵌入式場景來說&#xff0c;f103其實已經足夠了&#xff0c;特別是要求不高的低速場合。如果開發的代碼比較多&#xff0c;還可以選用更…

黑馬es集群

1、為什么要做es集群 單機的elasticsearch做數據存儲&#xff0c;必然面臨兩個問題:海量數據存儲問題、單點故障問題 海量數據存儲問題:將索引庫從邏輯上拆分為N個分片(shard)&#xff0c;存儲到多個節點 單點故障問題:將分片數據在不同節點備份(replica) 2、搭建es集群 1、用…

Python 數據庫編程(Mysql)

目錄 知識點 游標 提交事務 檢索數據 回滾 關閉 增刪改查 查詢 新增 修改 刪除 回滾的用法 知識點 游標 在Python中&#xff0c;數據庫游標&#xff08;cursor&#xff09;是用于執行SQL語句并檢索數據的對象。游標允許你在數據庫中移動并操作數據。在使用Python進…

請說明Vue的filter的理解與用法

Vue.js 的 filter 是一種特殊的功能&#xff0c;允許你在mustache插值 ({{ }}) 或 v-bind 表達式中預處理文本。然而&#xff0c;需要注意的是&#xff0c;從 Vue 2.x 開始&#xff0c;filter 已被標記為廢棄&#xff0c;并且在 Vue 3.x 中已完全移除。盡管如此&#xff0c;了解…

力扣Hot100-有效的括號(棧stack)

給定一個只包括 (&#xff0c;)&#xff0c;{&#xff0c;}&#xff0c;[&#xff0c;] 的字符串 s &#xff0c;判斷字符串是否有效。 有效字符串需滿足&#xff1a; 左括號必須用相同類型的右括號閉合。左括號必須以正確的順序閉合。每個右括號都有一個對應的相同類型的左括…

【C++】哈希(2萬字)

提示&#xff1a;文章寫完后&#xff0c;目錄可以自動生成&#xff0c;如何生成可參考右邊的幫助文檔 目錄 前言 unordered系列關聯式容器 unordered_map unordered_map的文檔介紹 unordered_map的接口說明 unordered_set 底層結構 哈希概念 哈希沖突 哈希函數 哈希…

Whisper-AT:抗噪語音識別模型(Whisper)實現通用音頻事件標記(Audio Tagger)

1.概述: Whisper-AT 是建立在 Whisper 自動語音識別&#xff08;ASR&#xff09;模型基礎上的一個模型。Whisper 模型使用了一個包含 68 萬小時標注語音的大規模語料庫進行訓練&#xff0c;這些語料是在各種不同條件下錄制的。Whisper 模型以其在現實背景噪音&#xff08;如音樂…

探究 Meme 的金融與社交屬性

原文標題&#xff1a;《A Social and Financial Study of Memecoins》撰文&#xff1a;Andrew Hong編譯&#xff1a;Chris&#xff0c;Techub News 每一個市場周期都伴隨著 Meme 代幣的出現。一群人圍繞著某個 Meme 集結起來&#xff0c;暫時抬高了某個資產的價格&#xff08;從…

Github Copilot登錄賬號,完美支持chat

Github Copilot 代碼補全等功能&#xff0c;提高寫代碼的效率 https://web.52shizhan.cn/activity/copilot 登錄授權后&#xff0c;已經可以使用&#xff0c;完美。如圖

flutter 自動生成靜態資源的引用

flutter_gen庫的使用 第一步、項目yarml中dev_dependencies 新增一下flutter_gen_runner 和build_runner dev_dependencies:build_runner: nullflutter_gen_runner: null # flutter packages pub run build_runner build 第二步、新增配置信息 和(dev_dependencies 同級的) …

大話設計模式學習筆記

目錄 工廠模式策略模式備忘錄模式&#xff08;快照模式&#xff09;代理模式單例模式迭代器模式訪問者模式觀察者模式解釋器模式命令模式模板方法模式橋接模式適配器模式外觀模式享元模式原型模式責任鏈模式中介者模式裝飾模式狀態模式 工廠模式 策略模式 核心&#xff1a;封裝…

03.k8s常用的資源

3.k8s常用的資源 3.1 創建pod資源 k8s yaml的主要組成 apiVersion: v1 api版本 kind: pod 資源類型 metadata: 屬性 spec: 詳細上傳nginx鏡像文件&#xff0c;并且上傳私有倉庫里面 k8s_pod.yaml apiVersion: v1 kind: Pod metadata:name: nginxlabels:app: we…

prometheus 標簽選擇器 正則表達式 = 、=~

Prometheus expression是一種用于查詢和操作Prometheus時間序列數據的查詢語言。它具有一套豐富的函數和運算符&#xff0c;可以用于提取、聚合和轉換時間序列數據。 正則表達式在Prometheus expresion中也被廣泛使用&#xff0c;可以用于匹配和過濾時間序列。 Prometheus ex…

Tuxera Ntfs For Mac 2023的具體使用方法

大家都知道由于操作系統的原因&#xff0c;在蘋果電腦上不能夠讀寫NTFS磁盤&#xff0c;但是&#xff0c;今天小編帶來的這款tuxera ntfs 2024 mac 破解版&#xff0c;完美的解決了這個問題。這是一款在macOS平臺上使用的磁盤讀寫軟件&#xff0c;能夠實現蘋果Mac OS X系統讀寫…

CSS實驗性功能及CSS4特性

CSS4目前仍然是一個寬泛的概念,因為CSS的發展通常是通過一系列逐步完善的模塊來進行的,而不是一次性推出一個全新的“第四代”。許多所謂的“CSS4”特性實際上是正在開發或已經草案階段的CSS模塊,它們可能在未來的CSS規范中被正式采納。 選擇器4: :is() 和 :where() 偽類允…

Docker的數據管理(數據卷+數據卷容器)

文章目錄 一、Docker的數據管理1、概述2、主要的技術&#xff08;三種數據掛載方式&#xff09;2.1、數據卷&#xff08;Volumes&#xff09;2.2、綁定掛載&#xff08;Bind mounts&#xff09;2.3、tmpfs掛載&#xff08;Tmpfs mounts&#xff09;2.4、之間的關系&#xff08;…

偏微分方程算法之二階雙曲型方程交替方向隱格式(變形一)

目錄 一、研究目標 二、變形 三、算例實現 四、計算結果 本專欄介紹了二階雙曲型偏微分方程的交替方向隱格式的介紹和推導(鏈接如下),本節將進一步研究二維雙曲型方程初邊值問題其它的交替方向隱格式。