最新開源 TEN VAD 與 Turn Detection 讓 Voice Agent 對話更擬人 | 社區來稿

在這里插入圖片描述

關鍵詞:對話式 AI | 語音智能體 | Voice Agent | VAD | 輪次檢測 | 聲網 | TEN

GPT-4o 所展示對話式 AI 的新高度,正一步步把我們在電影《Her》中看到的 AI 語音體驗變成現實。AI 的語音交互正在變得更豐富、更流暢、更易用,成為構建多模態智能體的重要組成部分。

但是,“最后一公里”的挑戰仍然存在:Voice Agent 依然不像真人一樣交談。

在真實對話里,插話、停頓、甚至講話重疊都很常見。如果語音 AI 的回應太早、太晚、或者干脆沒有回應,整個用戶體驗就會變得很“出戲”。對話中的“怎么說”往往比“說了什么”更重要。一段停頓可能代表猶豫、禮貌、自信等不同含義。為了讓語音 AI 真正像人類一樣交談,它不能只是“聽見”并“答復”——它需要真正傾聽、理解上下文、并自然地應對。

為了解決以上問題,為大家介紹最新開源的兩款新模型:

  • TEN VAD(語音活動檢測)

  • TEN Turn Detection(輪次檢測)

這兩個模型是由聲網和RTE開發者社區主要支持,基于聲網十余年實時語音深度研究成果與超低延遲技術積累所打造的 高性能模型,能夠讓 AI Agent 的交互體驗更加自然。作為開源項目,任何人都可以自由使用、Fork 或為其貢獻代碼。這兩款模型也將作為 開源對話式 AI 生態體系 TEN 的核心模塊持續迭代優化。

TEN VAD:超低延遲、低功耗、高準確率的語音活動檢測模型

TEN VAD 是一個基于深度學習的輕量級流式語音活動檢測模型,具備低延遲、低功耗、高準確率等優勢。它通常用于語音輸入大語言模型(LLM)前的預處理步驟,準確識別是否音頻中包含人聲并過濾掉無效音頻(例如背景噪音或靜音段)。

雖然它的功能簡單,但作用十分強大:

  • 準確識別音頻幀中是否有人聲;

  • 判斷一句話的開始和結束位置;

  • 過濾掉無關音頻(背景噪音、靜音等);

這不僅提升了 STT 的準確性,還能顯著降低處理成本–避免將無意義的聲音送入到 STT 流程中從而產生費用。同時,如果你會用到“輪次檢測(Turn Detection)”,那么 VAD 是你的必選項,它是輪次檢測準確性的可靠保障。

性能對比

與目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公開的 TEN VAD 測試集上(來自多場景、逐幀人工標注),TEN VAD 展示出了更優的效果。

在這里插入圖片描述

在延遲方面 TEN VAD 同樣領先。它能快速檢測語音與非語音之間的切換,而 Silero VAD 則存在數百毫秒的延遲,導致人機交互系統的端到端延遲和打斷延遲增加。

圖片

開發者友好

TEN VAD 已在 Hugging Face 和 GitHub 上開源,并附帶人工精標的數據集(TEN VAD Test Sample),開發者可以一鍵使用進行模型推理或模型評估。

實際應用效果

一個真實用戶案例顯示,使用 TEN VAD 后,音頻傳輸數據量減少了 62% ,顯著降低了語音服務成本。

👉 在 Hugging Face 和 GitHub 上試用 TEN VAD

  • https://huggingface.co/TEN-framework/ten-vad

  • https://github.com/TEN-framework/ten-vad

TEN Turn Detection:讓 Voice Agent 學會“何時說、何時聽”

TEN Turn Detection 重在解決 人機對話中最難的部分 之一——判斷用戶何時停止說話。在真實交流中,AI 需要區分出“中途停頓”與“說完了”的差別。插話太早會打斷人類思路,太遲回應則會顯得遲鈍、不自然。

TEN Turn Detection 支持 全雙工語音交互 ,即允許用戶和 AI 同時說話,就像兩個人交流時那樣自然。

工作原理

它不僅識別語音內容,還通過分析語言模式,判斷說話者是在思考、猶豫,還是已經表達完畢;最終讓 AI 更智能地決定“該說”還是“該聽”,從而讓對話更加流暢自然。

該模型支持 中英文 ,可供所有 Voice Agent 開發者自由使用。

效果表現

我們在多場景測試數據集上對比了 TEN Turn Detection 和其他同類開源模型,各模型的表現如下:

圖片

👉 在 Hugging Face 和 GitHub 上試用 TEN Turn Detection

  • https://huggingface.co/TEN-framework/TEN_Turn_Detection

  • https://github.com/TEN-framework/ten-turn-detection

為什么選擇 TEN VAD 和 TEN Turn Detection?

當結合使用這兩個模型時可以打造出更自然、反應更迅速、成本更低的 Voice Agent:

開源 + 高質量

  • 基于聲網十多年實時語音深度研究經驗;

  • 超低延遲、低功耗、高準確率;

  • 完全開源,Apache 2.0 許可證,歡迎使用、修改和貢獻。

更自然的對話

  • 正確處理“打斷”、“停頓”、“回應”等人類式交互;

  • 極大提升用戶體驗。

成本更低

  • VAD 準確識別語音幀,有效減少語音識別調用量;

  • 實測結果顯示:兩者合用能大幅降低總系統成本。

即插即用

  • 可作為 TEN Framework 的插件模塊使用;

  • 對于已經使用 TEN Framework 的開發者,支持無縫集成;

  • 對于正在選型 AI Agent 框架的團隊,TEN 是具備最佳 VAD 和輪次檢測能力的選擇之一。

使用 TEN VAD 和 TEN Turn Detection 的最佳實踐

兩款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:

Hugging Face 上快速運行(推薦)

1.登錄 Hugging Face;

2.打開 TEN Agent Demo;

3.點擊右上角設置 > Duplicate this Space;

4.即可用 Hugging Face 提供的 GPU 部署完整體驗。

本地運行(自帶 GPU)

1.登錄 Hugging Face;

2.打開 Demo 頁右上角設置 > Run Locally;

3.按照本地部署指南(https://github.com/TEN-AI/TEN)操作即可運行完整。

在對話式 AI 的新時代,打造真正“像人”的 Voice Agent!

歡迎關注 TEN 系列產品的更新:

  • X / Twitter : @TenFramework

  • LinkedIn : Ten Framework

  • Medium : ten-framework.medium.com

📢 歡迎開發者加入我們的社區,共建 TEN!

  • 微信群: 添加 cyfyifanchen

  • Discord: https://discord.gg/w2AGczgB

  • 郵箱: developer@ten.ai

在這里插入圖片描述

更多 Voice Agent 學習筆記:

級聯vs端到端、全雙工、輪次檢測、方言語種、商業模式…語音 AI 開發者都在關心什么?丨Voice Agent 學習筆記

a16z 最新報告:AI 數字人應用層即將爆發,或將孕育數十億美金市場丨 Voice Agent 學習筆記

a16z合伙人:語音交互將成為AI應用公司最強大的突破口之一,巨頭們在B2C市場已落后太多丨Voice Agent 學習筆記

ElevenLabs 33 億美元估值的秘密:技術驅動+用戶導向的「小熊軟糖」團隊丨Voice Agent 學習筆記

端側 AI 時代,每臺家居設備都可以是一個 AI Agent丨Voice Agent 學習筆記

世界最炙手可熱的語音 AI 公司,舉辦了一場全球黑客松,冠軍作品你可能已經看過

多模態 AI 怎么玩?這里有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機交互的未來

a16z 最新語音 AI 報告:語音將成為關鍵切入點,但非最終產品本身(含最新圖譜)

在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/83283.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/83283.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/83283.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI實踐用例---日程規劃(通用日程管理文件ICS)靈感踩坑日常

我是一位踐行獨立開發者之路的菜鳥開發者。 由于執行力較差,常常有很多想法但是很多時候沒有去踐行。 所以我有了讓大模型為我生成日程安排的想法,這確實可以,很簡單。只需要將你的想法告訴ai就行了。 例如: 發給AI的提示詞: 我想你幫我對,嗯,未來的一年做一個嗯,大…

大疆無人機??DRC 鏈路

在大疆上云API中,??DRC 鏈路??通常指 ??Device-Cloud Remote Control Link(設備-云端遠程控制鏈路)??,它是無人機(或設備)與云端服務之間建立的??實時控制與數據傳輸通道??,用于實現…

tomcat一閃而過,按任意鍵繼續以及控制臺中文亂碼問題

問題描述 今天在打開tomcat,啟動startup.bat程序時 tomcat直接閃退,后面查找資料后發現,可以通過編輯startup.bat文件內容,在最后一行加入pause即可讓程序不會因為異常而終止退出 這樣方便查看tomcat所爆出的錯誤: 然后,我明確看到我的tomcat啟動程序顯示如下的內容,沒有明確…

中大型水閘安全監測系統解決方案

一、方案概述 中大型水閘作為水利工程的重要組成部分,承擔著調節水位、控制水流、防洪排澇等多重功能,在防洪減災、水資源配置、生態環境改善等方面發揮著巨大作用。然而,由于歷史原因,許多水閘存在建設標準偏低、質量較差、配套設…

軌跡誤差評估完整流程總結(使用 evo 工具)

roslaunch .launch rosbag play your_dataset.bag -r 2.0 ? 第二步:錄制估計軌跡 bash 復制編輯 rosbag record -O traj_only.bag /aft_mapped_to_init 運行一段時間后 CtrlC 停止,生成 traj_only.bag 第三步:提取估計軌跡和真值軌跡為…

Linux任務管理與守護進程

目錄 任務管理 jobs,fg,bg 進程組概念 任務概念 守護進程 守護進程的概念 守護進程的查看 守護進程的創建 ?編輯模擬實現daemon函數 任務管理 每當有一個用戶登錄Linux時,系統就會創建一個會話(session) 任何…

Json rpc 2.0比起傳統Json在通信中的優勢

JSON-RPC 2.0 相較于直接使用傳統 JSON 進行通信,在協議規范性、開發效率、通信性能等方面具有顯著優勢。以下是核心差異點及技術價值分析: 一、結構化通信協議,降低開發成本 傳統 JSON 通信需要開發者自定義數據結構和處理邏輯,…

機器學習與人工智能:NLP分詞與文本相似度分析

DIY AI & ML NLP — Tokenization & Text Similarity by Jacob Ingle in Data Science Collective 本文所使用的數據是在 Creative Commons license 下提供的。盡管我們已盡力確保信息的準確性和完整性,但我們不對數據的完整性或可靠性做任何保證。數據的使…

RK3568平臺OpenHarmony系統移植可行性評估

https://docs.openharmony.cn/pages/v5.0/zh-cn/device-dev/quick-start/quickstart-appendix-compiledform.md 官方給的標準系統就是RK3568, 所以肯定可以, 關于硬件加速部分 看了鴻蒙RK3568開發板的GPU編譯配置,只能說能用 https://docs.openharmony.cn/pages/v4.1/zh-cn/…

論文淺嘗 | HOLMES:面向大語言模型多跳問答的超關系知識圖譜方法(ACL2024)

筆記整理:李曉彤,浙江大學碩士,研究方向為大語言模型 論文鏈接:https://arxiv.org/pdf/2406.06027 發表會議:ACL 2024 1. 動機 多跳問答(Multi-Hop Question Answering, MHQA)技術近年來在自然語…

機器學習中的特征工程:解鎖模型性能的關鍵

在機器學習領域,模型的性能往往取決于數據的質量和特征的有效性。盡管深度學習模型在某些任務中能夠自動提取特征,但在大多數傳統機器學習任務中,特征工程仍然是提升模型性能的關鍵環節。本文將深入探討特征工程的重要性、常用方法以及在實際…

Kotlin與Java的融合趨勢:從互操作到云原生實踐

在2025年的軟件開發領域,Kotlin和Java作為JVM生態的支柱語言,展現出強大的協同能力。Kotlin以其簡潔的語法和現代特性迅速崛起,而Java憑借其成熟生態和穩定性依然占據主導地位。通過兩者的融合,我們的實時聊天系統將開發效率提升了…

Python生成器:高效處理大數據的秘密武器

生成器概述 生成器是 Python 中的一種特殊迭代器,通過普通函數的語法實現,但使用 yield 語句返回數據。生成器自動實現了 __iter__() 和 __next__() 方法,因此可以直接用于迭代。生成器的核心特點是延遲計算(lazy evaluation&…

Flask框架入門與實踐

Flask框架入門與實踐 Flask是一個輕量級的Python Web框架,以其簡潔、靈活和易于上手的特點深受開發者喜愛。本文將帶您深入了解Flask的核心概念、基本用法以及實際應用。 什么是Flask? Flask是由Armin Ronacher于2010年開發的微型Web框架。與Django等…

數學復習筆記 14

前言 和家里人交流了一下,他們還是希望我全力以赴初試,我確實也得放開了干,不要束手束腳的。好好加油。感覺公共課都沒有啥壓力,主要是專業課要好好加油,真不能過不了線,要是過不了線,啥都白搭…

金格iWebOffice控件在新版谷歌Chrome中不能加載了怎么辦?

金格iWebOffice控件是由江西金格網絡科技有限責任公司開發的中間件軟件,主要用于在瀏覽器中直接編輯Word、Excel、PowerPoint等Office文檔,曾經是一款優秀國產的WebOffice插件。 由于2022年Chrome等瀏覽器取消支持PPAPI接口,導致這款金格iWe…

ChatGPT 能“記住上文”的原因

原因如下 你把對話歷史傳給了它 每次調用 OpenAI 接口時,都會把之前的對話作為參數傳入(messages 列表),模型“看見”了之前你說了什么。 它沒有長期記憶 它不會自動記住你是誰或你說過什么,除非你手動保存歷史并再次…

微信小程序van-dialog確認驗證失敗時阻止對話框的關閉

使用官方(Vant Weapp - 輕量、可靠的小程序 UI 組件庫)的before-close&#xff1a; wxml&#xff1a; <van-dialog use-slot title"名稱" show"{{ show }}" show-cancel-button bind:cancel"onClose" bind:confirm"getBackInfo"…

K8S Ingress、IngressController 快速開始

假設有如下三個節點的 K8S 集群&#xff1a; ? k8s31master 是控制節點 k8s31node1、k8s31node2 是工作節點 容器運行時是 containerd 一、理論介紹 1&#xff09;什么是 Ingress 定義&#xff1a;Ingress 是 Kubernetes 中的一種資源對象&#xff0c;它定義了外部訪問集群內…

Vue3 + Element Plus 動態表單實現

完整代碼 <template><div class"dynamic-form-container"><el-formref"dynamicFormRef":model"formData":rules"formRules"label-width"auto"label-position"top"v-loading"loading"&g…