關鍵詞:對話式 AI | 語音智能體 | Voice Agent | VAD | 輪次檢測 | 聲網 | TEN
GPT-4o 所展示對話式 AI 的新高度,正一步步把我們在電影《Her》中看到的 AI 語音體驗變成現實。AI 的語音交互正在變得更豐富、更流暢、更易用,成為構建多模態智能體的重要組成部分。
但是,“最后一公里”的挑戰仍然存在:Voice Agent 依然不像真人一樣交談。
在真實對話里,插話、停頓、甚至講話重疊都很常見。如果語音 AI 的回應太早、太晚、或者干脆沒有回應,整個用戶體驗就會變得很“出戲”。對話中的“怎么說”往往比“說了什么”更重要。一段停頓可能代表猶豫、禮貌、自信等不同含義。為了讓語音 AI 真正像人類一樣交談,它不能只是“聽見”并“答復”——它需要真正傾聽、理解上下文、并自然地應對。
為了解決以上問題,為大家介紹最新開源的兩款新模型:
-
TEN VAD(語音活動檢測)
-
TEN Turn Detection(輪次檢測)
這兩個模型是由聲網和RTE開發者社區主要支持,基于聲網十余年實時語音深度研究成果與超低延遲技術積累所打造的 高性能模型,能夠讓 AI Agent 的交互體驗更加自然。作為開源項目,任何人都可以自由使用、Fork 或為其貢獻代碼。這兩款模型也將作為 開源對話式 AI 生態體系 TEN 的核心模塊持續迭代優化。
TEN VAD:超低延遲、低功耗、高準確率的語音活動檢測模型
TEN VAD 是一個基于深度學習的輕量級流式語音活動檢測模型,具備低延遲、低功耗、高準確率等優勢。它通常用于語音輸入大語言模型(LLM)前的預處理步驟,準確識別是否音頻中包含人聲并過濾掉無效音頻(例如背景噪音或靜音段)。
雖然它的功能簡單,但作用十分強大:
-
準確識別音頻幀中是否有人聲;
-
判斷一句話的開始和結束位置;
-
過濾掉無關音頻(背景噪音、靜音等);
這不僅提升了 STT 的準確性,還能顯著降低處理成本–避免將無意義的聲音送入到 STT 流程中從而產生費用。同時,如果你會用到“輪次檢測(Turn Detection)”,那么 VAD 是你的必選項,它是輪次檢測準確性的可靠保障。
性能對比
與目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公開的 TEN VAD 測試集上(來自多場景、逐幀人工標注),TEN VAD 展示出了更優的效果。
在延遲方面 TEN VAD 同樣領先。它能快速檢測語音與非語音之間的切換,而 Silero VAD 則存在數百毫秒的延遲,導致人機交互系統的端到端延遲和打斷延遲增加。
開發者友好
TEN VAD 已在 Hugging Face 和 GitHub 上開源,并附帶人工精標的數據集(TEN VAD Test Sample),開發者可以一鍵使用進行模型推理或模型評估。
實際應用效果
一個真實用戶案例顯示,使用 TEN VAD 后,音頻傳輸數據量減少了 62% ,顯著降低了語音服務成本。
👉 在 Hugging Face 和 GitHub 上試用 TEN VAD
-
https://huggingface.co/TEN-framework/ten-vad
-
https://github.com/TEN-framework/ten-vad
TEN Turn Detection:讓 Voice Agent 學會“何時說、何時聽”
TEN Turn Detection 重在解決 人機對話中最難的部分 之一——判斷用戶何時停止說話。在真實交流中,AI 需要區分出“中途停頓”與“說完了”的差別。插話太早會打斷人類思路,太遲回應則會顯得遲鈍、不自然。
TEN Turn Detection 支持 全雙工語音交互 ,即允許用戶和 AI 同時說話,就像兩個人交流時那樣自然。
工作原理
它不僅識別語音內容,還通過分析語言模式,判斷說話者是在思考、猶豫,還是已經表達完畢;最終讓 AI 更智能地決定“該說”還是“該聽”,從而讓對話更加流暢自然。
該模型支持 中英文 ,可供所有 Voice Agent 開發者自由使用。
效果表現
我們在多場景測試數據集上對比了 TEN Turn Detection 和其他同類開源模型,各模型的表現如下:
👉 在 Hugging Face 和 GitHub 上試用 TEN Turn Detection
-
https://huggingface.co/TEN-framework/TEN_Turn_Detection
-
https://github.com/TEN-framework/ten-turn-detection
為什么選擇 TEN VAD 和 TEN Turn Detection?
當結合使用這兩個模型時可以打造出更自然、反應更迅速、成本更低的 Voice Agent:
開源 + 高質量
-
基于聲網十多年實時語音深度研究經驗;
-
超低延遲、低功耗、高準確率;
-
完全開源,Apache 2.0 許可證,歡迎使用、修改和貢獻。
更自然的對話
-
正確處理“打斷”、“停頓”、“回應”等人類式交互;
-
極大提升用戶體驗。
成本更低
-
VAD 準確識別語音幀,有效減少語音識別調用量;
-
實測結果顯示:兩者合用能大幅降低總系統成本。
即插即用
-
可作為 TEN Framework 的插件模塊使用;
-
對于已經使用 TEN Framework 的開發者,支持無縫集成;
-
對于正在選型 AI Agent 框架的團隊,TEN 是具備最佳 VAD 和輪次檢測能力的選擇之一。
使用 TEN VAD 和 TEN Turn Detection 的最佳實踐
兩款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:
Hugging Face 上快速運行(推薦)
1.登錄 Hugging Face;
2.打開 TEN Agent Demo;
3.點擊右上角設置 > Duplicate this Space;
4.即可用 Hugging Face 提供的 GPU 部署完整體驗。
本地運行(自帶 GPU)
1.登錄 Hugging Face;
2.打開 Demo 頁右上角設置 > Run Locally;
3.按照本地部署指南(https://github.com/TEN-AI/TEN)操作即可運行完整。
在對話式 AI 的新時代,打造真正“像人”的 Voice Agent!
歡迎關注 TEN 系列產品的更新:
-
X / Twitter : @TenFramework
-
LinkedIn : Ten Framework
-
Medium : ten-framework.medium.com
📢 歡迎開發者加入我們的社區,共建 TEN!
-
微信群: 添加 cyfyifanchen
-
Discord: https://discord.gg/w2AGczgB
-
郵箱: developer@ten.ai
更多 Voice Agent 學習筆記:
級聯vs端到端、全雙工、輪次檢測、方言語種、商業模式…語音 AI 開發者都在關心什么?丨Voice Agent 學習筆記
a16z 最新報告:AI 數字人應用層即將爆發,或將孕育數十億美金市場丨 Voice Agent 學習筆記
a16z合伙人:語音交互將成為AI應用公司最強大的突破口之一,巨頭們在B2C市場已落后太多丨Voice Agent 學習筆記
ElevenLabs 33 億美元估值的秘密:技術驅動+用戶導向的「小熊軟糖」團隊丨Voice Agent 學習筆記
端側 AI 時代,每臺家居設備都可以是一個 AI Agent丨Voice Agent 學習筆記
世界最炙手可熱的語音 AI 公司,舉辦了一場全球黑客松,冠軍作品你可能已經看過
多模態 AI 怎么玩?這里有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?
對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機交互的未來
a16z 最新語音 AI 報告:語音將成為關鍵切入點,但非最終產品本身(含最新圖譜)