過去幾個月,TEN Framework 團隊與 Agora 和聲網圍繞 “對話式AI”題,踏上了橫跨全球五大城市的精彩旅程——東京、舊金山、巴黎、北京、京都。 五場精心籌備的Workshop 場場爆滿, 匯聚了來自當地及全球的開發者、創業者、產品經理與語音技術愛好者。得益于 RTE 開發者社區與全球多地 AI 社區的鼎力支持,我們得以深入探討 Voice Agent 的前沿趨勢、真實應用場景與落地開發實踐。
每一站,都上演著不同的故事,碰撞出獨特的火花。 現在,就讓我們一起回顧這趟旅程的精彩瞬間!
東京站|Avatar實時交互,引爆現場興奮點
四月,東京,旅程啟航。 首場Workshop聚焦于Avatar驅動的實時交互體驗。
🤩 核心印象: Avatar + 實時交互 = 未來感十足!
🎤 重量級分享: Microsoft 深入解析 GPT-4o Realtime API 的語音對話落地;TEN Framework 揭秘開源語音代理框架的最佳實踐;聲網和 Agora 展示對話式方案的卓越效果與客戶案例;Dify 社區大使 Alec Lee 則帶來結合 TEN 和 Dify 構建語音交互數字人的創新方案。現場討論熱烈,焦點集中在部署細節、延遲優化及Demo的驚艷效果。
💻 實戰演練: 參與者親自動手,在本地部署 TEN Agent,并通過 Playground 接入 Azure OpenAI 語音服務,親手搭建出可實時對話的 Voice Agent。 從原理到實操,體驗全鏈路打通。現場還有 Felo(AI翻譯)、MeltingHack & TUM.ai(AI社群)、UniConvo(Chatbot)、EMQ(MQTT通信)等伙伴交流互動,氣氛火熱。
舊金山站|VAD & 輪次檢測首秀,開發者聚焦語音體驗“魔鬼細節”
五月,微軟大廈,舊金山站。 這里聚集了來自 Oracle、Google、字節跳動等大廠,以及AI教育、企業效率、醫療等領域的創業者和高校學生,背景極其多元。
🤩核心印象: 技術控的盛宴,VAD & 輪次檢測解決關鍵痛點!
🎤技術深度解析: Microsoft、TEN 與聲網和 Agora 持續輸出干貨。TEN 團隊首次開源 VAD(語音活動檢測)與 Turn Detection(輪次檢測)模塊成為焦點! 該組件能精準判斷語音起止和對話輪次,顯著提升實時對話的流暢度與自然度。 現場提問不斷,低延時、模型選擇、成本與應用落地是開發者最關心的話題。
💻實戰反饋: 動手環節體驗 TEN Agent + Azure 實時語音交互。甚至有去年就使用過 TEN 的老用戶驚喜反饋:部署和編排體驗進步巨大!
巴黎站|深聊語音 AI 爆發點,探討 Voice Agent 落地路徑
五月,巴黎,Vivatech大會同期活動。 我們采用 “Keynote + 圓桌” 的形式,吸引了眾多活躍于歐洲語音技術領域的創業公司和開發者,包括歐洲知名 Voice AI 社區 Voice AI Space。
🤩 核心印象: C端應用探索活躍,歐洲視角碰撞新火花!
🎤 趨勢與落地碰撞: TEN、聲網、Agora、Microsoft 帶來主題演講。圓桌討論“Voice Agent in Action” 更是干貨滿滿,嘉賓們與特邀的歐洲本地伙伴——ASR 服務商 Gladia 和數字人服務商 Trulience——深入探討語音 Agent 的真實場景落地。 話題覆蓋熱門應用場景、社區反饋、核心挑戰與未來突破。
🍷 巴黎Mingle 時刻: 晚間的 Demo 展示與自由交流環節,在葡萄酒與輕食的伴隨下,技術討論也染上了濃濃的巴黎風情。
北京站|從 TTS 到產品,語音 Agent 的全鏈路探討
六月,北京,極客公園 AGI Playground。 我們特別設置了兩場Workshop:上半場看趨勢,下半場動手干。
🤩 核心印象: 技術走向縱深,落地需求旺盛,開發者上手更快!
🎤 前沿洞察: RTE 開發者社區重磅啟動《對話式AI白皮書》共建計劃;TEN 分享框架設計理念與核心能力;MiniMax 架構師馮雯詳解其 Speech 模型在低延遲語音合成與音色定制上的優勢;FoloToy 聯合創始人郭興華則從兒童陪伴產品切入,分享“把技術藏起來”的落地心得。
📱 Lightning Demo: 現場觀眾即興展示 AI 兒童教育 Metabooks 和旅行助手項目,展現語音AI在生活場景的滲透。
深度實戰: TEN 團隊與階躍星辰協作,帶領參與者完成本地 Voice Agent 的部署與定制開發(模型接入、界面設置、交互邏輯)。經過大半年迭代,現場開發者的“跑通率”顯著提升,一小時即可完成搭建!
京都站|扎根本土:ASR、大模型與會議實時翻譯
7月,京都,日本創業大會 IVS 現場。 氛圍開放輕松,聚焦日本本土化需求。
🤩 核心印象: 本土化應用開花結果,實時翻譯場景亮眼!
🎤本地化視角: 除了TEN、聲網和 Agora 的分享,特邀日本本土ASR技術專家 Paraparas 團隊帶來“以人為中心的信息轉化平臺”理念,提供極具本地特色的思考。
📱Lightning Demo: 7個 AI 項目輪番登場! FoloToy(AI 語音玩具)、Mosumosu(二次元助手)、Uniconvo(多場景語音 AI bot)、Flowith、MyShell(Agent 平臺)、Pasoo(客服實時翻譯 Agent)等,現場演示日語店家與英文顧客的無縫溝通,驚艷全場。 在披薩的香氣中,大家自由體驗 demo,暢談合作可能。
🔜 WHAT’S NEXT?下一站?
從東京啟航,經舊金山、巴黎、北京,抵達京都——TEN 團隊攜手全球伙伴,跨越五座城市,與超過 300 位 Voice AI 領域的探索者面對面交流。
我們不僅分享了對話式 AI 的最新進展,更深刻感受到不同地區對 Voice Agent 的獨特關注:
-
日本: 企業級需求旺盛,電話客服與商業場景是核心。
-
歐洲: C端產品創新活躍,創業者熱情高漲。
-
舊金山: 開發者生態成熟,對底層框架、性能優化(如VAD、延遲)細節孜孜以求。
盡管對許多朋友而言,這是與 TEN Framework 的初次邂逅,但大家對其架構設計、技術能力及現場體驗給予了積極反饋和寶貴建議。 我們由衷感謝每一位參與者的熱情與支持!
Voice Agent 的旅程遠未結束。 TEN 團隊將繼續深耕這一領域,期待與更多伙伴攜手,共同探索對話式 AI 的無限可能!
歡迎給我們一個🌟 https://github.com/TEN-framework/ten-framework
更多 Voice Agent 學習筆記:
語音能否徹底取代鍵盤?Wispr Flow 融資 3000 萬美金背后的思考丨Voice Agent 學習筆記
11Labs 增長負責人分享:企業級市場將從消費級或開發者切入丨Voice Agent 學習筆記
實時多模態如何重塑未來交互?我們邀請 Gemini 解鎖了 39 個實時互動新可能丨Voice Agent 學習筆記
級聯vs端到端、全雙工、輪次檢測、方言語種、商業模式…語音 AI 開發者都在關心什么?丨Voice Agent 學習筆記
a16z 最新報告:AI 數字人應用層即將爆發,或將孕育數十億美金市場丨 Voice Agent 學習筆記
a16z合伙人:語音交互將成為AI應用公司最強大的突破口之一,巨頭們在B2C市場已落后太多丨Voice Agent 學習筆記
ElevenLabs 33 億美元估值的秘密:技術驅動+用戶導向的「小熊軟糖」團隊丨Voice Agent 學習筆記
端側 AI 時代,每臺家居設備都可以是一個 AI Agent丨Voice Agent 學習筆記
世界最炙手可熱的語音 AI 公司,舉辦了一場全球黑客松,冠軍作品你可能已經看過
多模態 AI 怎么玩?這里有 18 個腦洞