每年 RTE 開發者社區的重磅活動—— RTE Open Day ,也在六月的 AGI Playground 現場開啟今年的行程。這是 RTE Open Day 第五期現場,這期我們的關鍵詞是 「Real-Time AI」 和 「Voice Agent」,不僅有來自社區的 16 個項目,還有兩場對話式 AI workshop。
對話式 AI workshop:感受語音 AI 市場爆發點
兩場對話式 AI workshop,由開源框架 TEN Framework 和 RTE 開發者社區聯合主辦。
一場是前沿討論,拆解 YC 押注的 Voice Agent 新浪潮 ,從到開源框架、模型、到真實產品落地,來自 TEN 、MiniMax 和 Folotoy 的嘉賓對技術和場景進行分享。
一場是動手實踐,一小時極速構建你的實時語音對話 Avatar ,基于 TEN、階躍星辰 和 Trulience 構建語音數字人。
策劃這兩場對話式 AI workshop,不僅是因為我們在關注語音領域,而且是因為它是市場的真實爆發點。RTE 開發者社區的 Voice Agent 學習筆記就有提到,「自 2020 年以來,Y Combinator 已經孵化了 90 家語音智能體公司,且這一趨勢正在加速,最新的尚未完全公布的 W25 批次中就有 10 家。值得注意的是,在 2023 年之前成立的公司中,大部分都是在過去一年內轉型進入語音智能體領域的。」 所以,在模型、通用平臺、垂直場景等方向,還有很多問題可以討論。
RTE 開發者社區發起人、聲網生態運營中心負責人楊慧,首次公開 《對話式 AI 白皮書》 計劃,分享了 Voice Agent 關鍵框架與行業趨勢,并現場發起開源共建者招募。如果你對共創白皮書感興趣,請加入我們!
Plutoless,開源 Agent 框架 TEN Framework 聯合發起人,介紹了 TEN 開源框架的核心理念與應用場景,展示了 TEN 如何快速構建具備多模態能力的 Voice Agent。
MiniMax 架構師馮雯,深入解析了 TTS 在 Voice Agent 時代下的技術演進,特別強調在真實語音交互中,MiniMax Speech 02 模型實現了 Zero-Shot 的音色定制能力,并將首包延時壓縮到300ms,極大地提升了交互體驗。
郭興華,Folotoy 聯合創始人,從實際產品落地角度出發,分享了在兒童陪伴場景中的技術取舍與產品經驗,尤其是「把技術隱藏起來」這一點引發了大家的思考共鳴。
最后一個 lightning demo 環節,歡迎觀眾即興上臺,現場有兩位觀眾分別分享了自己做兒童英文繪本教育項目 Metabooks 和旅行助手的產品與想法。
RTE Open Day 展區:創新與商業潛力兼具的 Real-Time AI 是怎樣的?
這次 RTE Open Day 展區共有 16 家社區里成長的項目參展,覆蓋 AI 語音顧客訪談智能體、AI 玩具、AI 陪伴、AI 外呼、AI 教育、語音模型與記憶層等諸多實時互動上下游場景。
其中有今年新涌現的項目,也有在過去一年不斷迭代成長的產品,更集中圍繞「Real-Time AI」 和 「Voice Agent」兩個關鍵詞提供了全局視野。
游園打卡的「夸夸貼紙」和「拼圖打卡」玩法返場,為展商提供一些「情緒價值」,也是一種「催更」,希望產品能早日被更多人體驗到。同時現場觀眾也能把最終拼好的 「RTE Open Day」 帶回家,期待下一次我們會有什么主題呢?
RTE Dev Party:聊聊 Voice Agent&Real-Time AI
Dev Party@RTE Open Day 是我們為社區開發者準備的固定的環節,在第一天的靈感和技術交流后,總需要換一個輕松氛圍認識新朋友、分享新想法。
3 分鐘,分享你的項目——來自 Tmind AI(心理咨詢師 AI 培訓)、deepsip.cn(AI+SIP )、RWKV、賽博創力(語音互動硬件)、ANP 開源社區(智能體通訊協議)、星連資本、MiBai 空間交互桌面機器人、Lemon.ai、openmcp.app 等項目的開發者做了分享。
當一群人聚在 RTE Open Day 現場,就會有新的靈感和機會出現!
聽見 AI,看見 2025。RTE Open Day 期待在年底的 RTE 大會上與大家再次相見!
點擊👇查看過往 RTE Open Day
在這里游玩和創造,見證實時互動和 AI 的融合爆發丨年末場 RTE Open Day@RTE2024 回顧
當一群人聚在 RTE Open Day 現場|S 創上海 2024 回顧
不一樣的 RTE Open Day,對話最專業的 RTE+AGI Builders!丨AGI Playground 現場回顧
更多 Voice Agent 學習筆記:
11Labs 增長負責人分享:企業級市場將從消費級或開發者切入丨Voice Agent 學習筆記
實時多模態如何重塑未來交互?我們邀請 Gemini 解鎖了 39 個實時互動新可能丨Voice Agent 學習筆記
級聯vs端到端、全雙工、輪次檢測、方言語種、商業模式…語音 AI 開發者都在關心什么?丨Voice Agent 學習筆記
a16z 最新報告:AI 數字人應用層即將爆發,或將孕育數十億美金市場丨 Voice Agent 學習筆記
a16z合伙人:語音交互將成為AI應用公司最強大的突破口之一,巨頭們在B2C市場已落后太多丨Voice Agent 學習筆記
ElevenLabs 33 億美元估值的秘密:技術驅動+用戶導向的「小熊軟糖」團隊丨Voice Agent 學習筆記
端側 AI 時代,每臺家居設備都可以是一個 AI Agent丨Voice Agent 學習筆記
世界最炙手可熱的語音 AI 公司,舉辦了一場全球黑客松,冠軍作品你可能已經看過
多模態 AI 怎么玩?這里有 18 個腦洞
AI 重塑宗教體驗,語音 Agent 能否成為突破點?