引言:AI 從聽到說
大型音頻語言模型(Large Audio-Language Models, LALMs)正在徹底改變我們與機器交互的方式。我們不再滿足于簡單的文本問答,而是期望 AI 能夠像人類一樣,通過自然的語音進行交流,理解我們的意圖,并以富有表現力的聲音回應。然而,構建一個能夠直接從語音輸入到語音輸出(Audio Query-Audio Answer, AQAA),并且具備高度智能和自然交互體驗的端到端模型,仍然是一個巨大的挑戰。
現有的 LALM,雖然在語音理解方面取得了顯著進展,但在直接生成自然語音回復方面,大多仍依賴于文本作為中間橋梁(即 ASR -> LLM(text) -> TTS),這不僅引入了級聯錯誤,也限制了端到端優化的可能性和語音表達的自然流暢性。此外,如何實現對生成語音的細粒度控制(如情感、語速),以及如何讓模型在交互中展現出更高的語義連貫性和人類偏好對齊,都是亟待解決的關鍵問題。
在這樣的背景下,StepFun 團隊推出了 Step-Audio-AQAA,一個專為