目錄
01 Moshi
02?背后技術揭秘
GPT-4o可能要等到今年秋季才會公開。
然而,由法國8人團隊開發的原生多模態Moshi,已經達到了接近GPT-4o的水平,現場演示幾乎沒有延遲,吸引了大量AI專家的關注。
令人驚訝的是,開源版的GPT-4o來得如此之快!
?
01 Moshi
昨晚,來自法國AI實驗室kyutai的團隊展示了首個實時原生多模態Moshi,效果媲美5月發布的GPT-4o。
例如,在一個演示中,Moshi作為助手幫助Alexa小哥進行太空探索,讓人仿佛置身《流浪地球》中的Moss情景。
沒體驗過OpenAI最新版GPT-4o?快戳最詳細升級教程,幾分鐘搞定:
升級ChatGPT-4o Turbo步驟https://www.zhihu.com/pin/1768399982598909952
如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!
官網有更詳細介紹:WildCard
值得注意的是,這個由8人團隊在僅僅半年的時間里,從零開始完成了模型的訓練。
Moshi目前處于實驗原型階段,設計目的是理解和表達情感,支持聽、說、看三種功能,并能夠用70種不同的情緒和風格說話,甚至隨時打斷。
其最突出的能力是可以同時處理兩個音頻流,實現“聽”和“說”同步進行。
這種實時互動的實現基于文本和音頻混合的聯合預訓練,使用Helium中的合成文本數據,訓練出70億參數的模型。
Moshi的端到端延遲最低可達160ms。最小版本的Moshi還可以在筆記本電腦或消費級GPU上運行。
許多人認為這是最接近GPT-4o的模型,Moshi的驚艷表現贏得了LeCun、Karpathy等AI大佬的轉發。
Moshi這個名字來源于日語中的“もしもし”(接電話時的問候語)。接下來,Patrick邀請了四位同事上臺展示Moshi的強大語音能力。
02?背后技術揭秘
Moshi在技術上有哪些創新,才能具備對標GPT-4o的實力?隨后,同事們介紹了當前語音AI的一些限制,例如“聽”使用自動語音識別技術,“想”使用大模型,“說”使用文本-語音技術。
這些分門別類的技術會導致語音AI出現較多延遲。
他認為,最明顯的事實是——GPT-4o的語音功能尚未推出,而Moshi已在發布后上線。
此外,他還提到了幾個值得關注的技術要點:
- 像kyutai這樣的小型團隊在6個月內構建出Moshi,表明其訓練流程和架構非常簡單且具有巨大的可擴展性,合成數據也起到了重要作用。
?- Moshi專注于本地設備的部署,這將使其迅速流行并無處不在。相比之下,像GPT這樣的模型由于盈利需求,不太可能推動本地運行。
?- 在保持答案質量達到Llama 8B或以上水平的同時,將延遲降低到300ms以下是實現互動的關鍵因素。
那么,如何將這些步驟整合到單一的語音模型中呢?這正是kyutai的目標所在。
多模態Moshi不僅能夠聽和說,同時在語音輸出時進行思考。
理論上,Moshi可以實現最低延遲為160毫秒,創造了世界新紀錄。
該模型采用了I/O雙通道系統,同時生成文本token和音頻編解碼器。
具體而言,語言模型Helium-7B首先進行從頭訓練,然后與文本和語音編碼器聯合訓練。
語音編解碼器基于Kyutai內部的Mimi模型,具有高達300倍的壓縮系數,能夠捕捉語義和聲學信息。
在Moshi的微調過程中,采用了涉及100k個"口語式"合成對話的高度詳細的文本記錄,這些記錄帶有情感和風格注釋,均由Helium模型轉錄而來。
此外,模型的語音訓練還使用了另一個獨立的TTS模型生成的合成數據。
模型還利用專業配音演員Alice錄制了20小時的音頻,并基于此進行微調。
研究人員指出,Moshi設計具有適應性,只需不到30分鐘的音頻即可完成微調。
在部署方面,Moshi托管在Scaleway和抱抱臉上,能夠處理兩個批次大小為24 GB VRAM的任務。
此外,它還支持多種后端,包括CUDA、KV緩存,并能通過Rust優化推理代碼。
為確保音頻安全性,Kyutai將為生成的音頻加上水印,并在數據庫中對其進行索引。
如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!
官網有更詳細介紹:WildCard
推薦閱讀:
GPT-4o不僅能寫代碼,還能自查Bug,程序員替代進程再進一步!
GPT-4替代大學生參加考試,94%成功作弊未被發現!
CTO透露GPT-5內幕,OpenAI 以36億美元收購數據庫初創公司