8人團隊歷時半年打造開源版GPT-4o，零延遲演示引爆全網！人人可免費使用！

01 Moshi

02?背后技術揭秘

GPT-4o可能要等到今年秋季才會公開。

然而，由法國8人團隊開發的原生多模態Moshi，已經達到了接近GPT-4o的水平，現場演示幾乎沒有延遲，吸引了大量AI專家的關注。

令人驚訝的是，開源版的GPT-4o來得如此之快！
?

01 Moshi

昨晚，來自法國AI實驗室kyutai的團隊展示了首個實時原生多模態Moshi，效果媲美5月發布的GPT-4o。

例如，在一個演示中，Moshi作為助手幫助Alexa小哥進行太空探索，讓人仿佛置身《流浪地球》中的Moss情景。

沒體驗過OpenAI最新版GPT-4o？快戳最詳細升級教程，幾分鐘搞定：
升級ChatGPT-4o Turbo步驟https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正確方式打開GPT-4o，目前 WildCard 支持的服務非常齊全，可以說是應有盡有！

官網有更詳細介紹：WildCard

值得注意的是，這個由8人團隊在僅僅半年的時間里，從零開始完成了模型的訓練。

Moshi目前處于實驗原型階段，設計目的是理解和表達情感，支持聽、說、看三種功能，并能夠用70種不同的情緒和風格說話，甚至隨時打斷。

其最突出的能力是可以同時處理兩個音頻流，實現“聽”和“說”同步進行。

這種實時互動的實現基于文本和音頻混合的聯合預訓練，使用Helium中的合成文本數據，訓練出70億參數的模型。

Moshi的端到端延遲最低可達160ms。最小版本的Moshi還可以在筆記本電腦或消費級GPU上運行。

許多人認為這是最接近GPT-4o的模型，Moshi的驚艷表現贏得了LeCun、Karpathy等AI大佬的轉發。

Moshi這個名字來源于日語中的“もしもし”（接電話時的問候語）。接下來，Patrick邀請了四位同事上臺展示Moshi的強大語音能力。

02?背后技術揭秘

Moshi在技術上有哪些創新，才能具備對標GPT-4o的實力？隨后，同事們介紹了當前語音AI的一些限制，例如“聽”使用自動語音識別技術，“想”使用大模型，“說”使用文本-語音技術。

這些分門別類的技術會導致語音AI出現較多延遲。

他認為，最明顯的事實是——GPT-4o的語音功能尚未推出，而Moshi已在發布后上線。

此外，他還提到了幾個值得關注的技術要點：

像kyutai這樣的小型團隊在6個月內構建出Moshi，表明其訓練流程和架構非常簡單且具有巨大的可擴展性，合成數據也起到了重要作用。
?
Moshi專注于本地設備的部署，這將使其迅速流行并無處不在。相比之下，像GPT這樣的模型由于盈利需求，不太可能推動本地運行。
?
在保持答案質量達到Llama 8B或以上水平的同時，將延遲降低到300ms以下是實現互動的關鍵因素。

那么，如何將這些步驟整合到單一的語音模型中呢？這正是kyutai的目標所在。

多模態Moshi不僅能夠聽和說，同時在語音輸出時進行思考。

理論上，Moshi可以實現最低延遲為160毫秒，創造了世界新紀錄。