8人團隊歷時半年打造開源版GPT-4o,零延遲演示引爆全網!人人可免費使用!

目錄

01 Moshi

02?背后技術揭秘




GPT-4o可能要等到今年秋季才會公開。

然而,由法國8人團隊開發的原生多模態Moshi,已經達到了接近GPT-4o的水平,現場演示幾乎沒有延遲,吸引了大量AI專家的關注。


令人驚訝的是,開源版的GPT-4o來得如此之快!
?

01 Moshi

昨晚,來自法國AI實驗室kyutai的團隊展示了首個實時原生多模態Moshi,效果媲美5月發布的GPT-4o。

例如,在一個演示中,Moshi作為助手幫助Alexa小哥進行太空探索,讓人仿佛置身《流浪地球》中的Moss情景。


沒體驗過OpenAI最新版GPT-4o?快戳最詳細升級教程,幾分鐘搞定:
升級ChatGPT-4o Turbo步驟icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!

官網有更詳細介紹:WildCard




值得注意的是,這個由8人團隊在僅僅半年的時間里,從零開始完成了模型的訓練。


Moshi目前處于實驗原型階段,設計目的是理解和表達情感,支持聽、說、看三種功能,并能夠用70種不同的情緒和風格說話,甚至隨時打斷。

其最突出的能力是可以同時處理兩個音頻流,實現“聽”和“說”同步進行。

這種實時互動的實現基于文本和音頻混合的聯合預訓練,使用Helium中的合成文本數據,訓練出70億參數的模型。



Moshi的端到端延遲最低可達160ms。最小版本的Moshi還可以在筆記本電腦或消費級GPU上運行。

許多人認為這是最接近GPT-4o的模型,Moshi的驚艷表現贏得了LeCun、Karpathy等AI大佬的轉發。

Moshi這個名字來源于日語中的“もしもし”(接電話時的問候語)。接下來,Patrick邀請了四位同事上臺展示Moshi的強大語音能力。

02?背后技術揭秘


Moshi在技術上有哪些創新,才能具備對標GPT-4o的實力?隨后,同事們介紹了當前語音AI的一些限制,例如“聽”使用自動語音識別技術,“想”使用大模型,“說”使用文本-語音技術。

這些分門別類的技術會導致語音AI出現較多延遲。


他認為,最明顯的事實是——GPT-4o的語音功能尚未推出,而Moshi已在發布后上線。


此外,他還提到了幾個值得關注的技術要點:

  • 像kyutai這樣的小型團隊在6個月內構建出Moshi,表明其訓練流程和架構非常簡單且具有巨大的可擴展性,合成數據也起到了重要作用。
    ?
  • Moshi專注于本地設備的部署,這將使其迅速流行并無處不在。相比之下,像GPT這樣的模型由于盈利需求,不太可能推動本地運行。
    ?
  • 在保持答案質量達到Llama 8B或以上水平的同時,將延遲降低到300ms以下是實現互動的關鍵因素。

那么,如何將這些步驟整合到單一的語音模型中呢?這正是kyutai的目標所在。

多模態Moshi不僅能夠聽和說,同時在語音輸出時進行思考。

理論上,Moshi可以實現最低延遲為160毫秒,創造了世界新紀錄。

該模型采用了I/O雙通道系統,同時生成文本token和音頻編解碼器。

具體而言,語言模型Helium-7B首先進行從頭訓練,然后與文本和語音編碼器聯合訓練。

語音編解碼器基于Kyutai內部的Mimi模型,具有高達300倍的壓縮系數,能夠捕捉語義和聲學信息。

在Moshi的微調過程中,采用了涉及100k個"口語式"合成對話的高度詳細的文本記錄,這些記錄帶有情感和風格注釋,均由Helium模型轉錄而來。

此外,模型的語音訓練還使用了另一個獨立的TTS模型生成的合成數據。

模型還利用專業配音演員Alice錄制了20小時的音頻,并基于此進行微調。

研究人員指出,Moshi設計具有適應性,只需不到30分鐘的音頻即可完成微調。

在部署方面,Moshi托管在Scaleway和抱抱臉上,能夠處理兩個批次大小為24 GB VRAM的任務。

此外,它還支持多種后端,包括CUDA、KV緩存,并能通過Rust優化推理代碼。

為確保音頻安全性,Kyutai將為生成的音頻加上水印,并在數據庫中對其進行索引。


如何使用WildCard正確方式打開GPT-4o,目前 WildCard 支持的服務非常齊全,可以說是應有盡有!

官網有更詳細介紹:WildCard

推薦閱讀:

GPT-4o不僅能寫代碼,還能自查Bug,程序員替代進程再進一步!

GPT-4替代大學生參加考試,94%成功作弊未被發現!

CTO透露GPT-5內幕,OpenAI 以36億美元收購數據庫初創公司

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/41146.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/41146.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/41146.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python酷庫之旅-第三方庫Pandas(003)

目錄 一、用法精講 4、pandas.read_csv函數 4-1、語法 4-2、參數 4-3、功能 4-4、返回值 4-5、說明 4-6、用法 4-6-1、創建csv文件 4-6-2、代碼示例 4-6-3、結果輸出 二、推薦閱讀 1、Python筑基之旅 2、Python函數之旅 3、Python算法之旅 4、Python魔法之旅 …

T100-XG查詢報表的開發

制作XG報表 1、注冊程序 azzi900 首先現將程序注冊一下,在內部構建基礎代碼檔。 2、注冊作業 azzi910 也是直接新增一個,作業跟程序綁定一下。 3、T100簽出規格程序 這個時候應該是沒簽出的,首先將規格遷出。 4、T100畫面產生器 規格遷出之后,這個時候還需要生成一個畫…

springcloud-gateway 網關組件中文文檔

Spring Cloud網關 Greenwich SR5 該項目提供了一個基于Spring生態系統的API網關,其中包括:Spring 5,Spring Boot 2和項目Reactor。Spring Cloud網關的目的是提供一種簡單而有效的方法來路由到API,并向它們提供跨領域的關注&#x…

Java中的數據脫敏與隱私保護技術

Java中的數據脫敏與隱私保護技術 大家好,我是免費搭建查券返利機器人省錢賺傭金就用微賺淘客系統3.0的小編,也是冬天不穿秋褲,天冷也要風度的程序猿! 隨著信息化進程的加深,數據安全和隱私保護越來越受到關注。數據脫…

Python文件讀入操作

本套課在線學習視頻(網盤地址,保存到網盤即可免費觀看): ??https://pan.quark.cn/s/e2ba7867f034?? Python編程中,文件操作是一項基礎且重要的技能。本文將詳細介紹如何使用Python進行文件的打開、讀取、寫入和關…

配置基于不同IP地址的虛擬主機

定義配置文件vhost.conf <directory /www> allowoverride none require all granted </directory> <virtualhost 192.168.209.136:80> documentroot /www servername 192.168.209.136 </virtualhost><virtualhost 192.168.209.138:80> document…

Restore Equipment

Restore Equipment 魔獸世界 - 盜號申請 - 恢復裝備流程 魔獸和網易真的不行啊 1&#xff09;這個裝備本來就是兌換的竟然可以賣NPC 2&#xff09;針對這個情況竟然無法挽回 3&#xff09;設計理念真的不得不吐槽一下 4&#xff09;策劃真的不咋樣&#xff0c;要是有機會我要自…

【C++】 解決 C++ 語言報錯:Stack Overflow

文章目錄 引言 棧溢出&#xff08;Stack Overflow&#xff09;是 C 編程中常見且嚴重的錯誤之一。棧溢出通常發生在程序遞歸調用過深或分配過大的局部變量時&#xff0c;導致棧空間耗盡。棧溢出不僅會導致程序崩潰&#xff0c;還可能引發不可預測的行為。本文將深入探討棧溢出…

Linux系統安裝青龍面板結合內網穿透實現使用公網地址遠程訪問

文章目錄 前言一、前期準備本教程環境為&#xff1a;Centos7&#xff0c;可以跑Docker的系統都可以使用。本教程使用Docker部署青龍&#xff0c;如何安裝Docker詳見&#xff1a; 二、安裝青龍面板三、映射本地部署的青龍面板至公網四、使用固定公網地址訪問本地部署的青龍面板 …

【帶你全面了解 RAG,深入探討其核心范式、關鍵技術及未來趨勢】

文末有福利&#xff01; 大型語言模型&#xff08;LLMs&#xff09;已經成為我們生活和工作的一部分&#xff0c;它們以驚人的多功能性和智能化改變了我們與信息的互動方式。 然而&#xff0c;盡管它們的能力令人印象深刻&#xff0c;但它們并非無懈可擊。這些模型可能會產生…

HY lisp quote unquote等學習

? 宏相關語法糖 This is all resolved at the reader level, so the model that gets produced is the same whether you take your code with sugar or without. Macro Syntax quote FORM quasiquote FORM unquote ~FORM unquote-splice ~FORM unpack-iterable …

昇思25天學習打卡營第16天 | DCGAN生成漫畫頭像

這兩天把minspore配置到我的電腦上了&#xff0c;然后運行就沒什么問題了?&#x1f60a; 今天學這個DCGAN生成漫畫頭像&#xff0c;我超級感興趣的嘞&#x1f984;&#x1f970; GAN基礎原理 這部分原理介紹參考GAN圖像生成。 DCGAN原理 DCGAN&#xff08;深度卷積對抗生成…

Python中的lambda函數是什么以及它有哪些用途和限制

Python中的lambda函數 定義 Python中的lambda函數是一種簡潔定義小函數的方式&#xff0c;也被稱為匿名函數。它允許用戶快速定義一個小的、一次性的函數對象&#xff0c;而無需正式地命名一個函數。lambda函數的基本語法為&#xff1a;lambda arguments: expression&#xf…

港三新二是那幾所大學?有哪些知名校友?中英雙語介紹

中文版 港三新二指的是香港和新加坡的五所著名大學&#xff0c;分別是香港大學&#xff08;HKU&#xff09;、香港中文大學&#xff08;CUHK&#xff09;、香港科技大學&#xff08;HKUST&#xff09;、新加坡國立大學&#xff08;NUS&#xff09;和南洋理工大學&#xff08;N…

秒驗—手機號碼置換接口

功能說明 提交客戶端獲取到的token、opToken等數據&#xff0c;驗證后返回手機號碼 服務端務必不要緩存DNS&#xff0c;否則可能影響服務高可用性 調用地址 POST https://identify-verify.dutils.com/auth/auth/sdkClientFreeLogin 請求頭 Content-Type &#xff1a;appli…

圖書商城系統java項目ssm項目jsp項目java課程設計java畢業設計

文章目錄 圖書商城系統一、項目演示二、項目介紹三、部分功能截圖四、部分代碼展示五、底部獲取項目源碼&#xff08;9.9&#xffe5;帶走&#xff09; 圖書商城系統 一、項目演示 圖書商城系統 二、項目介紹 語言: Java 數據庫&#xff1a;MySQL 技術棧&#xff1a;SpringS…

SaaS行業的AI化征程:穿越“大模型焦慮”,擁抱“AI自信”

隨著大模型技術的風起云涌&#xff0c;SaaS行業正站在一個充滿機遇與挑戰的十字路口。本文旨在深入剖析SaaS廠商在AI化升級過程中所遭遇的“大模型焦慮”&#xff0c;并探索通過戰略性的AI應用策略&#xff0c;如何重拾信心&#xff0c;實現產品與服務的華麗轉身&#xff0c;為…

關于虛擬機上不了網的解決辦法

先ping出ip地址 或者查詢ifconfig得到目前網絡信息 繼續輸入命令Ifconfig -a查詢是否能找到ip地址 明顯ens33是沒有打開的&#xff0c;所以找不到分配的ip地址&#xff0c;需要打開&#xff0c;自動隨機分配ip 輸入命令&#xff1a; sudo dhclient ens33 現在就可以開始上網…

公司“領導”們竟如此討論工作!小伙:此事有蹊蹺;|國家漏洞庫CNNVD:關于OpenSSH安全漏洞的通報;

公司“領導”們竟如此討論工作&#xff01;小伙&#xff1a;此事有蹊蹺 “當時我正在等驗證碼 還好你們快了一步 不然公司的93萬余元就沒了” 一談到這件事 杜先生仍然心有余悸 近日 正在處理公司財務工作的杜先生 突然被拉進了一個QQ群聊 從頭像、昵稱上看 群聊里的竟…

累積分布函數的一些性質證明

性質1&#xff1a; E [ X ] ∫ 0 ∞ ( 1 ? F ( x ) ) d x ? ∫ ? ∞ 0 F ( x ) d x ( 1 ) E[X]\int_0^{\infty}(1-F(x))dx - \int_{-\infty}^0F(x)dx\quad (1) E[X]∫0∞?(1?F(x))dx?∫?∞0?F(x)dx(1) 證明&#xff1a; E [ X ] ∫ ? ∞ ∞ x p ( x ) d x E[X] …