OpenBayes 一周速覽丨Self Forcing 實現亞秒級延遲實時流視頻生成；邊緣AI新秀，LFM2-1.2B采用創新性架構超越傳統模型

公共資源速遞??This Weekly Snapshots ！

5 個公共數據集：

* AF-Chat 音頻對話文本數據集?

* ArtVIP 機器交互式圖像數據集?

* Updesh 印度語合成文本數據集?

* Medical Information 藥品信息數據集?

* Nemotron-Math-HumanReasoning 數學推理數據集

6 個公共教程：

* Self Forcing 實時視頻生成

* MOSS：文本到口語對話生成

* PE3R：高效感知三維重建框架

* LFM2-1.2B：高效邊緣部署的文本生成模型

* AudioBox-Aesthetics 音頻美學評估 Demo

* Osmosis-Structure-0.6B：結構化輸出的小語言模型

訪問官網立即使用：openbayes.com

公共數據集

1. AF-Chat 音頻對話文本數據集

AF-Chat 數據集包含約 7.5 萬個多回合、多音頻對話（平均 4.6 個片段和 6.2 個回合；范圍為 2-8 個片段和 2-10 個回合），涵蓋語音、環境聲音和音樂。該數據集根據每個音頻的源數據集劃分為不同的子集（聲音、音樂 4ALL、百萬歌曲數據集，適用于虛擬助手、客服和其他需要情感識別與響應的對話系統。

* 在線使用：

https://go.openbayes.com/Ptvi3

2. ArtVIP 機器交互式圖像數據集

ArtVIP 數據集包含 26 個類別的 206 個鉸接物體，涵蓋家居用品、大型家具、大家電、小家電和小家具，還提供了 6 個數字孿生環境和 6 個完全交互環境，包括兒童房、飯廳、廚房、帶客廳的廚房、大客廳和小客廳。它通過精確的幾何網格和高分辨率紋理確保視覺真實感，通過精細調整的動態參數實現物理保真度，同時率先在資產中嵌入模塊化交互行為，并實現了像素級可供性標注。

* 在線使用：

https://go.openbayes.com/rzr7h

數據集示例

3. Updesh 印度語合成文本數據集

Updesh 數據集包含 6,800,000 條推理數據及 2,100,000 條生成數據，其涉及的語言有阿薩姆語、孟加拉語、古吉拉特語、印地語、卡納達語、馬拉雅拉姆語、馬拉地語、尼泊爾語、奧迪亞語、旁遮普語、泰米爾語、泰盧固語、烏爾都語。

* 在線使用：

https://go.openbayes.com/oCUQC

4. Medical Information 藥品信息數據集

Medical Information 數據集包含 44 個不同治療類別的數據，涵蓋超過 192,000 種藥品，旨在提供準確、權威的藥品信息、支持藥物分類和治療標簽，提升臨床試驗管理的預測和效率。

* 在線使用：

https://go.openbayes.com/r5GCr

5. Nemotron-Math-HumanReasoning 數學推理數據集

Nemotron-Math-HumanReasoning 數據集包含來自 OpenMathReasoning 數據集的 50 道數學題、200 個人工撰寫的解答，以及由 QwQ-32B-Preview 額外生成的 50 個解答。

* 在線使用：

https://go.openbayes.com/W6LIO

公共教程

1.Self Forcing 實時視頻生成

Self Forcing 是一種用于自回歸視頻擴散模型的全新訓練范式，它解決了長期存在的曝光偏差問題，即基于真實上下文訓練的模型必須在推理過程中生成基于自身不完美輸出的序列。該模型采用了新的處理方法，通過在訓練期間執行帶有鍵值（KV）緩存的自回歸 rollout，將每幀的生成條件設定為先前自生成的輸出。大量實驗表明，他們的方法能夠在單個 GPU 上實現亞秒級延遲的實時流視頻生成，同時達到甚至超越速度明顯較慢且非因果擴散模型的生成質量。

* 在線運行：

https://go.openbayes.com/6DHF9

項目示例

2.?MOSS：文本到口語對話生成

MOSS-TTSD 能夠將兩位說話者之間的對話腳本轉換為自然、富有表現力的對話語音。該模型支持語音克隆和長單段語音生成，使其成為 AI 播客制作的理想選擇。

* 在線運行：

https://go.openbayes.com/BVVOI

項目示例

3. PE3R：高效感知三維重建框架

PE3R 基于多項前沿計算機視覺研究成果開發，僅需輸入 2D 圖像即可快速完成 3D 場景重建，在 RTX 3090 顯卡上單場景平均重建時間僅需 2.3 分鐘，較傳統方法效率提升 65% 以上。

* 在線運行：

https://go.openbayes.com/DC5uv

項目示例

4. LFM2-1.2B：高效邊緣部署的文本生成模型

LFM2-1.2B 采用了新型混合架構，創新性地結合了乘法門控和短卷積，包含 16 個塊（10 個雙門控短程 LIV 卷積塊和 6 個分組查詢注意力塊），解決了傳統模型在處理效率和性能上的不足。其訓練基于 10 萬億 tokens 的預訓練語料，采用知識蒸餾、大規模監督微調（SFT）和自定義直接偏好優化（DPO）等多階段訓練策略，在知識、數學、指令遵循和多語言能力等多個基準類別上，性能優于同規模模型，甚至能與更大參數規模的模型相競爭。

* 在線運行：

https://go.openbayes.com/AH2Sc

項目示例

5.?AudioBox-Aesthetics 音頻美學評估 Demo

Audiobox-Aesthetics 基于深度學習技術，實現對語音、音樂和環境聲音的多維度自動分析，通過 4 個核心維度全面評估音頻質量，為音頻創作者、工程師和研究人員提供專業級的量化分析。

* 在線運行：

https://go.openbayes.com/uWgm8

項目示例

6.?Osmosis-Structure-0.6B：結構化輸出的小語言模型

Osmosis-Structure-0.6B 旨在完成結構化輸出生成任務，盡管其參數規模僅為 0.6B，但與支持的框架結合使用時，該模型在提取結構化信息方面展現出卓越的性能。

* 在線運行：

https://go.openbayes.com/61Jj7

項目示例

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/91347.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/91347.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/91347.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！