OpenBayes 一周速覽｜1分鐘生成完整音樂，DiffRhythm人聲伴奏一鍵搞定； Stable Virtual Camera重塑3D視頻創作

公共資源速遞

5 個數據集：

*?302 例罕見病病例數據集

* DRfold2 RNA 結構測試數據集

* NaturalReasoning 自然推理數據集

*?VenusMutHub 蛋白質突變小樣本數據集

* Bird Vs Drone 鳥類與無人機圖像分類數據集

2 個模型：

* Qwen2.5-0mni

*?Llama-4-Scout-17B-16E-Instruct

4 個教程：

* CSM 雙人對話語音生成 Demo

* 一鍵部署 Qwen2.5-VL-32B-lnstruct

* Stable Virtual Camera 圖像秒變 3D 視頻

* 諦韻 DiffRhythm：1 分鐘即可生成完整音樂 Demo

訪問官網立即使用：openbayes.com

公共數據集

1.?302 例罕見病病例數據集

該數據集包含 302 種罕見病，這些罕見病是從 Orphanet 數據庫中 33 種類型的 7k+ 種罕見病中選出的，Orphanet 數據庫是歐盟委員會共同資助的綜合罕見病數據庫。

* 直接使用：

https://go.openbayes.com/JreTB

2.?DRfold2 RNA 結構測試數據集

該數據集是為了客觀評估研究中 DRfold2 的性能而構建的獨立測試數據集。其中包含 28 種 RNA 結構，它們的序列長度均小于 400 nts，并來源于以下 3 個類別：最新的 RNA-Puzzles 目標序列、CASP15 競賽中的 RNA 目標序列、截至 2024 年 8 月 1 日，Protein Data Bank (PDB) 數據庫中最新發布的 RNA 結構。

* 直接使用：

https://go.openbayes.com/pN0Oi

3. NaturalReasoning 自然推理數據集

該數據集包含 280 萬個挑戰性問題，這些問題覆蓋了多個領域，如 STEM 領域（例如物理、計算機科學）、經濟學、社會科學等。該數據集旨在通過利用預訓練語料庫和大型語言模型 (LLMs) 來生成多樣化且具有挑戰性的推理問題及其參考答案，而無需額外的人工標注。

* 直接使用：

https://go.openbayes.com/KAQyB

數據集構建示意圖

4.?VenusMutHub 蛋白質突變小樣本數據集

VenusMutHub 是首個針對真實應用場景蛋白質突變小樣本數據集，含 905 個真實應用場景的小樣本實驗突變數據，覆蓋 527 種蛋白質（其中 98% 的蛋白的突變數量在 5-200 個之間），涵蓋了穩定性、活性、結合親和力與選擇性等多種功能測量數據。所有數據均采用直接生化測量，而非替代性熒光讀數，確保了評估的準確性。

* 直接使用：

https://go.openbayes.com/Y4B73

5.?Bird Vs Drone 鳥類與無人機圖像分類數據集

數據集包含來自 Pexel 網站的多種圖像集合，代表運動中的鳥類和無人機。這些圖像是從視頻幀中捕獲的，經過分割、增強和預處理以模擬不同的環境條件，從而增強模型的訓練過程。

* 直接使用：

https://go.openbayes.com/2tCNM

公共模型

1.?Qwen2.5-0mni

* 發布機構：阿里巴巴通義千問團隊

Qwen2.5-Omni 是阿里巴巴通義千問團隊發布的最新端到端多模態旗艦模型，專為全面的多模式感知設計，無縫處理包括文本、圖像、音頻和視頻在內的各種輸入，同時支持流式的文本生成和自然語音合成輸出。

* 直接使用：

https://go.openbayes.com/EIpHB

模型應用

2.?Llama-4-Scout-17B-16E-Instruct

* 發布機構：Meta

Llama-4-Scout-17B-16E-Instruct 是由 Meta 于 2025 年 4 月開發的一款混合專家 (MoE) 語言模型，屬于 Llama 4 系列模型的一部分，支持文本和多模態體驗。該模型利用專家的混合架構，在文本和圖像理解方面提供行業領先的性能。

* 直接使用：

https://go.openbayes.com/EsnVz

公共教程

1.?CSM 雙人對話語音生成 Demo

CSM (Conversational Speech Model) 旨在通過自然、連貫的語音生成技術提升語音助手的情感交互能力。該模型基于多模態學習框架，結合文本和語音數據，采用端到端的 Transformer 架構直接生成自然且富有情感的語音，可根據文本和音頻輸入生成 RVQ 音頻代碼。

該教程使用 CSM-1B 模型即可實現兩人對話生成，算力資源采用 RTX 4090。

*?在線運行：

https://go.openbayes.com/zrpWM

模型界面示例

2.?一鍵部署 Qwen2.5-VL-32B-lnstruct

Qwen2.5-VL-32B-Instruct 是阿里巴巴通義千問團隊于 2025 年 3 月 24 日開源的多模態大模型，基于 Apache 2.0 協議發布。該模型在 Qwen2.5-VL 系列的基礎上，通過強化學習技術優化，以 32B 參數規模實現了多模態能力的突破。

進入官網克隆并啟動容器，打開 API 地址即可體驗模型。

*?在線運行：

https://go.openbayes.com/bOYvX

模型示例

3. Stable Virtual Camera 圖像秒變 3D 視頻

Stable Virtual Camera 能夠根據任意數量的輸入視圖和目標相機，生成場景的新視圖。其設計克服了現有方法在生成大視角變化或時間上平滑樣本方面的局限性，同時無需依賴特定的任務配置。該模型的一個顯著特點是無需額外的 3D 表示學習，即可保持高一致性的樣本生成，從而簡化了實際應用中的視角合成流程。

相關代碼已配置完成，克隆容器進入 API 地址即可生成 3D 視頻。

*?在線運行：

https://go.openbayes.com/qBENf

模型示例

4.?諦韻 DiffRhythm：1 分鐘即可生成完整音樂 Demo

DiffRhythm 是首個能夠創作完整歌曲的基于擴散的歌曲生成模型。它能夠在短時間內生成長達 4 分 45 秒的完整歌曲，包含人聲和伴奏。

只需為模型提供歌詞和風格提示，DiffRhythm 就能自動生成與歌詞匹配的旋律和伴奏，還支持多語言輸入。

*?在線運行：

https://go.openbayes.com/uK2X2

模型工作流程

以上就是小貝上周在 OpenBayes 的全部更新內容啦~

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/901304.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/901304.shtml
英文地址，請注明出處：http://en.pswp.cn/news/901304.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！