ACE-Step是什么
ACE-Step 是 ACE Studio 和 StepFun 聯合推出的一款開源音樂生成基礎模型,專為高效、連貫、可控的音樂創作而設計。它融合了擴散模型、深度壓縮自編碼器(DCAE)和輕量級線性變換器,生成速度比傳統大模型快約 15 倍,能快速產出高質量音樂。ACE-Step 支持多風格、多語言和多種可控參數,適用于快速作曲、音頻生成等多種場景,為音樂人和內容創作者帶來便捷高效的創作體驗。
ACE-Step的主要功能
- 快速生成:在 A100 GPU 上,4 分鐘音樂僅需 20 秒完成。
- 風格多樣:支持流行、搖滾、電子、爵士等多種音樂風格,以及多語言歌詞生成。
- 多樣化變體:通過調整噪聲比例,快速生成不同版本的音樂,帶來更多創作靈感。
- 局部重繪:可以對特定片段重新生成,靈活調整風格、歌詞或人聲,保留其他部分不變。
- 歌詞微調:直接修改歌詞內容,旋律和伴奏保持不變,方便快速調整。
- 多語言能力:支持 19 種語言,英語、中文、俄語、西班牙語、日語等 10 種語言效果最佳。
- Lyric2Vocal:通過 LoRA 微調,實現從歌詞直接生成歌聲。
- Text2Samples:一鍵生成樂器循環、音效等音樂樣本,助力快速搭建音樂片段。
ACE-Step的技術原理
- 擴散模型:通過逐步去噪的方式生成音樂,ACE-Step 針對傳統擴散模型在長音樂結構連貫性不足的問題,做了架構優化,提升了整體流暢度。
- 深度壓縮自編碼器(DCAE):有效壓縮和解壓音頻數據,減少算力消耗,同時保留細節豐富的音質。
- 輕量級線性變換器:高效處理音樂序列信息,確保旋律、和聲、節奏等元素自然連貫。
- 語義對齊:通過 MERT 和 m-hubert 等技術,讓模型在訓練過程中對齊音頻的語義層次,提升生成的理解度和一致性。
- 訓練優化:結合語義對齊和高效優化算法,ACE-Step 實現了在短時間內生成高質量音樂的能力,兼顧速度與連貫性。
ACE-Step的項目地址
- 項目官網:https://ace-step.github.io/
- GitHub倉庫:https://github.com/ace-step/ACE-Step
- HuggingFace模型庫:https://huggingface.co/ACE-Step/ACE-Step-v1-3.5B
ACE-Step的應用場景
- 音樂創作:快速生成旋律和歌詞,激發創作靈感,提升創作效率。
- 人聲生成:直接從歌詞生成人聲,方便制作人快速制作人聲 Demo。
- 音樂制作:自動生成樂器循環、音效等素材,豐富制作資源庫。
- 多語言創作:支持跨語言創作,適合全球化音樂項目。
- 音樂教育:作為教學輔助工具,幫助學生學習作曲、編曲和音頻制作。
視頻介紹:
ACE-Step
快速上手指南
AI工具已經被打包成一鍵啟動的版本,只需輕輕點擊即可使用,無需再為環境配置中的各種問題煩惱,一切變得更加便捷高效。
電腦配置要求
- 操作系統:Windows 10/11 64位
- 內存:建議20G以上
- 顯卡:至少8G及以上顯存的英偉達(NVIDIA)顯卡
- CUDA:顯卡支持的CUDA版本大于等于12.8版本
- 整個包解壓完約15G,要留足硬盤空間
如何查看顯卡品牌型號和顯存:
- 打開任務管理器
- 點擊“性能”
- 點擊“GPU”
- 右上角可以看到顯卡型號,下方可以看到顯存大小
使用教程:
① 打開下載頁面:
- (方式1)直達鏈接:https://xyanai.com/2009.html
- (方式2)進入官網www.xyanai.com,搜索“ACE-Step”
進入后點擊頁面右側下載按鈕,下載整合包之后解壓,建議使用winrar解壓(解壓軟件在文件包中,或者可以自己下載安裝,下載地址:https://www.winrar.com.cn/)
不要用Windows自帶解壓!!不要用360解壓!!
注意:文件夾路徑和文件名稱(包括音頻、圖片、視頻等文件名稱)不要出現中文字符,否則部分軟件會因識別不出而報錯
② 雙擊“啟動程序.exe”,稍等片刻會在瀏覽器中自動打開操作界面
③你可以自定義音頻時長(默認 -1 為隨機長度),輸入音樂風格或主題的提示詞,還可選擇上傳音頻作為參考(不過目前參考音頻效果一般,不太推薦)。接著,填寫歌詞內容,支持使用?[verse]
(主歌)、[chorus]
(副歌)、[bridge]
(過渡段)等標簽來劃分不同段落。完成后點擊“生成”,幾秒鐘后結果就會在右側顯示。你可以直接試聽,也可點擊右上角下載按鈕保存文件。如果對結果不滿意,還可以一鍵重新生成,簡單高效。
④ 生成的音頻結果會顯示在下方,可通過播放按鈕試聽效果,或點擊下載按鈕保存到指定文件夾。
總結
ACE-Step 是一款由 ACE Studio 和 StepFun 聯合開發的開源音樂生成模型,具備快速、高效、連貫的音樂創作能力。它融合擴散模型、深度壓縮自編碼器和輕量級線性變換器,支持多風格、多語言音樂生成,可快速完成旋律、人聲、歌詞、樂器循環等內容的創作,適用于音樂制作、創作靈感、人聲 Demo 和音樂教育等場景,幫助用戶高效完成音樂創作。