之前都是看圖文類的東西,今天體驗一點不一樣的。來點聽力的內容。
mindspore有音樂生成模型MusicGen,MusicGen支持兩種生成模式:貪心(greedy)和采樣(sampling)。在實際執行過程中,采樣模式得到的結果要顯著優于貪心模式。
生成音樂文件后,需要轉換為wav格式來播放,雖然這個模型是生成音樂,但本質好像還是文本 只不過這個文本比較特殊,他是音譜文件之類的音樂相關的格式,所以這里可能就是采樣模式比貪心效果好的原因,連續一點的音樂聽上去沒有那么突兀,直接使用貪心模式生成的音樂可能前后的變化比較大,音樂文件的推理和自然語言的區別還是比較大的。
生成可以選擇
- 無提示生成
- 文本提示生成
- 音樂提示生成
每種方式各有千秋吧,見仁見智