跳至主要内容

Stable Audio 3

· 閱讀時間約 4 分鐘

最近玩了一下 Stable Audio 3.0,這是 Stability AI 新推出的離線聲音生成模型。

它不像 Suno 那樣,是把全世界的盜版音樂1倒進果汁機裡,攪成一杯誰也說不出是什麼味道、但總覺得在哪裡喝過的綜合果汁,再吐出來給你喝的洗錢機器。Stable Audio 走的是完全相反的路:全部使用合法授權的訓練資料。

它跟 Suno 的用法也不同。Stable Audio「不能」生出一整首有歌詞、有人聲、有完整曲式的歌曲;它是把自己定位成你可以無限取用的素材庫。

對於本來就有能力做音樂的音樂人來說,「一鍵生成整首歌」剛好是你最不想要的功能,因為那把做音樂最好玩的地方全都外包掉啦!我們更想要的是快速取得好用的材料:一段鼓節奏、吉他和弦、音效,然後再拿照著我的意思去裁切、拼貼。

來聽幾個 Stable Audio 3 的生成結果。例如你正在作曲,正缺一個 96 bpm 的鼓節奏?馬上生給你:



想要一段 E 小調的吉他 Solo?當然沒問題:



想要貓跟狗吵架的音效?它也可以生出來:



更有趣的是,你可以餵給它一段聲音,讓模型去延伸、把它亂攪一通再丟回來。我放了 iPhone 的木琴鈴聲,結果變成這樣:



試試看 Windows XP 的開機音樂。我覺得還滿好聽的耶,很像真人用取樣機拼貼出來 lo-fi hiphop,跟 Suno 的質感完全不一樣:



很好玩吧!我覺得這個對於作曲家來說,是一個很棒的聲音實驗工具,而且是完全離線的!硬體要求不高、生成也很快,在我的電腦上(Nvidia RTX 4000)只要兩秒鐘就可以生成一分鐘的素材。

你甚至還可以拿自己的聲音檔案去微調模型,讓它無限產出類似風格的新素材。我覺得傳統的音樂素材庫服務如 Splice,大概不用多久就會被這樣的模型取代了。

當然,有些情況下,你還是會想要那種「輸入歌詞就跑出整首歌」的快感。Suno 在這方面依然還是最強的(誰叫它是世界最強音樂盜版商);想要離線使用的話,也可以用我之前介紹過的 ACE-Step

2026 年,離線 AI 的實用度,正在迅速逼近線上服務。那些大科技公司大概也意識到自己的優勢快沒了,所以決定把全世界的 RAM 都掃光,把記憶體價格炒到天價,讓一般使用者根本買不起電腦來跑離線模型,真是高招!超級慶幸我兩年前裝了現在的這台電腦,誰想得到它的報酬率會把 0050 和 VTI 通通比下去呢?

Footnotes

  1. https://www.techtimes.com/articles/318471/20260616/ai-music-copyright-lawsuit-suno-discovery-shows-millions-songs-july-ruling-nears.htm
    Suno 用了數百萬首版權歌曲來訓練 AI,結果被音訊指紋技術抓包,現在面臨六萬首歌的侵權訴訟。