Stable Audio 3

2026年7月5日 · 閱讀時間約 4 分鐘

最近玩了一下 Stable Audio 3.0，這是 Stability AI 新推出的離線聲音生成模型。

它不像 Suno 那樣，是把全世界的盜版音樂¹倒進果汁機裡，攪成一杯誰也說不出是什麼味道、但總覺得在哪裡喝過的綜合果汁，再吐出來給你喝的洗錢機器。Stable Audio 走的是完全相反的路：全部使用合法授權的訓練資料。

它跟 Suno 的用法也不同。Stable Audio「不能」生出一整首有歌詞、有人聲、有完整曲式的歌曲；它是把自己定位成你可以無限取用的素材庫。

對於本來就有能力做音樂的音樂人來說，「一鍵生成整首歌」剛好是你最不想要的功能，因為那把做音樂最好玩的地方全都外包掉啦！我們更想要的是快速取得好用的材料：一段鼓節奏、吉他和弦、音效，然後再拿照著我的意思去裁切、拼貼。

來聽幾個 Stable Audio 3 的生成結果。例如你正在作曲，正缺一個 96 bpm 的鼓節奏？馬上生給你：

想要一段 E 小調的吉他 Solo？當然沒問題：

想要貓跟狗吵架的音效？它也可以生出來：

更有趣的是，你可以餵給它一段聲音，讓模型去延伸、把它亂攪一通再丟回來。我放了 iPhone 的木琴鈴聲，結果變成這樣：

試試看 Windows XP 的開機音樂。我覺得還滿好聽的耶，很像真人用取樣機拼貼出來 lo-fi hiphop，跟 Suno 的質感完全不一樣：

很好玩吧！我覺得這個對於作曲家來說，是一個很棒的聲音實驗工具，而且是完全離線的！硬體要求不高、生成也很快，在我的電腦上（Nvidia RTX 4000）只要兩秒鐘就可以生成一分鐘的素材。

你甚至還可以拿自己的聲音檔案去微調模型，讓它無限產出類似風格的新素材。我覺得傳統的音樂素材庫服務如 Splice，大概不用多久就會被這樣的模型取代了。

當然，有些情況下，你還是會想要那種「輸入歌詞就跑出整首歌」的快感。Suno 在這方面依然還是最強的（誰叫它是世界最強音樂盜版商）；想要離線使用的話，也可以用我之前介紹過的 ACE-Step。

2026 年，離線 AI 的實用度，正在迅速逼近線上服務。那些大科技公司大概也意識到自己的優勢快沒了，所以決定把全世界的 RAM 都掃光，把記憶體價格炒到天價，讓一般使用者根本買不起電腦來跑離線模型，真是高招！超級慶幸我兩年前裝了現在的這台電腦，誰想得到它的報酬率會把 0050 和 VTI 通通比下去呢？

https://www.techtimes.com/articles/318471/20260616/ai-music-copyright-lawsuit-suno-discovery-shows-millions-songs-july-ruling-nears.htm
Suno 用了數百萬首版權歌曲來訓練 AI，結果被音訊指紋技術抓包，現在面臨六萬首歌的侵權訴訟。 ↩

Footnotes​

Footnotes