跳至主要内容

離線 AI 好爽(2026 年版)

· 閱讀時間約 6 分鐘

2024 年九月時,我寫過一篇〈離線 AI 好爽!〉。

當時我剛買了兩張 NVIDIA RTX 4000,興奮地把各種離線 AI 工具都玩了一輪──Ollama 上的 Gemma 2 和 Llama 3.1 語言模型、FLUX.1 圖片生成、Whisper 語音辨識、Demucs 音樂分軌、Krita + Stable Diffusion 輔助修圖。

一年半過去了,現在的離線 AI 發展得如何了呢?暴雷:一切都進步超級多!

Qwen3-TTS:離線語音複製、生成

先來玩個遊戲。聽聽看以下兩個語音片段,猜猜看哪一個是我的真人錄音,哪一個只是打字讓 AI 生成的?

「你現在聽到的這段話,可能真的是我說的,也有可能是 AI 在模仿我說話。現在的科技真可怕,我都快要分不出來了。」

片段 1:



片段 2:


點我看答案

片段 1 是 AI 生成,片段 2 才是真的我。是不是很像!

Qwen3-TTS 這個東西太強了,它只需要一段 30 秒的語音樣本,就能複製你的聲音,用你的聲音說任何話。它可以完全離線、單機執行,訓練和生成都超級快,在我的電腦上只要幾秒到十幾秒就可以完成了。

所以,以後如果你聽到「我」在講一些很荒謬的言論,記得那可能不是我喔!

ACE-Step 1.5:離線音樂生成

去(2025)年十月,我介紹過 ACE-Step 這個離線音樂生成模型。當時我對它的評價是:「拍子有點怪怪的,好像樂手突然會抽筋一下的感覺,但是作為創意發想工具還不錯」。

還沒過半年,現在 ACE-Step 1.5 版推出了!這一版的「抽筋現象」已經比之前好非常非常多,聲音品質也明顯提升了好幾個等級。以我的體感來說,現在的品質大約已經相當於早期版本的 Suno,只落後它一年左右吧。

它開放原始碼,可以完全離線、單機執行,可以自訂歌詞和風格。跑起來超級快,在我的電腦上只需十幾秒就能生成一首 90 秒的歌曲。

來聽聽看它生成的音樂,風格設定為「jazz fusion」,歌詞是以下這樣:

Wiwi Blog 🎵 Wiwi Blog 🎵
我今天想要吃蛋餅
蛋餅蛋餅我的蛋餅
老闆加蛋,老闆加兩個蛋
只有蛋和餅,不要加醬油膏



我覺得以離線單機模型來說,這品質很令人驚豔耶!照這個速度發展下去,我猜不用一年,我們就能擁有跟當前的 Suno 一樣厲害的離線模型可以用了!到時候每個人都可以在自己的電腦上,離線免費生成超高品質的蛋餅歌,多麼令人期待的未來呀!

FLUX.2 Klein 9B:大人的離線圖片編輯、生成工具

FLUX.2 Klein 9B 是一個可以離線、單機執行的圖片生成與編輯模型。只要丟一張照片進去,然後用文字描述你想要它變成怎樣就可以了!

我覺得這個比線上的 Nano Banana 好用太多!Nano Banana 的審查機制之荒謬,根本是把使用者當成幼稚園小朋友,我只不過是想把照片修瘦一點它都不讓我耶!就更別提其他政治更不正確的請求了,用起來超廢的。

(Nano Banana:「你的身材很好,不准修改!」)

離線的 FLUX.2 Klein 可就完全不同了!它完全聽命於你,不論你想要生成各種政治不正確的、有版權疑慮的、母湯的、色色的圖片都沒有問題唷!輸出的圖全部存在自己的電腦上,不會被別人監控,太快樂了!

(左邊是原圖,右邊是 FLUX.2 Klein 的輸出)

(天氣越來越熱了,來吃西瓜吧!)

Ollama:很夠用的小型語言模型

跟一年半前相比,2026 年的離線語言模型也增強了一個等級。我現在最常用的模型是 Qwen3.5 27B 和 Gemma 3 27B,都是透過 Ollama 執行。

跟 Claude Opus 或 Gemini 3 Pro 這種付費版的旗艦模型比,當然還是有差距。但跟許多免費版的線上模型比的話,其實表現不相上下唷!我甚至覺得這兩個 27B 的小模型寫出來的文章,比免費版的 ChatGPT 更好。

如果你的需求主要是輔助寫作、翻譯、整理重點等文字工作,2026 年的離線模型已經完全夠用。寫程式也比兩年前進步很多,雖然還沒辦法像 Claude Opus 那樣可以直接完成超大專案,但是寫些小東西還是沒問題的!

線上 AI 越強,你越需要離線 AI

聽起來很矛盾,但是邏輯很簡單:線上 AI 越強,你就會越依賴它;你越依賴它,就越沒有對它說不的餘地。然後哪天它突然大漲價、加入更多內容審查、順便把你最依賴的功能鎖起來,你除了乖乖接受什麼都做不了。

如果生活上已經離不開 AI,更應該在自己的電腦上留一條完全離線、開放原始碼、不受任何公司控制的「後路」。離線 AI 不一定要比線上的強,光是「它永遠在那裡、不會變、不會漲價、不會審查你」這件事本身,就已經有超大的價值。

當雲端 AI 服務集體大便化、網路斷線、條款說改就改──注意是「當」,不是「如果」──你會很慶幸自己電腦上還有一個會聽你的話、能唱蛋餅歌、能生出可疑圖片的 AI 助手陪著你。