小型語言模型
· 閱讀時間約 3 分鐘
最近語言模型(俗稱「AI 聊天機器人」)的輕量化發展實在是太厲害了。
還記得大約去年(2024)時那些雲端上最聰明的模型(像是 GPT-4、Claude 3)嗎?這些曾經一定要依靠大科技空司的雲端才能達到的聰明程度,在今年(2025)只要一張 20-40 GB 的家用顯示卡就能達到了。
更讓人興奮的是,去年那些需要數十 GB 大模型才能做到的事情,現在只要個位數 GB 的小模型就能做到類似的效果,甚至連 GPU 都不用!
前陣子 Google 推出的 Gemma 3n 真 的讓人非常驚艷。它有 E2B 和 E4B 兩個大小的版本,其中 E2B 版本只佔用 5 GB 左右的記憶體,但已經足夠聰明到可以做翻譯、重點整理、句子改寫等等的任務了。
我在我的 ThinkPad T480s 筆電上測試,這台 2018 年的老電腦,沒有獨立 GPU,只用 CPU 跑 Gemma 3n E2B,輸出速度居然可以達到每秒 9 個 token,完全是可用的速度!
當然如果輸入很長(例如貼入長文的話),它就會需要算比較久了!我嘗試輸入一個 3,500 個 token 的英文長文,要它用中文整理重點,它花了四分鐘才完成。但我還是覺得,以一台沒有獨立 GPU 的七年老電腦而言,能夠完成這任務就已經是奇蹟了。
比起那些超大型語言模型的發展,這些小型語言模型的進步更讓我興奮期待。完全離線單機運行,不管身在何處,只要開個終端機,就有超方便的 AI 助手可以用;這種「所有東西都在我手上、不用被科技公司的雲端綁住」的感覺實在太棒了!
還沒試過離線 AI 的讀者,強烈推薦你試試看系統需求超低的 Gemma 3n1!