S2E37 AI 的「小」革命:小型語言模型才是未來?
小型語言模型以蒸餾技術訓練,推論成本比大模型低百倍、耗電僅需 2%,可直接在手機端運行,未來「本機小模型處理日常、雲端大模型接手難題」的混合架構將是 AI 普及的關鍵路徑。
本頁摘要由 AI 自動生成,著作權屬原節目創作者;可能存在錯誤或遺漏,建議收聽 原節目《矽谷輕鬆談》 以獲取完整資訊。
重點摘要
- 小型語言模型(Small Language Model)通常指參數量低於 100 億(10B)的模型,訓練與推論成本均遠低於大模型,耗電可低至 2%,達到類似效果
- 主流訓練方式為「蒸餾」(Distillation):讓大模型作為「老師」,將其機率分佈思路傳授給「學生」小模型;2024 年論文 mini-LLM 進一步只取高機率輸出作訓練目標,使學生模型表現甚至超越老師模型
- 模型壓縮技術包含剪枝(移除低使用率神經元)與量化(Quantization,從 16-bit 壓縮至 4-8-bit 整數),可將模型大小縮小 2–4 倍
- 未來趨勢是混合架構:手機端小模型處理 90% 日常需求,複雜問題在背景同時詢問雲端大模型,再補充更優回答
- 手機跑 AI 的核心硬體之爭為 NPU(神經網路處理單元)對上 GPU:NPU 省電高效已內建於 2017 年起的高階手機晶片;NVIDIA 黃仁勳則認為 NPU 絕對算力不足,GPU 生態(CUDA)才是關鍵
詳細內容
小型語言模型的定義
小型語言模型目前通常指參數量在 100 億以下的模型,但這個定義會隨算力進步而改變。這類模型通常針對特定領域(醫療、金融、法律等利基市場)做訓練,以求在該領域超越通用大模型的精確度,同時避免大模型的「幻覺」問題。
大模型與小模型的適用情境
- 大模型適合:需要通用知識、複雜推理、少樣本學習新技能、預算無上限的場景
- 小模型適合:特定領域優化、隱私敏感需求(本機運行)、對延遲與成本有考量的產品
蒸餾技術:小模型如何學習大模型
蒸餾(Distillation)是訓練小模型的核心方法,分三個層次:
-
答案模仿:直接用大模型的問答結果當訓練資料餵給小模型。優點是簡單直接,缺點是只學到答案、不知道思路;OpenAI、Anthropic 的 API 條款也明文禁止以此方式蒸餾用於商業競爭
-
機率分佈模仿:讓小模型學習大模型回答時對所有可能答案的機率分佈(軟目標),例如模型回答「貓 70%、狗 20%」的完整機率輸出,而非只學「答案是貓」。缺點是小模型可能過度擬合(overfitting)大模型老師的分佈,導致回答不準確或重複
-
mini-LLM 改進版(2024 年論文):只取高機率輸出作為訓練目標,濾除低機率的雜訊。實驗顯示學生模型表現有時超越老師模型,即「青出於藍」效果
模型壓縮技術
- 剪枝(Pruning):訓練後移除使用率低的神經元,減少不必要計算
- 量化(Quantization):將模型參數從 16-bit 浮點數壓縮至 8-bit 或 4-bit 整數,類似影片壓縮的原理,可縮小模型體積 2–4 倍,幾乎不損失效能
- 混合專家模式(Mixture of Experts, MoE):透過路由器(router)判斷問題類型,只啟用對應的「專家」參數子集,避免每次推論啟用全部參數,大幅降低推論成本
蘋果的後發優勢假說
蘋果不像其他科技公司大量投資旗艦大模型,而是專注在裝置端的隱私小模型(Apple Intelligence)。若蘋果未來推出高品質、低成本、在手機端流暢運行的小模型,掌握裝置端使用者的蘋果反而可能成為最終贏家——大模型提供商彼此競爭後形同商品(commodity),蘋果以優秀使用者體驗收割紅利。
NPU 與 GPU 的手機 AI 晶片之爭
手機跑 AI 需要強力 AI 晶片加上足夠記憶體,目前分兩派:
- GPU 派(Nvidia 立場):GPU 本為圖形渲染設計,但擅長平行運算,且 CUDA 生態開發者眾多。黃仁勳認為 NPU 絕對算力偏低,未來 AI 計算量增加時 NPU 將無法負荷
- NPU 派(Intel、AMD、Qualcomm 立場):NPU 是專為 AI 推論設計的晶片(Neural Processing Unit),高階手機自 2017 年起便已內建。NPU 省電且對 90% 以上日常情境已足夠,AI 推論以矩陣乘法為主、需求相對穩定
精選語錄
「小孩子才做選擇,大人是全都要,未來我認為會偏向一個混合模式。」
「這些小模型或許才會是真正讓 AI 走進每個人生活、普及的一個關鍵。」
「蘋果反而從這個角度來看,會是後發先至,然後可以得到比較好的優勢。」
時間軸
逐字稿未包含時間資訊,無法列出時間軸。依內容順序大致為:
- 節目引言:為何聊小模型,而非大家都在討論的大模型話題
- 小模型定義(100 億參數以下)與主要優勢(成本、速度、隱私)
- 大模型 vs 小模型適用情境比較
- 未來混合架構展望與蘋果假說
- 蒸餾技術三種層次詳解
- 剪枝、量化、混合專家模式壓縮技術
- 手機 AI 硬體條件:NPU vs GPU 之爭
- 結語與頻道訂閱呼籲
同節目更多集數
相關主題
- 【天下零時差05.29.26】康是美600店登藥妝龍頭,靠這道「最強護城河」為何寶雅追不上、屈臣氏做太慢?聽天下:天下雜誌Podcast · 2026-05-29
- 【天下零時差05.28.26】美債殖利率飆破5%!買AI公司債比美國公債好?聽天下:天下雜誌Podcast · 2026-05-28
- 【阿榕伯胡說科技Ep.76】5月科技大事解析:黃仁勳再度訪台、聯發科股價噴發、SpaceX上市倒數聽天下:天下雜誌Podcast · 2026-05-28
- 【決策者・聽天下Ep.156】蝦皮店到店四年狂開3000家,還推全台大免運,電商之王如何撼動全台零售?聽天下:天下雜誌Podcast · 2026-05-28
- 【天下零時差05.27.26】記憶體類股迎超級週期瘋漲 專家:本性難移聽天下:天下雜誌Podcast · 2026-05-27