矽谷輕鬆談｜S2E37 AI 的「小」革命：小型語言模型才是未來？重點摘要

重點摘要

小型語言模型（Small Language Model）通常指參數量低於 100 億（10B）的模型，訓練與推論成本均遠低於大模型，耗電可低至 2%，達到類似效果
主流訓練方式為「蒸餾」（Distillation）：讓大模型作為「老師」，將其機率分佈思路傳授給「學生」小模型；2024 年論文 mini-LLM 進一步只取高機率輸出作訓練目標，使學生模型表現甚至超越老師模型
模型壓縮技術包含剪枝（移除低使用率神經元）與量化（Quantization，從 16-bit 壓縮至 4-8-bit 整數），可將模型大小縮小 2–4 倍
未來趨勢是混合架構：手機端小模型處理 90% 日常需求，複雜問題在背景同時詢問雲端大模型，再補充更優回答
手機跑 AI 的核心硬體之爭為 NPU（神經網路處理單元）對上 GPU：NPU 省電高效已內建於 2017 年起的高階手機晶片；NVIDIA 黃仁勳則認為 NPU 絕對算力不足，GPU 生態（CUDA）才是關鍵

小型語言模型目前通常指參數量在 100 億以下的模型，但這個定義會隨算力進步而改變。這類模型通常針對特定領域（醫療、金融、法律等利基市場）做訓練，以求在該領域超越通用大模型的精確度，同時避免大模型的「幻覺」問題。

蒸餾（Distillation）是訓練小模型的核心方法，分三個層次：

答案模仿：直接用大模型的問答結果當訓練資料餵給小模型。優點是簡單直接，缺點是只學到答案、不知道思路；OpenAI、Anthropic 的 API 條款也明文禁止以此方式蒸餾用於商業競爭
機率分佈模仿：讓小模型學習大模型回答時對所有可能答案的機率分佈（軟目標），例如模型回答「貓 70%、狗 20%」的完整機率輸出，而非只學「答案是貓」。缺點是小模型可能過度擬合（overfitting）大模型老師的分佈，導致回答不準確或重複
mini-LLM 改進版（2024 年論文）：只取高機率輸出作為訓練目標，濾除低機率的雜訊。實驗顯示學生模型表現有時超越老師模型，即「青出於藍」效果

剪枝（Pruning）：訓練後移除使用率低的神經元，減少不必要計算
量化（Quantization）：將模型參數從 16-bit 浮點數壓縮至 8-bit 或 4-bit 整數，類似影片壓縮的原理，可縮小模型體積 2–4 倍，幾乎不損失效能
混合專家模式（Mixture of Experts, MoE）：透過路由器（router）判斷問題類型，只啟用對應的「專家」參數子集，避免每次推論啟用全部參數，大幅降低推論成本

蘋果不像其他科技公司大量投資旗艦大模型，而是專注在裝置端的隱私小模型（Apple Intelligence）。若蘋果未來推出高品質、低成本、在手機端流暢運行的小模型，掌握裝置端使用者的蘋果反而可能成為最終贏家——大模型提供商彼此競爭後形同商品（commodity），蘋果以優秀使用者體驗收割紅利。

手機跑 AI 需要強力 AI 晶片加上足夠記憶體，目前分兩派：

GPU 派（Nvidia 立場）：GPU 本為圖形渲染設計，但擅長平行運算，且 CUDA 生態開發者眾多。黃仁勳認為 NPU 絕對算力偏低，未來 AI 計算量增加時 NPU 將無法負荷
NPU 派（Intel、AMD、Qualcomm 立場）：NPU 是專為 AI 推論設計的晶片（Neural Processing Unit），高階手機自 2017 年起便已內建。NPU 省電且對 90% 以上日常情境已足夠，AI 推論以矩陣乘法為主、需求相對穩定

「小孩子才做選擇，大人是全都要，未來我認為會偏向一個混合模式。」

「這些小模型或許才會是真正讓 AI 走進每個人生活、普及的一個關鍵。」

「蘋果反而從這個角度來看，會是後發先至，然後可以得到比較好的優勢。」

逐字稿未包含時間資訊，無法列出時間軸。依內容順序大致為：