跳至主要內容

搜尋摘要

目錄
矽谷輕鬆談 節目封面
00:18:30 ~3 分鐘

S2E37 AI 的「小」革命:小型語言模型才是未來?

小型語言模型以蒸餾技術訓練,推論成本比大模型低百倍、耗電僅需 2%,可直接在手機端運行,未來「本機小模型處理日常、雲端大模型接手難題」的混合架構將是 AI 普及的關鍵路徑。

在 Apple Podcasts 收聽

本頁摘要由 AI 自動生成,著作權屬原節目創作者;可能存在錯誤或遺漏,建議收聽 原節目《矽谷輕鬆談》 以獲取完整資訊。

重點摘要

  • 小型語言模型(Small Language Model)通常指參數量低於 100 億(10B)的模型,訓練與推論成本均遠低於大模型,耗電可低至 2%,達到類似效果
  • 主流訓練方式為「蒸餾」(Distillation):讓大模型作為「老師」,將其機率分佈思路傳授給「學生」小模型;2024 年論文 mini-LLM 進一步只取高機率輸出作訓練目標,使學生模型表現甚至超越老師模型
  • 模型壓縮技術包含剪枝(移除低使用率神經元)與量化(Quantization,從 16-bit 壓縮至 4-8-bit 整數),可將模型大小縮小 2–4 倍
  • 未來趨勢是混合架構:手機端小模型處理 90% 日常需求,複雜問題在背景同時詢問雲端大模型,再補充更優回答
  • 手機跑 AI 的核心硬體之爭為 NPU(神經網路處理單元)對上 GPU:NPU 省電高效已內建於 2017 年起的高階手機晶片;NVIDIA 黃仁勳則認為 NPU 絕對算力不足,GPU 生態(CUDA)才是關鍵

詳細內容

小型語言模型的定義

小型語言模型目前通常指參數量在 100 億以下的模型,但這個定義會隨算力進步而改變。這類模型通常針對特定領域(醫療、金融、法律等利基市場)做訓練,以求在該領域超越通用大模型的精確度,同時避免大模型的「幻覺」問題。

大模型與小模型的適用情境

  • 大模型適合:需要通用知識、複雜推理、少樣本學習新技能、預算無上限的場景
  • 小模型適合:特定領域優化、隱私敏感需求(本機運行)、對延遲與成本有考量的產品

蒸餾技術:小模型如何學習大模型

蒸餾(Distillation)是訓練小模型的核心方法,分三個層次:

  1. 答案模仿:直接用大模型的問答結果當訓練資料餵給小模型。優點是簡單直接,缺點是只學到答案、不知道思路;OpenAI、Anthropic 的 API 條款也明文禁止以此方式蒸餾用於商業競爭

  2. 機率分佈模仿:讓小模型學習大模型回答時對所有可能答案的機率分佈(軟目標),例如模型回答「貓 70%、狗 20%」的完整機率輸出,而非只學「答案是貓」。缺點是小模型可能過度擬合(overfitting)大模型老師的分佈,導致回答不準確或重複

  3. mini-LLM 改進版(2024 年論文):只取高機率輸出作為訓練目標,濾除低機率的雜訊。實驗顯示學生模型表現有時超越老師模型,即「青出於藍」效果

模型壓縮技術

  • 剪枝(Pruning):訓練後移除使用率低的神經元,減少不必要計算
  • 量化(Quantization):將模型參數從 16-bit 浮點數壓縮至 8-bit 或 4-bit 整數,類似影片壓縮的原理,可縮小模型體積 2–4 倍,幾乎不損失效能
  • 混合專家模式(Mixture of Experts, MoE):透過路由器(router)判斷問題類型,只啟用對應的「專家」參數子集,避免每次推論啟用全部參數,大幅降低推論成本

蘋果的後發優勢假說

蘋果不像其他科技公司大量投資旗艦大模型,而是專注在裝置端的隱私小模型(Apple Intelligence)。若蘋果未來推出高品質、低成本、在手機端流暢運行的小模型,掌握裝置端使用者的蘋果反而可能成為最終贏家——大模型提供商彼此競爭後形同商品(commodity),蘋果以優秀使用者體驗收割紅利。

NPU 與 GPU 的手機 AI 晶片之爭

手機跑 AI 需要強力 AI 晶片加上足夠記憶體,目前分兩派:

  • GPU 派(Nvidia 立場):GPU 本為圖形渲染設計,但擅長平行運算,且 CUDA 生態開發者眾多。黃仁勳認為 NPU 絕對算力偏低,未來 AI 計算量增加時 NPU 將無法負荷
  • NPU 派(Intel、AMD、Qualcomm 立場):NPU 是專為 AI 推論設計的晶片(Neural Processing Unit),高階手機自 2017 年起便已內建。NPU 省電且對 90% 以上日常情境已足夠,AI 推論以矩陣乘法為主、需求相對穩定

精選語錄

「小孩子才做選擇,大人是全都要,未來我認為會偏向一個混合模式。」

「這些小模型或許才會是真正讓 AI 走進每個人生活、普及的一個關鍵。」

「蘋果反而從這個角度來看,會是後發先至,然後可以得到比較好的優勢。」

時間軸

逐字稿未包含時間資訊,無法列出時間軸。依內容順序大致為:

  1. 節目引言:為何聊小模型,而非大家都在討論的大模型話題
  2. 小模型定義(100 億參數以下)與主要優勢(成本、速度、隱私)
  3. 大模型 vs 小模型適用情境比較
  4. 未來混合架構展望與蘋果假說
  5. 蒸餾技術三種層次詳解
  6. 剪枝、量化、混合專家模式壓縮技術
  7. 手機 AI 硬體條件:NPU vs GPU 之爭
  8. 結語與頻道訂閱呼籲

相關主題