跳至主要內容

搜尋摘要

目錄
矽谷輕鬆談 節目封面
00:24:56 ~4 分鐘

S2E54 LLM 賭錯方向了?從駕馭工程到世界模型

大型語言模型因天生無狀態與幻覺缺陷,即便加上 Harness Engineering 骨架也難以達到 AGI,前 Meta 首席 AI 科學家楊立昆(2025 年底)離職後創立 AMI Labs,以世界模型路線嘗試讓 AI 真正理解物理世界的運作規律。

在 Apple Podcasts 收聽

本頁摘要由 AI 自動生成,著作權屬原節目創作者;可能存在錯誤或遺漏,建議收聽 原節目《矽谷輕鬆談》 以獲取完整資訊。

重點摘要

  • LLM 的天生局限:大型語言模型無狀態、有幻覺,輸出本質上是機率預測,即使 Scaling Law 持續推進,仍難以消除根本缺陷
  • Harness Engineering 的角色:透過在 LLM 之上架設控制骨架,補足模型無狀態的不足,但這只是「包裝」而非根治
  • 世界模型的核心差異:不預測像素或 Token,而是將輸入映射到低維潛在抽象空間,讓模型理解物理世界「為什麼」會這樣運作,而非只知道「看起來」會發生什麼
  • JEPA 架構的突破:楊立昆的 AMI Labs 在 2026 年 3 月發表論文,透過強制向量符合常態分佈解決「特徵崩塌」問題,將訓練需求從大量 GPU 降至單張 GPU、1500 萬參數、數小時即可完成
  • 未來預測:LLM + Harness 短期仍是主流,世界模型有潛力補足 LLM 對物理世界理解的缺口,最終可能走向兩者混合(Hybrid)架構

詳細內容

AI 模型競爭白熱化

主持人 Kenji 指出,近期模型迭代速度極快,Claude Opus 4.7 推出後 GPT-5.5 隨即跟進,DeepSeek V4 也在錄製時宣布上線。開源與閉源模型的競爭日趨激烈,每次有新進展都讓人感覺「離 AGI 更近了」,但實際使用後又發現仍有不足。

LLM 的根本缺陷

大型語言模型有兩個天生弱點:

  1. 無狀態:每次對話都需要提供完整 Context,本身不記得歷史
  2. 幻覺:輸出具有不可預測性,是機率問題而非確定性推理

這使得即便模型整體越來越聰明,仍然存在一定程度的不可控風險。

Harness Engineering(駕馭工程)

為補足 LLM 缺陷,Harness Engineering 的概念是在語言模型之上架設一層骨架,讓輸出更穩定、可控。這層骨架需要處理狀態管理、流程控制、通訊與速率限制應對等問題,才能真正補足模型無狀態的缺陷。

為何 LLM + Harness 可能不足以達到 AGI

語言模型的本質是「文字接龍」,它從大量文字資料中學習物理世界的表象規則(例如蘋果會從樹上掉下來),但並非真正理解背後的物理定律。就像自動駕駛一樣,即便達到 99% 準確率,那 1% 的失誤若造成重大事故,仍無法規模化應用。

世界模型(World Model)的概念

人類理解世界的方式是建立心智模型:看到前方車輛突然切入,不需逐一分析每個像素,而是憑直覺知道「如果不剎車就會撞上」。小孩把水杯推到桌緣、學習運動技巧,都是透過觀察與互動建立對物理世界的直覺映射。

世界模型的目標,正是讓 AI 複製這種直覺式的物理理解,而非依賴表層的統計匹配。

生成式模型(如 Sora、可靈 AI)的局限

楊立昆認為,Sora 等影像生成模型並非真正的世界模型。它們能生成「看起來符合物理規則」的畫面,是因為從大量訓練資料學到統計規律,但本質上是「知其然、不知其所以然」,因此偶爾會出現違反物理規律的畫面。

此外,這類模型耗費大量算力在渲染背景樹木、花草等無關細節,而不是聚焦在物理世界的核心規律。

JEPA 架構與楊立昆的突破

楊立昆(Yann LeCun)於 2025 年 11 月離開 Meta,於 2026 年初成立 AMI Labs,專攻世界模型研究。

他提出的 JEPA(Joint Embedding Predictive Architecture) 不在像素或 Token 層級做預測,而是將輸入資料映射至低維潛在抽象空間,在該空間預測未來狀態,類似人類的物理直覺。

核心技術難題與突破

  • 特徵崩塌(Feature Collapse):模型訓練時發現「走捷徑」最省力,會將所有輸入映射為同一向量,導致預測表面準確但毫無意義
  • 解決方案:在模型中加入機制,強制生成的向量符合常態分佈,防止走捷徑
  • 成果:訓練門檻從需要大量 GPU 降至單張 GPU、1500 萬參數、數小時即可完成,讓研究生等級的個人電腦就能訓練世界模型

目前限制與未來展望

AMI Labs 的世界模型目前只能預測約 5 步,且僅在模擬環境中測試,長任務的表現仍有限。但降低訓練門檻是重大里程碑,代表更多研究者可以參與這個方向的探索。

Google DeepMind 的 Gemini(前稱 Genie)等團隊也同步在進行世界模型研究,主持人預測未來可能是 LLM + 世界模型的 Hybrid 混合架構,類似人類大腦由語言理解、運動直覺、理性分析等不同模組協同運作。

精選語錄

「Sora 這類型的模型,它並不是世界模型,它只是去畫出來這個世界看起來接下來會發生什麼事情,它並不是真的理解它的物理的定律。」

「LLM 就是做文字接龍,它只理解文字本身……我們人不一樣,看到前面的車突然切進來,你馬上就知道它有可能會撞到你了,你有一個直覺知道物理世界運作的模式。」

「會不會最後我們只是因為有這個情感,我們可以真實感受到這些感情、這些痛苦、這些觸感,才會讓我們跟 AI Agent 不一樣?」

時間軸

  • 開頭:AI 模型競爭現況、本集主題預告(LLM 與世界模型)
  • 中段:NordVPN 廣告、主持人分享使用 Claude Code 打通社群媒體自動發文的開發踩坑經歷(Meta 開發者後台設定混亂、API 上傳限制)
  • 主題段落:LLM 天生缺陷與 Scaling Law 的局限
  • 核心討論:Harness Engineering 的運作原理與補足機制
  • 世界模型介紹:楊立昆離開 Meta(2025 年 11 月)→ 創立 AMI Labs(2026 年初)→ 發表 JEPA 論文(2026 年 3 月)
  • 結尾:主持人對 Hybrid 架構的預測,以及 AI 與人類本質差異的哲學思考

相關主題