搜尋摘要
目錄
財報狗 · 2026年3月19日 · 50:39 中文

510.【財經時事放大鏡】EUV 一路卡到建算力 x GTC 次世代算力構築

NVIDIA 在 GTC 大會正式發表 LPU(Language Processing Unit)晶片與 LPX 系統,透過「推測性解碼」(Speculative Decoding)技術,將推論速度提升至每秒 1,000 個 Token,約為 ChatGPT API 的 20 倍;LPU 不取代 G

收聽原始 Podcast

重點摘要

  • NVIDIA 在 GTC 大會正式發表 LPU(Language Processing Unit)晶片與 LPX 系統,透過「推測性解碼」(Speculative Decoding)技術,將推論速度提升至每秒 1,000 個 Token,約為 ChatGPT API 的 20 倍
  • LPU 不取代 GPU,而是與 GPU 協作:GPU 負責理解上下文與注意力機制(Attention),LPU 負責在解碼階段先產生候選草稿,再由 GPU 驗證選定,兩者透過網路橋接並行運作
  • SemiAnalysis 創辦人 Dylan Patel 認為 AI 算力最大瓶頸不是電力,而是半導體製造——具體來說是 EUV 光刻機產能不足與晶圓廠場地不夠,預計 2027 年才可能有顯著產能釋放
  • OpenAI 與 Anthropic 的算力策略差異:OpenAI 較早鎖定大量晶片,成本較低;Anthropic 雖產品(Claude Code)爆發成長且營收表現更好,但算力可能在今年不足,需以更高價格租用
  • AI Agent 工具(如 Claude Code 的 Cowork、NVIDIA Nemo Cloud、OpenCloud)大幅降低使用門檻,有望讓非工程師也能大量消耗 Token,類似 ChatGPT 網頁介面對 GPT-3.5 的普及效應

詳細內容

NVIDIA GTC 大會:LPU 與 LPX 系統

NVIDIA 在 GTC 大會上正式揭曉了 LPU 晶片的具體用途。NVIDIA 此前收購了 Groq(一家以極快 Token 輸出速度著稱的公司),外界原本猜測 LPU 可能僅用於特殊場景,因為 NVIDIA 已有 CPX 系列產品。但大會揭曉的答案是:LPU 與 GPU 並存協作

大型語言模型的推論可分為幾個階段:

  1. Prefill(預填充):理解使用者問題、載入上下文資料,由 GPU 處理,每個 Token 約需 4-5MB 記憶體(KV Cache)
  2. Decode(解碼):逐字產生回應。其中「注意力計算」仍由 GPU 負責,但「推測性解碼」(Speculative Decoding)這一步交給 LPU——LPU 先快速產生多個候選草稿,再由 GPU 驗證並選定最終結果

目前的 LPX 系統使用 8 顆 Groq 的 LPU,體積不小,LPU 與 GPU 之間透過網路(需加裝 NIC 或 DPU)橋接通訊。主持人認為這是第一代的「拼裝車」設計——因為 Groq 剛被收購,兩套架構(Groq 的 SRAM 架構 vs. NVIDIA 的 GPU 架構)尚未深度整合。預計下下代產品才有可能將 LPU 直接嵌入 GPU 系統中。

軟體層面,NVIDIA 的 Dynamo 框架負責管理記憶體層級的卸載與調度(HBM → 本地 DRAM → 本地 SSD → 遠端儲存),在加入 LPU 後更顯重要。

此外,GTC 大會現場直接開賣 DGX Spark,如同 iPhone 發表會般「現場帶貨」,AWS 貨架瞬間銷售一空。

AI Agent 工具的爆發:Cloud Code Cowork、Nemo Cloud 與 OpenCloud

主持人實際使用了 Claude 的 Cowork(Cloud Code 的延伸功能),用於自動化抓取公開資訊觀測站的財報公告資料——以往需要逐一檢查 20 家公司的公告,現在交給 AI 就能自動監控與整理,大幅節省時間。目前使用 20 美元訂閱方案即足夠。

NVIDIA Nemo Cloud 是 NVIDIA 版本的類似工具,看起來比 OpenCloud 更容易上手。OpenCloud(開源版本)安裝門檻較高,需要 CLI 知識,網路上甚至有人開始販售「幫你安裝 OpenCloud」的服務。

主持人將這些工具的潛在影響比喻為「ChatGPT 時刻」:當年 GPT-2 時代只有工程師在用,ChatGPT 的網頁介面讓所有人都能使用,引發大爆發。現在的 Cowork / Nemo Cloud 可能扮演類似角色,讓非工程師也能大量消耗 Token——例如未來 Siri 加強版,連問天氣、買雨傘這種日常行為都會消耗算力。

主持人也提到一個前瞻概念:Token 延遲若降到人類感知不到的程度,每個人看到的網頁可以是完全為個人客製的設計(不只是內容不同,連版面設計都不同),這將徹底改變網頁體驗。

Dylan Patel 訪談:AI 算力瓶頸的供應鏈分析

SemiAnalysis 創辦人 Dylan Patel 在一場長達兩個半小時的訪談中,深入分析了 AI 算力的供應鏈瓶頸。

核心論點:長期瓶頸是半導體製造,不是電力。

  • 短期瓶頸確實是電力基礎設施,但長期(約 4 年尺度)電力問題終將解決
  • 真正難解的是:EUV 光刻機產能不足。Dylan Patel 首創性地計算出「1GW 的 AI 算力大約需要 3.5 台 EUV 機台」,將算力需求直接對應到設備產能
  • ASML 的 EUV 機台一直處於供不應求狀態,訂單排到明後年;擴產 EUV 本身也極度困難,涉及高規格鏡頭等上游零件、機台良率等多重限制
  • 晶圓廠(Fab)場地不足是另一個關鍵卡點——從五大半導體設備商的法說會都能聽到「無塵室場地不夠」的訊息。台灣建廠約需 1 年,海外則需 2 年,預計 2027 年才可能有真正的產能釋放

GPU 價格與折舊年限的啟示:由於上游製造產能受限,GPU 供不應求,實際經濟價值將超過帳面折舊年限。即使不漲價,GPU 持續為擁有者創造利潤,這解釋了為何資料中心短期供給不會像一般大宗商品那樣因擴產而崩價。

OpenAI vs. Anthropic 的算力策略:OpenAI 較早以長約鎖定大量算力,成本結構較有利;Anthropic 雖然產品表現強勁,但在算力採購上起步較晚,Dylan Patel 認為 Anthropic 今年算力就可能不足,需以更高價格向外租用。不過 Anthropic 的募資能力強勁,這一劣勢並非無法克服。

精選語錄

「你每一個 Token 背後大概需要 5MB 的記憶體⋯⋯一篇文章如果 1000 個字,光緩存就要接近 5GB。所以大家知道為什麼大家很熱烈地在搶算力。」

「你跟我說有技術鴻溝,你有沒有差 5 年?在這個巨額的賞金之下,我相信那個差距馬上就變 5 個月。」

「現在大量消耗 Token 的人都是工程師——用 AI 寫程式。但如果接下來真的是人人都可以使用 Agent,以後你出一張嘴就花錢了,連講屁話都花錢。」

時間軸

由於逐字稿未包含時間戳記,以下為內容段落順序:

  • 開場 — GTC 大會總覽,提到學寶(Jetbot)機器人、Nemo Cloud、DGX Spark 現場銷售
  • 第一段 — Cloud Code Cowork / OpenCloud 使用體驗:用 AI 自動監控公開資訊觀測站財報公告
  • 第二段 — LPU 技術深度解析:推測性解碼(Speculative Decoding)、LPU 與 GPU 協作架構、LPX 系統設計、Dynamo 軟體框架
  • 第三段 — Token 速度提升的影響:每秒 1,000 Token(20 倍速)、個人化網頁設計的未來想像
  • 第四段 — Dylan Patel 訪談重點:AI 算力瓶頸在半導體製造(EUV 光刻機與晶圓廠場地)、1GW ≈ 3.5 台 EUV 的計算、2027 年產能預測
  • 第五段 — GPU 定價邏輯與折舊年限分析、OpenAI vs. Anthropic 算力策略比較
  • 結尾 — AI Agent 降低門檻帶來的 Token 消耗爆發、對台灣半導體供應鏈的樂觀展望

相關主題