搜尋摘要
目錄
矽谷輕鬆談 · 2026年4月5日 · 00:18:55 中文

S2E51 解密 Claude Code:原始碼流出揭露記憶架構與未公開的 Kairos 模式

Anthropic 在 3 月 31 日發布 Claude Code 新版本時,意外將 Source Map 檔案打包進 NPM 套件,導致混淆過後的原始碼被還原為可讀程式碼,引發社群大規模逆向工程

收聽原始 Podcast

重點摘要

  • Anthropic 在 3 月 31 日發布 Claude Code 新版本時,意外將 Source Map 檔案打包進 NPM 套件,導致混淆過後的原始碼被還原為可讀程式碼,引發社群大規模逆向工程
  • 洩漏揭露了 Claude Code 尚未公開的自主 Agent 模式「Kairos」——一個全天候主動運行的助理,可自動監看 GitHub PR、修復 CI 問題,並主動推送報告
  • Claude Code 採用三層記憶架構:永久系統提示記憶(Memory.md)、主題式動態載入記憶(Topic files)、以及全量對話記錄(僅供查詢);並有「Auto Dream」機制定期整理記憶
  • Anthropic 設有反蒸餾(Anti-distillation)機制:插入假工具呼叫、隱藏完整推理過程,但業界研究員約一小時即可繞過,實際效果偏向法律威嚇
  • 此次洩漏的是工程架構而非模型權重,Anthropic 的核心競爭優勢(模型本身)並未外流,但競爭對手已能快速複製出功能相近的 CLI 工具

詳細內容

事件經過:Source Map 意外洩漏

2026 年 3 月 31 日(愚人節前一天),Anthropic 在將 Claude Code 新版本發布到 NPM 套件管理系統時,一名工程師因人為失誤,將開發除錯用的 Source Map 檔案.map 檔)一併打包上傳。

Source Map 是一種「地圖檔」,用途是將壓縮混淆後的 JavaScript 程式碼對應回原始可讀的程式碼、函式名稱與行號,方便開發者在本機除錯。這個檔案本不應出現在公開發布的套件中。

X 平台上的資安研究員「炒飯哥」(帳號 Fried Rice,本名疑為 Chow Fun)率先發現這個漏洞並公開揭露,引發整個 AI 社群瘋狂備份與研究。

社群反應:逆向工程與開源重現

Anthropic 以版權聲明下架了直接複製原始碼的 GitHub 儲存庫,但社群找到法律漏洞:以不同語言重寫相同邏輯不在版權保護範圍內。於是出現了:

  • 使用 Python 重寫的版本
  • 使用 Rust 重寫的版本
  • 支援 OpenAI、Gemini 等多種模型的開源替代品

其中最受矚目的 repo 名為「Claude Code」,使用 OpenAI Codex 閱讀原始碼後以 Python 重寫,成為 GitHub 史上最快達到 5 萬顆星的儲存庫。

事後處理:矽谷的「責怪流程而非個人」文化

Claude Code 作者 Boris Cherny 在 X 上表示,這是發布流程中的人為失誤,Anthropic 已改善內部流程——將原本需要人工操作的發布步驟自動化,加入打包時自動檢查是否含有 Source Map 的機制。目前無任何人員受到懲處。

Kenji 以 GitLab 工程師誤刪 Production 資料庫為例,強調矽谷普遍的理念:若一個人的失誤能造成如此重大損失,問題在於流程設計,而非個人

揭露的新功能一:寵物同伴系統(已上線)

洩漏揭露了一個已在最新版 Claude Code 上線的彩蛋功能:輸入 /buddy 指令可孵化出一隻虛擬寵物,擁有名字、個性與技能,會在你編寫程式時旁邊閒聊。Kenji 抽到一隻烏龜並命名為「小龜」,語言可設定為中文。目前寵物與帳號及裝置綁定,不能重抽。

揭露的新功能二:自主 Agent「Kairos」(尚未公開)

這是最受矚目的洩漏內容。Kairos 是 Anthropic 內部研發的全自主 Agent 模式,與現有 Claude Code「被動問答」的方式截然不同:

  • 主動運行:定期(可能每幾分鐘)自動醒來,主動檢視程式碼庫問題、GitHub Issue 與 Pull Request
  • 自動修復:監看 CI 狀態,自動嘗試修復失敗的測試
  • 主動通知:完成工作後,發送摘要報告到使用者手機
  • 行動日誌:採用 Append-Only(只能新增、不能修改)的日誌,記錄觀察、決策與執行動作

Kenji 認為 Kairos 一旦發布,將直接對標甚至取代 OpenAI 的 Operator(俗稱「小龍蝦」)。

揭露的架構細節:三層記憶系統

原始碼揭示了 Claude Code 如何管理 Agent 的記憶,分為三層:

層次儲存方式載入時機用途
第一層(長期記憶)Memory.md每次對話都載入核心偏好、重要事實
第二層(主題記憶)各 Topic .md按需動態載入特定主題的知識與偏好
第三層(對話記錄)全量歷史記錄僅供查詢,不主動載入搜尋特定過去對話

Auto Dream 機制:Agent 會定期自動「做夢」——重新審視第二、三層的原始雜亂資料,整合至第一層長期記憶,並定期去除重複內容,讓記憶隨使用時間增長而變得更精準簡潔。

Kenji 指出,這揭示了一個關鍵洞見:即便模型擁有百萬 Token 的超長 Context Window,塞滿不重要資訊仍會讓模型變笨(研究發現 Context 用到 40~50% 時效能即開始下降),因此精確管理記憶載入至關重要。

揭露的防護機制:反蒸餾與臥底模式

反蒸餾(Anti-distillation):防止其他公司用 Claude 的輸出去訓練自家小模型。手段有二:

  1. 插入假工具呼叫:告訴模型「你可以使用這個工具」,但該工具根本不存在,藉此混淆蒸餾出的模型行為
  2. 隱藏完整推理過程:只回傳部分思考鏈,讓蒸餾方無法完整學習推理邏輯

但 Kenji 指出,這些機制「防君子不防小人」——有經驗的 AI 研究員約一小時即可繞過,其真正價值在於法律層面:若對方模型輸出中出現假工具,即為侵權鐵證。

臥底模式(Undercover):Anthropic 員工在開源專案協作時,系統會自動隱藏內部 Code Name(如之前洩漏的 Mythos、Capybara)以及「由 AI 生成」的標記,防止商業機密外流。諷刺的是,此功能的存在本身也因這次洩漏而曝光。

洩漏對 Anthropic 競爭優勢的影響評估

Kenji 的結論:有影響,但不致命

  • 有影響的部分:Claude Code 作為工具產品,其 Harness Engineering(駕馭工程)設計已公開,競爭對手可快速複製出功能相近的 CLI 工具
  • 無影響的部分:核心競爭力——Claude 模型的模型權重——完全未洩漏,Anthropic 在模型層次的領先優勢仍在
  • Anthropic 在 Coding Agent 領域擁有先行者優勢與品牌效應,短期內用戶不太可能大量流失

精選語錄

「如果一個人可以造成這麼大的嚴重的問題,那是這個流程有問題,所以他們說他們把這部分再去自動化,而不是說你就直接把這個人開除。」

「即便這些模型現在都有非常大的 Context Window,即便有 One Million、Two Million,但是你如果把所有東西丟進去,其實這個模型還是不會很聰明。」

「它並沒有洩漏它的大腦——它模型最精華的部分其實是沒有被洩漏出去的,所以在模型的層次,至少他們這邊還是有一定的領先優勢。」


時間軸

逐字稿無明確時間標記,以下為段落順序:

  • 開場 — 事件背景介紹:Anthropic 意外洩漏 Claude Code 原始碼
  • 中前段 — 事件詳細經過:Source Map 是什麼、炒飯哥如何發現、社群如何應對
  • 中段 — Anthropic 的事後處理與矽谷文化反思(Boris Cherny 聲明、GitLab 對比案例)
  • 中後段 — 洩漏揭露的已上線功能:寵物同伴系統
  • 後段一 — 洩漏揭露的未公開功能:Kairos 自主 Agent 詳細架構
  • 後段二 — 三層記憶系統與 Auto Dream 機制
  • 後段三 — 反蒸餾機制與臥底模式
  • 結尾 — 洩漏對 Anthropic 競爭優勢的影響分析

相關主題