S2E51 解密 Claude Code：原始碼流出揭露記憶架構與未公開的 Kairos 模式

重點摘要

Anthropic 在 3 月 31 日發布 Claude Code 新版本時，意外將 Source Map 檔案打包進 NPM 套件，導致混淆過後的原始碼被還原為可讀程式碼，引發社群大規模逆向工程
洩漏揭露了 Claude Code 尚未公開的自主 Agent 模式「Kairos」——一個全天候主動運行的助理，可自動監看 GitHub PR、修復 CI 問題，並主動推送報告
Claude Code 採用三層記憶架構：永久系統提示記憶（Memory.md）、主題式動態載入記憶（Topic files）、以及全量對話記錄（僅供查詢）；並有「Auto Dream」機制定期整理記憶
Anthropic 設有反蒸餾（Anti-distillation）機制：插入假工具呼叫、隱藏完整推理過程，但業界研究員約一小時即可繞過，實際效果偏向法律威嚇
此次洩漏的是工程架構而非模型權重，Anthropic 的核心競爭優勢（模型本身）並未外流，但競爭對手已能快速複製出功能相近的 CLI 工具

詳細內容

事件經過：Source Map 意外洩漏

2026 年 3 月 31 日（愚人節前一天），Anthropic 在將 Claude Code 新版本發布到 NPM 套件管理系統時，一名工程師因人為失誤，將開發除錯用的 Source Map 檔案（.map 檔）一併打包上傳。

Source Map 是一種「地圖檔」，用途是將壓縮混淆後的 JavaScript 程式碼對應回原始可讀的程式碼、函式名稱與行號，方便開發者在本機除錯。這個檔案本不應出現在公開發布的套件中。

X 平台上的資安研究員「炒飯哥」（帳號 Fried Rice，本名疑為 Chow Fun）率先發現這個漏洞並公開揭露，引發整個 AI 社群瘋狂備份與研究。

社群反應：逆向工程與開源重現

使用 Python 重寫的版本
使用 Rust 重寫的版本
支援 OpenAI、Gemini 等多種模型的開源替代品

其中最受矚目的 repo 名為「Claude Code」，使用 OpenAI Codex 閱讀原始碼後以 Python 重寫，成為 GitHub 史上最快達到 5 萬顆星的儲存庫。

事後處理：矽谷的「責怪流程而非個人」文化

Claude Code 作者 Boris Cherny 在 X 上表示，這是發布流程中的人為失誤，Anthropic 已改善內部流程——將原本需要人工操作的發布步驟自動化，加入打包時自動檢查是否含有 Source Map 的機制。目前無任何人員受到懲處。

Kenji 以 GitLab 工程師誤刪 Production 資料庫為例，強調矽谷普遍的理念：若一個人的失誤能造成如此重大損失，問題在於流程設計，而非個人。

揭露的新功能一：寵物同伴系統（已上線）

洩漏揭露了一個已在最新版 Claude Code 上線的彩蛋功能：輸入 /buddy 指令可孵化出一隻虛擬寵物，擁有名字、個性與技能，會在你編寫程式時旁邊閒聊。Kenji 抽到一隻烏龜並命名為「小龜」，語言可設定為中文。目前寵物與帳號及裝置綁定，不能重抽。

揭露的新功能二：自主 Agent「Kairos」（尚未公開）

這是最受矚目的洩漏內容。Kairos 是 Anthropic 內部研發的全自主 Agent 模式，與現有 Claude Code「被動問答」的方式截然不同：

主動運行：定期（可能每幾分鐘）自動醒來，主動檢視程式碼庫問題、GitHub Issue 與 Pull Request
自動修復：監看 CI 狀態，自動嘗試修復失敗的測試
主動通知：完成工作後，發送摘要報告到使用者手機
行動日誌：採用 Append-Only（只能新增、不能修改）的日誌，記錄觀察、決策與執行動作

Kenji 認為 Kairos 一旦發布，將直接對標甚至取代 OpenAI 的 Operator（俗稱「小龍蝦」）。

揭露的架構細節：三層記憶系統

原始碼揭示了 Claude Code 如何管理 Agent 的記憶，分為三層：

層次	儲存方式	載入時機	用途
第一層（長期記憶）	`Memory.md`	每次對話都載入	核心偏好、重要事實
第二層（主題記憶）	各 Topic `.md` 檔	按需動態載入	特定主題的知識與偏好
第三層（對話記錄）	全量歷史記錄	僅供查詢，不主動載入	搜尋特定過去對話

Auto Dream 機制：Agent 會定期自動「做夢」——重新審視第二、三層的原始雜亂資料，整合至第一層長期記憶，並定期去除重複內容，讓記憶隨使用時間增長而變得更精準簡潔。

Kenji 指出，這揭示了一個關鍵洞見：即便模型擁有百萬 Token 的超長 Context Window，塞滿不重要資訊仍會讓模型變笨（研究發現 Context 用到 40~50% 時效能即開始下降），因此精確管理記憶載入至關重要。

揭露的防護機制：反蒸餾與臥底模式

反蒸餾（Anti-distillation）：防止其他公司用 Claude 的輸出去訓練自家小模型。手段有二：

插入假工具呼叫：告訴模型「你可以使用這個工具」，但該工具根本不存在，藉此混淆蒸餾出的模型行為
隱藏完整推理過程：只回傳部分思考鏈，讓蒸餾方無法完整學習推理邏輯

但 Kenji 指出，這些機制「防君子不防小人」——有經驗的 AI 研究員約一小時即可繞過，其真正價值在於法律層面：若對方模型輸出中出現假工具，即為侵權鐵證。

臥底模式（Undercover）：Anthropic 員工在開源專案協作時，系統會自動隱藏內部 Code Name（如之前洩漏的 Mythos、Capybara）以及「由 AI 生成」的標記，防止商業機密外流。諷刺的是，此功能的存在本身也因這次洩漏而曝光。

洩漏對 Anthropic 競爭優勢的影響評估

Kenji 的結論：有影響，但不致命。

有影響的部分：Claude Code 作為工具產品，其 Harness Engineering（駕馭工程）設計已公開，競爭對手可快速複製出功能相近的 CLI 工具
無影響的部分：核心競爭力——Claude 模型的模型權重——完全未洩漏，Anthropic 在模型層次的領先優勢仍在
Anthropic 在 Coding Agent 領域擁有先行者優勢與品牌效應，短期內用戶不太可能大量流失

精選語錄

「如果一個人可以造成這麼大的嚴重的問題，那是這個流程有問題，所以他們說他們把這部分再去自動化，而不是說你就直接把這個人開除。」

「即便這些模型現在都有非常大的 Context Window，即便有 One Million、Two Million，但是你如果把所有東西丟進去，其實這個模型還是不會很聰明。」

「它並沒有洩漏它的大腦——它模型最精華的部分其實是沒有被洩漏出去的，所以在模型的層次，至少他們這邊還是有一定的領先優勢。」

時間軸

逐字稿無明確時間標記，以下為段落順序：

開場 — 事件背景介紹：Anthropic 意外洩漏 Claude Code 原始碼
中前段 — 事件詳細經過：Source Map 是什麼、炒飯哥如何發現、社群如何應對
中段 — Anthropic 的事後處理與矽谷文化反思（Boris Cherny 聲明、GitLab 對比案例）
中後段 — 洩漏揭露的已上線功能：寵物同伴系統
後段一 — 洩漏揭露的未公開功能：Kairos 自主 Agent 詳細架構
後段二 — 三層記憶系統與 Auto Dream 機制
後段三 — 反蒸餾機制與臥底模式
結尾 — 洩漏對 Anthropic 競爭優勢的影響分析