搜尋摘要
目錄
矽谷輕鬆談 · 2026年3月8日 · 00:23:06 中文

S2E48 OpenAI 實驗:五個月「零手寫」百萬行程式碼全由 Agent 完成!Anthropic 戰爭部衝突更新

OpenAI 接下 Anthropic 被美國國防部封禁後的合約,但 Anthropic 執行長 Dario Amodei(達里爾·阿莫迪)指控 OpenAI 的聲明 80% 是謊言,合約存在文字漏洞,實際上並未嚴格禁止 AI 被用於大規模監控與武器開發。;OpenAI 發表研究報告《Harness

收聽原始 Podcast

重點摘要

  • OpenAI 接下 Anthropic 被美國國防部封禁後的合約,但 Anthropic 執行長 Dario Amodei(達里爾·阿莫迪)指控 OpenAI 的聲明 80% 是謊言,合約存在文字漏洞,實際上並未嚴格禁止 AI 被用於大規模監控與武器開發。
  • OpenAI 發表研究報告《Harness Engineering(駕馭工程)》,揭示他們在五個月內讓 AI Agent 從零寫出超過百萬行程式碼,全程無任何人類手寫一行程式。
  • 軟體開發的瓶頸已從「實作速度」轉移至「人類的思考與審核速度」,人類工程師的角色正在從執行者轉型為架構規劃者。
  • AI Agent 現在可完整執行開發者的全流程:理解需求 → 擬定計畫 → 實作 → 開 PR → 回應評論 → 自行合併,幾乎涵蓋過去工程師的所有日常工作。
  • 主持人 Kenji 認為手寫程式碼即將成為歷史,並反駁「AI 導致認知外包退化」的說法,主張主動思考的人反而因 AI 獲得認知提升。

詳細內容

Anthropic 與美國國防部的衝突持續延燒

上週川普政府正式封禁 Anthropic 的 Claude 模型與國防部的合作後,OpenAI 出面接盤。OpenAI 執行長 Sam Altman(山姆·奧特曼)起初宣稱合約中已納入外界關切的兩條紅線:

  1. 禁止將 AI 用於大規模監控美國國內人民
  2. 禁止將 AI 用於製造全自動戰爭武器

然而研究者深入分析後發現合約存在漏洞——「最終決策權」仍保留給國防部自行定義,並未構成嚴格禁止。國防部與 Anthropic 談判時要求刪除「禁止分析大規模獲取數據」的限制條款,但 Anthropic 拒絕了,顯示雙方立場根本不同。

針對 AI 武器,OpenAI 合約寫明「只要人類保有最終決策權,AI 可輔助武器開發」,但 Amodei 指出實際部署時根本無法確認人類是否真的在監控迴路中。相較之下,Anthropic 採取更強硬立場:直接禁止 Claude 用於任何武器用途,從源頭杜絕疑慮。

事件引發大規模用戶出走,許多人刪除 ChatGPT 帳號轉往 Claude。Kenji 個人則認為不必因立場而放棄更好的工具,應根據實際效能選擇。

OpenAI《駕馭工程》研究:AI Agent 寫出百萬行程式碼

OpenAI 於 2025 年 8 月啟動一項實驗,目標是在整個開發週期中完全不讓人類手寫任何程式碼——包含產品本身、測試、CI/CD(持續整合/持續部署)、發布流程與內部文件,全部由 AI Agent 完成。歷時五個月,成功打造出一個供數百名內部員工及外部測試者使用的軟體產品。

關鍵學習一:AGENTS.md 文件架構

一開始由人引導 AI 撰寫 AGENTS.md(告知 Agent 如何在這個程式庫中工作的說明文件),但檔案迅速膨脹,導致 Agent 無法有效吸收規則。後來改為將 AGENTS.md 精簡至 100-200 行,作為「目錄入口」,詳細規則分散在 docs/ 資料夾的子文件中,需要時才深入讀取,Agent 表現因此明顯提升。

關鍵學習二:修錯成本低,等待成本高

傳統開發流程強調「確認完整再提交」,但在 AI Agent 時代邏輯反轉:實作速度遠超過人類思考速度,真正的瓶頸是人類的審核與 QA。因此他們將大部分程式碼審核工作移交給另一個 AI Agent 負責。

關鍵學習三:賦予 Agent 除錯能力

為解決 QA 瓶頸,他們將 Agent 接入 Chrome 開發者工具,讓 Agent 能像人類工程師一樣查看網路請求、Console 日誌與效能指標,自行發現並驗證修復結果。

關鍵學習四:AI Slop 的自動清理

AI 會仿造程式庫中既有的壞習慣(稱為「AI Slop」,即粗製濫造的程式碼),品質因此逐漸下滑。解法是設置另一個 Agent 定期執行類似「垃圾回收」的重構工作,自動識別並清理不良模式。

Agent 完整接管開發者工作流程

目前 Agent 能接收一個問題描述,自行完成:釐清需求 → 制定計畫 → 實作修復 → 錄影存證 → 開 Pull Request → 回應 Reviewer 評論 → 合併 PR——這正是人類工程師過去十年每天在做的事。

設計師與所有科技工作者的流程都需重新定義

Kenji 引用了一個訪談 Anthropic 設計總監的 Podcast:設計師過去習慣的「使用者研究 → 發散思考 → 收斂 → 製作原型」流程,在 AI 公司中已過於緩慢。現在設計師必須更直接地與工程師協作,甚至親自動手寫程式快速驗證 UI 可行性。不只工程師,所有科技工作者的工作模式都面臨重新定義。

Kenji 的個人反思

  • 對 AI 認知外包的看法:主動思考的人不會因 AI 退化,反而因為 AI 揭示了過去不知道的解法而拓展認知。問題在於「過度依賴而不思考」,這與有沒有 AI 無關。
  • 對舊有報告的警惕:2025 年關於「AI Agent 在企業導入效果不佳」的研究,如今已因模型能力的快速躍升而過時,不應以此判斷現況。
  • 對未來的預測:手寫程式碼在五年內將成為歷史記憶,就像今日回望打字機一樣。

精選語錄

「更正錯誤的成本很低,但等待的成本很高。」——OpenAI 研究報告的核心發現,顛覆傳統軟體開發的品質保證邏輯。

「你不再是自己去執行寫程式碼了,而是要去定義系統架構,怎麼樣去設定 boundary,讓你的 AI Agent 可以 follow 你的指示。」

「五年後大家可能會覺得,以前的人怎麼有辦法去手寫程式?你怎麼寫的?會覺得是一個很古老的記憶。」


時間軸

逐字稿未包含明確時間標記,以下為內容段落順序:

  • 開場:Anthropic 與美國國防部衝突回顧,OpenAI 接盤後的合約爭議
  • 中段:Dario Amodei 內部公開信,逐條拆解 OpenAI 合約漏洞
  • 主題轉折:OpenAI《駕馭工程》研究介紹,Agent 開發模式五大學習
  • 延伸討論:設計師工作流程的轉變,全體科技從業者的挑戰
  • 結尾反思:認知外包再探討、舊報告失效、對 AI 時代的樂觀與謹慎

相關主題