S2E48 OpenAI 實驗:五個月「零手寫」百萬行程式碼全由 Agent 完成!Anthropic 戰爭部衝突更新
OpenAI 接下 Anthropic 被美國國防部封禁後的合約,但 Anthropic 執行長 Dario Amodei(達里爾·阿莫迪)指控 OpenAI 的聲明 80% 是謊言,合約存在文字漏洞,實際上並未嚴格禁止 AI 被用於大規模監控與武器開發。;OpenAI 發表研究報告《Harness
重點摘要
- OpenAI 接下 Anthropic 被美國國防部封禁後的合約,但 Anthropic 執行長 Dario Amodei(達里爾·阿莫迪)指控 OpenAI 的聲明 80% 是謊言,合約存在文字漏洞,實際上並未嚴格禁止 AI 被用於大規模監控與武器開發。
- OpenAI 發表研究報告《Harness Engineering(駕馭工程)》,揭示他們在五個月內讓 AI Agent 從零寫出超過百萬行程式碼,全程無任何人類手寫一行程式。
- 軟體開發的瓶頸已從「實作速度」轉移至「人類的思考與審核速度」,人類工程師的角色正在從執行者轉型為架構規劃者。
- AI Agent 現在可完整執行開發者的全流程:理解需求 → 擬定計畫 → 實作 → 開 PR → 回應評論 → 自行合併,幾乎涵蓋過去工程師的所有日常工作。
- 主持人 Kenji 認為手寫程式碼即將成為歷史,並反駁「AI 導致認知外包退化」的說法,主張主動思考的人反而因 AI 獲得認知提升。
詳細內容
Anthropic 與美國國防部的衝突持續延燒
上週川普政府正式封禁 Anthropic 的 Claude 模型與國防部的合作後,OpenAI 出面接盤。OpenAI 執行長 Sam Altman(山姆·奧特曼)起初宣稱合約中已納入外界關切的兩條紅線:
- 禁止將 AI 用於大規模監控美國國內人民
- 禁止將 AI 用於製造全自動戰爭武器
然而研究者深入分析後發現合約存在漏洞——「最終決策權」仍保留給國防部自行定義,並未構成嚴格禁止。國防部與 Anthropic 談判時要求刪除「禁止分析大規模獲取數據」的限制條款,但 Anthropic 拒絕了,顯示雙方立場根本不同。
針對 AI 武器,OpenAI 合約寫明「只要人類保有最終決策權,AI 可輔助武器開發」,但 Amodei 指出實際部署時根本無法確認人類是否真的在監控迴路中。相較之下,Anthropic 採取更強硬立場:直接禁止 Claude 用於任何武器用途,從源頭杜絕疑慮。
事件引發大規模用戶出走,許多人刪除 ChatGPT 帳號轉往 Claude。Kenji 個人則認為不必因立場而放棄更好的工具,應根據實際效能選擇。
OpenAI《駕馭工程》研究:AI Agent 寫出百萬行程式碼
OpenAI 於 2025 年 8 月啟動一項實驗,目標是在整個開發週期中完全不讓人類手寫任何程式碼——包含產品本身、測試、CI/CD(持續整合/持續部署)、發布流程與內部文件,全部由 AI Agent 完成。歷時五個月,成功打造出一個供數百名內部員工及外部測試者使用的軟體產品。
關鍵學習一:AGENTS.md 文件架構
一開始由人引導 AI 撰寫 AGENTS.md(告知 Agent 如何在這個程式庫中工作的說明文件),但檔案迅速膨脹,導致 Agent 無法有效吸收規則。後來改為將 AGENTS.md 精簡至 100-200 行,作為「目錄入口」,詳細規則分散在 docs/ 資料夾的子文件中,需要時才深入讀取,Agent 表現因此明顯提升。
關鍵學習二:修錯成本低,等待成本高
傳統開發流程強調「確認完整再提交」,但在 AI Agent 時代邏輯反轉:實作速度遠超過人類思考速度,真正的瓶頸是人類的審核與 QA。因此他們將大部分程式碼審核工作移交給另一個 AI Agent 負責。
關鍵學習三:賦予 Agent 除錯能力
為解決 QA 瓶頸,他們將 Agent 接入 Chrome 開發者工具,讓 Agent 能像人類工程師一樣查看網路請求、Console 日誌與效能指標,自行發現並驗證修復結果。
關鍵學習四:AI Slop 的自動清理
AI 會仿造程式庫中既有的壞習慣(稱為「AI Slop」,即粗製濫造的程式碼),品質因此逐漸下滑。解法是設置另一個 Agent 定期執行類似「垃圾回收」的重構工作,自動識別並清理不良模式。
Agent 完整接管開發者工作流程
目前 Agent 能接收一個問題描述,自行完成:釐清需求 → 制定計畫 → 實作修復 → 錄影存證 → 開 Pull Request → 回應 Reviewer 評論 → 合併 PR——這正是人類工程師過去十年每天在做的事。
設計師與所有科技工作者的流程都需重新定義
Kenji 引用了一個訪談 Anthropic 設計總監的 Podcast:設計師過去習慣的「使用者研究 → 發散思考 → 收斂 → 製作原型」流程,在 AI 公司中已過於緩慢。現在設計師必須更直接地與工程師協作,甚至親自動手寫程式快速驗證 UI 可行性。不只工程師,所有科技工作者的工作模式都面臨重新定義。
Kenji 的個人反思
- 對 AI 認知外包的看法:主動思考的人不會因 AI 退化,反而因為 AI 揭示了過去不知道的解法而拓展認知。問題在於「過度依賴而不思考」,這與有沒有 AI 無關。
- 對舊有報告的警惕:2025 年關於「AI Agent 在企業導入效果不佳」的研究,如今已因模型能力的快速躍升而過時,不應以此判斷現況。
- 對未來的預測:手寫程式碼在五年內將成為歷史記憶,就像今日回望打字機一樣。
精選語錄
「更正錯誤的成本很低,但等待的成本很高。」——OpenAI 研究報告的核心發現,顛覆傳統軟體開發的品質保證邏輯。
「你不再是自己去執行寫程式碼了,而是要去定義系統架構,怎麼樣去設定 boundary,讓你的 AI Agent 可以 follow 你的指示。」
「五年後大家可能會覺得,以前的人怎麼有辦法去手寫程式?你怎麼寫的?會覺得是一個很古老的記憶。」
時間軸
逐字稿未包含明確時間標記,以下為內容段落順序:
- 開場:Anthropic 與美國國防部衝突回顧,OpenAI 接盤後的合約爭議
- 中段:Dario Amodei 內部公開信,逐條拆解 OpenAI 合約漏洞
- 主題轉折:OpenAI《駕馭工程》研究介紹,Agent 開發模式五大學習
- 延伸討論:設計師工作流程的轉變,全體科技從業者的挑戰
- 結尾反思:認知外包再探討、舊報告失效、對 AI 時代的樂觀與謹慎
同節目更多集數
相關主題
- EP221 | 我老公從蘋果離職去超市打工,一年來的心得? Feat. 尼可這樣說科技工作講 Tech Job N Talk · 2026-04-04
- 【未來城市Ep.124】前LINE總經理為何學 Vibe Coding?只看報告不動手,AI時代會失去決策手感聽天下:天下雜誌Podcast · 2026-04-04
- 【Off學Ep.146】泰國慢旅怎麼玩?潑水節、在地美食與慢生活心法 feat.部落客亞美將聽天下:天下雜誌Podcast · 2026-04-04
- 【換日線|時事關鍵字 Ep.123】高齡80的川普為何「一戰再戰」?伊朗之後的目標又會是誰?聽天下:天下雜誌Podcast · 2026-04-04
- 【下班經濟學_健康】量血壓前千萬別做3件事!心臟權威揭:這些動作讓你血壓狂飆!ft.陳文鍾院長下班經濟學 · 2026-04-03