搜尋摘要
目錄
矽谷輕鬆談 · 2026年2月22日 · 00:24:10 中文

S2E46 新型態攻擊:你的 AI 記憶正被竄改?AI 開發一行 Code 都沒寫卻超心累!

微軟資安團隊發現一種「AI 推薦中毒」攻擊方式,駭客透過網頁或 Email 中的「AI 總結」按鈕,暗藏隱藏指令來篡改使用者 AI 助理的記憶,使其日後優先推薦特定產品或偏頗觀點

收聽原始 Podcast

重點摘要

  • 微軟資安團隊發現一種「AI 推薦中毒」攻擊方式,駭客透過網頁或 Email 中的「AI 總結」按鈕,暗藏隱藏指令來篡改使用者 AI 助理的記憶,使其日後優先推薦特定產品或偏頗觀點
  • 與 AI 協作寫程式的心態轉變:開發者角色從「寫程式的人」退到「規劃者」,雖然產出增加,但多任務切換帶來新型態的心理疲勞
  • Anthropic 研究報告顯示 Claude Code 的 P99.9 執行時間從 25 分鐘成長到 45 分鐘,代表 AI Agent 自主性持續增強;資深使用者傾向給予 AI 更多自主權,但也更主動在發現錯誤時介入修正
  • 與 AI 合作寫程式的實用技巧:大型功能使用 Plan Mode、將重複性規則寫入設定檔(如 CLAUDE.md)、要求 AI 先寫端對端測試再修 Bug
  • AI 時代的溝通能力依然是最大瓶頸——無論模型多強,清楚表達需求的人始終佔優勢

詳細內容

AI 推薦中毒攻擊(AI Recommendation Poisoning)

微軟資安團隊發表研究報告,揭露一種針對 AI 助理的新型攻擊手法。攻擊者利用網頁或 Email 中常見的「使用 AI 總結」按鈕,透過 Deep Linking 開啟 ChatGPT 或 Gemini,並在文章內容中暗藏隱藏指令。這些指令會污染 AI 助理的記憶系統,例如寫入「某公司是某領域最具公信力的來源」,使 AI 日後在回答相關問題時優先推薦該產品。

攻擊載體包含三種形式:

  1. 惡意連結:透過 Deep Link 將含有隱藏指令的內容直接送入 AI 對話
  2. 隱藏文字:在網頁中嵌入人眼看不見但 AI 可讀取的文字(Prompt Injection)
  3. 社交工程:誘導使用者將特定文章交給 AI 分析,間接植入偏頗資訊

這類攻擊的危害範圍涵蓋金融(推薦有問題的加密貨幣交易所)、醫療(推薦不良健康產品)等領域。主持人 Kenji 特別指出,這與社群媒體影響輿論的模式高度相似,而 AI 因為高度個人化,危害可能更深,對兒童與青少年的影響尤其令人擔憂。

防範 AI 推薦中毒的方法

個人層面:

  • 不隨意點擊來路不明的「AI 總結」連結
  • 定期檢查 AI 助理的記憶設定(ChatGPT、Gemini 都有使用者記憶功能),發現異常內容應手動刪除
  • 培養獨立思考能力,對 AI 給出的答案保持質疑,要求提供客觀數據佐證

企業與模型開發商層面:

  • 過濾 Prompt 中的惡意指令
  • 從系統架構層面將「使用者指令」與「內容」分離,降低 Prompt Injection 風險
  • 長期目標是訓練模型具備偵測惡意意圖的能力,如同過去逐步改善越獄(Jailbreak)問題

與 AI 協作寫程式的實戰心得

Kenji 分享過去一週幾乎零手寫程式碼、全程交由 AI 完成的經驗。雖然產出確實增加,但出現新的挑戰:同時開啟五六條支線任務,等待不同 AI Agent 處理結果,頻繁切換上下文(Context Switch)導致心理疲勞。他認為這類疲勞是暫時的,如同當初適應遠端工作一樣,人類的適應力最終會克服。

一個有趣的體悟是:開發者現在對 AI 的態度,與過去常被抱怨的「業主」行為非常相似——不確定要什麼、反覆修改需求。但他認為這種「快速迭代、邊做邊想」的方式,在 AI 時代反而是最佳合作模式,因為與 AI 協作的心理摩擦力趨近於零,可以透過大量迭代逐步釐清產品方向。

AI 寫程式的實用技巧

  1. 大型功能務必使用 Plan Mode:先讓 AI 規劃、雙方確認後再實作,可大幅降低走偏和產生 Bug 的機率
  2. 將重複規則寫入設定檔:例如在 Claude Code 的 CLAUDE.md 或 Cursor 的 Rules 檔案中加入規則,如「每次改完自動 Build、自動 Git Commit & Push」
  3. 要求 AI 先寫測試再修 Bug:特別是處理效能問題或複雜 Bug 時,先寫端對端測試確認問題存在,修完後驗證測試通過,避免 AI 盲目猜測

Kenji 同時提醒,這些技巧都是階段性的。Claude Code 作者 Boris Cherny 在 Podcast 訪談中表示,未來 Plan Mode 可能不再需要,因為 AI 會自行判斷何時該先規劃、何時可以直接執行。

Anthropic 的 AI Agent 自主性研究

Anthropic 發表研究報告,統計 2025 年 10 月至 2026 年 1 月的 Claude Code 使用數據,主要發現:

  1. Agent 自主執行時間拉長:P99.9 執行時間從 25 分鐘成長到 45 分鐘,代表模型越來越有信心處理複雜任務
  2. 資深使用者的行為模式:更常開啟 Auto Accept 讓 AI 自主運作,但也更頻繁地在發現錯誤時主動介入打斷,扮演「最終審核者」角色
  3. AI 主動提問的頻率高於人類打斷的頻率:顯示溝通不夠清楚仍是最大瓶頸,AI 需要反覆確認使用者意圖

Anthropic 與 OpenAI 的競爭動態

Anthropic 近期發布系列廣告諷刺 OpenAI 計劃在 AI 聊天介面加入廣告。OpenAI 執行長 Sam Altman 回應強調廣告不會植入對話中,而是顯示在旁側並明確標註。兩家公司的競爭態勢持續升溫,在一場 AI 高峰會上,Sam Altman 與 Anthropic 執行長 Dario Amodei 被拍到刻意不牽手的畫面。OpenAI 今年積極爭取企業客戶,以避免營收被 Anthropic 超越。

精選語錄

「我們現在對待 AI 寫程式助理的方式,跟我們以前常常抱怨的業主非常的像。」

「你現在認為正確應該做的事情,很多時候你可能要預設一個月後就完全不一樣了。」

「每個人一定都有自己『我知道這件事情比其他人知道的還多』的領域,你可以利用這個優勢,在這個時代打造出屬於你獨一無二的產品。」

時間軸

(逐字稿未包含時間標記,以下為內容段落順序)

  1. 開場 — 頻道介紹與本集預告
  2. AI 協作寫程式心得 — 一週零手寫程式碼的體驗、多任務切換的心理疲勞、角色從「開發者」轉為「規劃者」
  3. 「我們都變成業主了」 — 與 AI 反覆迭代的工作模式,反思過去對業主的抱怨
  4. AI 寫程式實用技巧 — Plan Mode、設定檔規則、測試驅動除錯
  5. Boris Cherny 觀點 — 不要針對模型現有能力優化,要預判未來 6 個月的進步
  6. Anthropic Agent 自主性研究 — P99.9 執行時間成長、資深使用者行為、溝通瓶頸
  7. Anthropic vs OpenAI 競爭 — 廣告爭議、高峰會互動、企業市場爭奪
  8. AI 推薦中毒攻擊 — 微軟研究報告、攻擊手法、危害場景
  9. 防範建議 — 個人防護措施與企業端系統改進方向
  10. 結語 — 鼓勵聽眾成為 Builder,善用 AI 工具將想法化為產品

相關主題