跳至主要內容

搜尋摘要

目錄
矽谷輕鬆談 節目封面
00:28:45 ~4 分鐘

S2E53 小龍蝦殺手 Hermes Agent 深度上手!Opus 4.7 到底有沒有變強?

Hermes Agent 憑藉無痛安裝與跨對話記憶能力成為 Claude Code 強力替代選項,同期 Anthropic 被揭露悄悄降低 Opus 4.6 思考深度,再藉 Opus 4.7 發布拉高效能感,卻同步增加 Token 消耗成本。

在 Apple Podcasts 收聽

本頁摘要由 AI 自動生成,著作權屬原節目創作者;可能存在錯誤或遺漏,建議收聽 原節目《矽谷輕鬆談》 以獲取完整資訊。

重點摘要

  • Hermes Agent 體驗優異:安裝簡便、記憶穩定、可串接 Telegram 等 Messaging App,跨對話記憶能力遠勝 Claude Code(暱稱「小龍蝦」)
  • Opus 4.6 降智風波:Anthropic 在 3 月悄悄將預設 Thinking Effort 從 High 改為 Medium,導致模型思考 Token 減少 60–75%,使用者察覺後引發強烈反彈
  • Opus 4.7 新 Tokenizer:同樣 Prompt 消耗 Token 量為 4.6 的 1–1.35 倍,圖片辨識準確率從 55% 躍升至 99%
  • Qwen 3.6 碾壓 Gemma 4:阿里巴巴推出 35B 參數混合專家(MoE)架構,推論時僅啟用 3B 參數,在 Coding Benchmark 上大幅領先 Google 的 Gemma 4
  • Anthropic vs. OpenAI 競爭加劇:OpenAI Codex 宣布拆分 Harness 與 Computer 兩層架構以提升安全性,兩家公司互相借鑑設計

詳細內容

Hermes Agent 介紹與體驗

主持人 Kenji 在新購入的 Mac Studio 上安裝 Hermes Agent,以取代原本的 Claude Code(社群俗稱「小龍蝦」)。Hermes 名稱源自希臘神話的信使之神,象徵人與大型語言模型之間的橋梁,定位即是 Harness Engineering 的具體實作。

安裝體驗幾乎無痛,透過幾個 CLI 指令即可完成;支援 Telegram 等 Messaging App 串接,手機與電腦之間可無縫切換對話。最大亮點是跨對話記憶:Hermes 會主動新增或修改技能(Skill),並在對話中自動更新使用者偏好,例如「不要刻意迎合,保持獨立意見」。

Kenji 也為 Hermes 串接了一個第三方記憶提供商(音似 “Hong Chou”,主持人描述為目前同類服務中 state of the art),該服務不僅做語義相似度檢索,還能從不同對話脈絡中進行深度推論,推斷出表面文字不同但底層邏輯相同的記憶關聯。

自建 Agent vs. Hermes Agent

Kenji 曾使用 Anthropic Client SDK 自建個人 AI Agent,架構為主 Agent(Client SDK 負責流暢對話)+ 多個子 Agent(Agent SDK 負責實際執行任務如研究、寫程式、除錯),優點是主 Agent 永遠不會被打斷。

最終仍選擇切換到 Hermes Agent,原因有二:一是 Hermes 已內建豐富 Skill,自建需「重造輪子」;二是不想鎖定單一廠商(Anthropic),Hermes Agent 支援 OpenAI、Gemini 及本地 LLM 等多個模型後端。

開源模型競爭:Qwen 3.6 vs. Gemma 4

Google 的 Gemma 4(31B 參數)約兩週前發布,定位為通用模型。阿里巴巴的 Qwen 3.6(35B 參數)隨即在 12 天後推出,採用混合專家(MoE)架構,推論時僅啟用 3B 參數,兼顧速度與本地部署效率。在 Coding Benchmark 上,Qwen 3.6 多項指標領先 Gemma 4 逾 10–20 分,開源模型的競爭速度之快令 Kenji 感嘆「手腳太慢,還沒裝好就被新模型取代」。

Opus 4.7 發布與 Token 成本問題

Opus 4.7 並非外界預期的 Methos(仍在封閉內測中,僅少數大型企業可用),而是一個在多項 Benchmark 全面超越 4.6 的版本。值得注意:

  • 新 Tokenizer:同樣 Prompt 消耗 1–1.35 倍 Token,費用等比上升
  • Thinking Effort 調整:4.7 在 High 與 Max 之間新增 Extra High 等級,並將預設值設為 Extra High,體感上變「更聰明」,但也更燒錢

Anthropic 降智爭議

3 月起使用者陸續反映 Opus 4.6 變笨,後經社群深入分析確認:Anthropic 未公開宣告地將預設 Thinking Effort 從 High 降為 Medium,導致模型思考 Token 減少 60–75%。常見症狀包括:不看程式碼就直接修改、未閱讀工具文件就呼叫 API。

Kenji 因自己一向將所有 Session 的 Effort 設為 Max,因此未受影響。他評論此舉「有點壞壞的」——先悄悄降級、再藉新模型拉高體感,搭配 Token 消耗增加,整體讓使用者付出更多費用。

AI 廠商競爭觀察

Kenji 將當前 OpenAI vs. Anthropic 的對決比擬為十年前 Google vs. Facebook 的社群媒體大戰。他提醒:過度信任單一廠商有風險——OpenAI 早年口碑也很好,後來爭議不斷;Anthropic 近期的不透明操作同樣令人警惕。長期來看,本地 LLM 或其他廠商若能以更低成本提供相近能力,將對 Anthropic 的高溢價策略形成挑戰。

精選語錄

「我在自然界底下,誰的 AI Token 比較多,這件事情在大自然底下一點意義都沒有。」

「先讓你覺得這個模型變差了,再推一個新模型,同時把思考深度又變高了,你自然會覺得好棒棒——是不是有一點壞壞的?」

「你如果太過支持某一個廠商的話,你怎麼知道他後面不會變得壞壞的?」

時間軸

  • 開頭 — 本集主題預告:Hermes Agent、Opus 4.7、Anthropic 降智爭議
  • 旅遊閒聊 — 全家前往 Arizona 大峽谷旅遊,分享自然景觀與早睡帶來的身心回充
  • Hermes Agent 體驗 — 安裝過程、記憶機制、與 Claude Code 的比較
  • 自建 Agent 架構 — Anthropic Client SDK + Agent SDK 雙層設計說明
  • 切換原因 — 重造輪子問題與廠商鎖定風險
  • Hermes 命名典故 — 希臘神話信使之神,Harness Engineering 的具象化
  • OpenAI Codex 新架構 — Harness 與 Computer 分離設計,提升企業安全性
  • 開源模型競爭 — Gemma 4 vs. Qwen 3.6,MoE 架構優勢
  • Opus 4.7 發布 — 非 Methos、新 Tokenizer、Token 消耗增加
  • Anthropic 降智風波 — Thinking Effort 秘密降級事件始末
  • 結語 — 廠商競爭觀察,呼籲聽眾留言討論

相關主題