Phil Schmid:2026 年 Agent Harness 為何比模型排行榜更重要
多年來,AI 產業的敘事幾乎等於 「哪個模型更聰明」:排行榜、基準分數、單輪答題對決。Phil Schmid 在 2026 年 1 月的文章提出轉折:頂尖模型在靜態榜單上的差距在縮小,但這可能是錯覺——真正拉開差距的,往往是任務變長、tool call 變多之後,模型是否還能 遵守最初指令、維持中間推理(他稱 durability,耐久性)。
若 2025 年的問題是「Agent 能不能用」,2026 年更尖銳的問題是:我們能否證明系統能可靠跑完多日工作流? 他的答案之一,是投資 Agent Harness——不是再調一版 prompt,而是建 作業系統級 的包裹層。本文為 閱讀地圖 13 Phase 2(清單 #7)。
原文出處:
Phil Schmid(2026). The importance of Agent Harness in 2026.
網址:https://www.philschmid.de/agent-harness-2026
背景:排行榜 的 1% 測不到什麼
Schmid 的論證很具體:
- 靜態 benchmark 上,第一梯隊模型分差可能只有 1% 量級。
- 但任務一長,第 50、100 次 tool call 之後,模型可能已經 drift——偏離初始約束、忘記中間結論、重複錯誤路徑。
- 1% 的榜單差距,無法反映「跑一小時後是否仍可靠」。
因此我們需要新的能力展示方式:不是單輪輸出分數,而是系統(模型 + harness)能否完成長鏈、多步、可驗證的工作流。這與 LangChain 15 強調的 Terminal Bench「換 harness 排名劇變」、Carlini 17 兩千次 session 實驗,是同一問題的不同尺度。
核心概念 1:Agent Harness 是什麼(與 framework 差在哪)
定義:Agent Harness = 圍繞 AI 模型、管理 長時間任務 的基礎設施。
不是 Agent 本身;而是讓 Agent 可靠(reliable)、可引導(steerable)、有效率 的系統。
電腦類比(原文核心比喻)
| 元件 | 類比 | 職責 |
|---|---|---|
| Model | CPU | 原始算力 |
| Context Window | RAM | 有限、易失的工作記憶 |
| Harness | Operating System | 策展 context、boot 序列(prompt/hook)、標準驅動(tool 處理) |
| Agent(你的邏輯) | Application | 跑在 OS 上的應用 |
Harness 實作 Context Engineering 策略:compaction、狀態卸載到儲存、子 Agent 隔離任務——讓開發者專注「應用邏輯」,少重造 OS。
高於 framework
- Framework(LangChain 等):提供積木——tool 抽象、agent loop、chain。
- Harness:含電池的預設——prompt 預設、tool 處理慣例、生命週期 hook、規劃、檔案系統、子 Agent 管理。
通用 Harness 仍稀少;Claude Code、Claude Agent SDK、LangChain DeepAgents 被視為萌芽。也可說 Coding CLI 都是垂直 Harness。
核心概念 2:Benchmark 典範在變,但仍測不夠長
趨勢:從「單輪模型輸出」→「系統評測」(模型 + 工具 + 環境),例如 AIMO、SWE-Bench。
缺口:仍少測 第 N 次 tool call 之後 的行為。典型失敗模式:
- 單次難題:模型 一兩次 就做對。
- 長工作流:跑 一小時 後不再遵守初始指令,或中間步驟推理錯亂。
Schmid 認為 標準 benchmark 難以捕捉長工作流需要的 durability。
Harness 對生態的三個作用
-
驗證真實進展(Validating Real-World Progress)
Benchmark 常與使用者真實需求錯位;新模型兩週一發。Harness 讓大家用同一套系統結構,在自己的場景與約束下比較新模型——對齊「用戶體驗」而非「榜單」。 -
釋放模型潛力(Empowering User Experience)
沒有合適 Harness,產品體驗可能遠低於模型裸能力。釋出 Harness = 讓開發者用已驗證的最佳實踐組 Agent,使用者接觸到的是「完整系統」。 -
Hill climbing(靠真實回饋爬坡)
共享、穩定的 Harness 環境產生可 log、可評分 的 trajectory。
Schmid 引用 Sutton 系思想:改進系統的能力,與你能多容易驗證輸出,成正比。
Harness 把模糊的多步工作流變成結構化資料,才能有效迭代 benchmark 與產品。
核心概念 3:Bitter Lesson——Harness 要能拆掉
Rich Sutton Bitter Lesson:依賴 通用方法 + 算力 的系統,長期勝過堆砌人類專家知識。Agent 基建正在重演:
| 案例(原文) | 含義 |
|---|---|
| Manus | 六個月內 重構 harness 五次,移除僵化假設 |
| LangChain Open Deep Research | 一年內架構改 三次 |
| Vercel | 砍掉 80% agent tools → 步驟更少、token 更少、更快 |
啟示:
- 2024 需要複雜 hand-coded pipeline 的能力,2026 可能 一個長 context prompt 就夠。
- Harness 必須輕量、模組化;否則下一次模型更新會打壞你的控制流。
- 與 Hashimoto 16「逐行 AGENTS.md」並不衝突:外顯規則可以累積,重型編排要準備刪。
核心概念 4:訓練與推理環境正在收斂
Schmid 預測方向:
- 新瓶頸:context durability(長窗內品質維持)
- Harness 成為偵測 model drift 的主戰場——例如第 100 步後何時不跟指令
- 這些 trajectory 回饋 訓練,做出「長任務不會累」的下一代模型
對 builder 的三條建議(原文):
-
Start simple
別建巨大控制流;提供健壯的原子工具;讓模型做計畫;用 guardrail、retry、驗證兜底。 -
Build to delete
架構模組化;新模型會取代你昨天寫的「聰明邏輯」;要能撕掉程式碼。 -
The harness is the dataset
競爭優勢越來越不是 secret prompt,而是 Harness 捕捉的失敗軌跡——尤其 workflow 晚期不跟指令的 case,是下一輪訓練與產品迭代的金礦。
與本系列其他文的對照
| 文章 | Schmid 18 補上的視角 |
|---|---|
| Fowler 14 | 為何要 sensors;durability 是長鏈上的 sensor 問題 |
| LangChain 15 | Harness 元件地圖;Schmid 解釋為何要投資 OS 層 |
| OpenAI 11 | 組織級 harness;Schmid 談評測與產品化 |
| HumanLayer 21 | 配置面戰術;Schmid 談戰略與模型世代 |
啟示與建議
- 選模型:除榜單外,跑一條 50+ tool call 的真實工作流,看是否 drift。
- 建產品:把 trajectory logging、grading 做進 Harness,讓每次失敗可分析、可回歸。
- 維護 Harness:每季審計——哪些 pipeline 只因舊模型笨而存在?刪。
- 別與 Bitter Lesson 對抗:保留「可刪性」比保留「當初很聰明的編排」更重要。
小結
Schmid 的文章短,但定位清晰:2026 的競爭力 increasingly 在 Harness,不在多 1% 的 MMLU。durability、OS 類比、hill climbing 與 build-to-delete,給技術負責人一個檢查清單——你的系統是在「比模型」,還是在「比誰更會包一層可驗證的 OS」?
系列導讀
原文出處:
Phil Schmid(2026). The importance of Agent Harness in 2026.
網址:https://www.philschmid.de/agent-harness-2026