什麼是「九的進軍」（March of Nines）？

這是指將 AI 可靠性從 90% 逐步提升到 99.999% 的過程。Karpathy 認為每一階段的提升都需要成倍的工程努力。

為什麼 90% 的準確度不能直接部署？

在生產環境中，10% 的出錯率代表系統不可靠。對於涉及法律、財務或安全的任務，這種出錯頻率會造成無法接受的損失。

「支架工程」是什麼意思？

它是指在 AI 模型周圍構建的工程架構，負責監控、調用工具、處理記憶以及確保模型在設定的邊界內運作。

MIT 的技術對 AI 發展有什麼幫助？

「Attention Matching」技術能壓縮模型工作記憶 50 倍，這能大幅降低長文檔處理的成本，讓 AI 代理能更便宜、更快速地運行。

AI 的「九的進軍」：Andrej Karpathy 揭示為什麼 90% 的可靠性在生產環境等於零

從「演示」到「生產」的斷層

在人工智慧領域，開發一個令人驚豔的 Demo 很簡單，但將其轉化為穩定運行的軟體卻異常艱難。前特斯拉 AI 主管 Andrej Karpathy 最近提出了一個關鍵概念——「九的進軍」（March of Nines）。他指出，當一個 AI 系統達到 90% 的可靠性時，這僅僅是第一步。對於企業級應用而言，從一個 9 (90%) 到兩個 9 (99%)，再到五個 9 (99.999%)，每一階段所需投入的工程努力都是呈指數級增長的。根據 Google Trends 資料顯示，隨著 AI 代理（AI Agents）技術的普及，開發者對「AI 可靠性」的搜尋熱度在加州已達 87，顯示業界正從單純追求模型規模轉向工程實踐。

為什麼 90% 的可靠性遠遠不夠？

Karpathy 在 VentureBeat 的專訪中解釋道，許多開發者在看到 AI 成功執行十次中的九次任務時就感到興奮，但在現實世界的生產環境中，那剩下的 10% 失敗率往往意味著系統崩潰、法律風險或昂貴的錯誤。他認為，AI 的開發正進入一個「線下評測」與「線上監控」同樣重要的階段。這不僅是模型的問題，更是關於如何構建包裹模型的「工程支架」。LangChain 的執行官 Harrison Chase 也持有類似觀點，他認為僅有更好的模型並不能保證 AI 代理能成功部署，真正的挑戰在於「支架工程」（Harness Engineering）。

支架工程：AI 代理的進化關鍵

傳統的 AI 支架旨在限制模型不要出錯，而現代的支架工程則必須允許 AI 代理自主地進行工具調用、循環運行並解決邊緣案例（Edge Cases）。Harrison Chase 指出，這是「上下文工程」的延伸，AI 系統需要具備長期的持久性記憶。目前，Google 的 AI 產品經理 Shubham Saboo 已經開源了一款名為「Always On Memory Agent」的工具，利用 Google 的 Agent Development Kit (ADK) 解決了代理設計中最棘手的持久性記憶問題，這被視為邁向更高可靠性的重要一步。

MIT 技術突破：KV 快取壓縮 50 倍

在追求高可靠性的過程中，記憶體瓶頸一直是大型語言模型（LLM）的痛點。雖然部分技術細節仍待學術期刊正式發表驗證，但 VentureBeat 報導了 MIT 研究人員開發的一種名為「Attention Matching」的新技術。該技術據稱能將 KV 快取（模型存儲工作記憶的區域）壓縮高達 50 倍，且幾乎不損失準確性。這對於處理長文檔或需要長時間運行的 AI 代理至關重要，因為它大幅降低了長上下文任務的計算成本與延遲。

企業部署的現實與挑戰

對於企業團隊來說，從「通常可行」到「像軟體一樣可靠」的距離決定了 AI 的採用率。當前的趨勢顯示，業界正減少對單純「更大參數」的追求，轉而投入大量資源於數據清理、自動化測試以及邊緣案例的覆蓋。加州目前的搜尋趨勢中，「Anthropic AI 工作取代」與「AI 可靠性工程」並列，顯示勞動力市場與技術開發正同時面臨 AI 整合的震盪。未來的 AI 領軍者，將不再是那些擁有最大模型的人，而是那些能夠率先在「九的進軍」中走到最後的團隊。