跳至主要內容
科技前線生醫突破政策解讀成長思維焦點追蹤
設定興趣偏好EN
科技前線

AI 的「九的進軍」:Andrej Karpathy 揭示為什麼 90% 的可靠性在生產環境等於零

Andrej Karpathy 提出 AI「九的進軍」理論,強調從 90% 到 99.999% 可靠性的工程難度。與此同時,LangChain 執行官與 Google 專家正致力於「支架工程」與持久記憶技術。MIT 的新技術據傳可壓縮 記憶體 50 倍,這些突破正試圖解決 AI 代理從演示轉向生產環境的瓶頸。

Jason
Jason
· 2 分鐘閱讀
更新於 2026年3月8日
A detailed technical illustration of a complex clockwork mechanism where some gears are glowing with

⚡ TL;DR

Karpathy 指出 AI 可靠性從 90% 提升到 99.999% 是巨大工程挑戰,業界正轉向「支架工程」以實現真正量產。

從「演示」到「生產」的斷層

在人工智慧領域,開發一個令人驚豔的 Demo 很簡單,但將其轉化為穩定運行的軟體卻異常艱難。前特斯拉 AI 主管 Andrej Karpathy 最近提出了一個關鍵概念——「九的進軍」(March of Nines)。他指出,當一個 AI 系統達到 90% 的可靠性時,這僅僅是第一步。對於企業級應用而言,從一個 9 (90%) 到兩個 9 (99%),再到五個 9 (99.999%),每一階段所需投入的工程努力都是呈指數級增長的。根據 Google Trends 資料顯示,隨著 AI 代理(AI Agents)技術的普及,開發者對「AI 可靠性」的搜尋熱度在加州已達 87,顯示業界正從單純追求模型規模轉向工程實踐。

為什麼 90% 的可靠性遠遠不夠?

Karpathy 在 VentureBeat 的專訪中解釋道,許多開發者在看到 AI 成功執行十次中的九次任務時就感到興奮,但在現實世界的生產環境中,那剩下的 10% 失敗率往往意味著系統崩潰、法律風險或昂貴的錯誤。他認為,AI 的開發正進入一個「線下評測」與「線上監控」同樣重要的階段。這不僅是模型的問題,更是關於如何構建包裹模型的「工程支架」。LangChain 的執行官 Harrison Chase 也持有類似觀點,他認為僅有更好的模型並不能保證 AI 代理能成功部署,真正的挑戰在於「支架工程」(Harness Engineering)。

支架工程:AI 代理的進化關鍵

傳統的 AI 支架旨在限制模型不要出錯,而現代的支架工程則必須允許 AI 代理自主地進行工具調用、循環運行並解決邊緣案例(Edge Cases)。Harrison Chase 指出,這是「上下文工程」的延伸,AI 系統需要具備長期的持久性記憶。目前,Google 的 AI 產品經理 Shubham Saboo 已經開源了一款名為「Always On Memory Agent」的工具,利用 Google 的 Agent Development Kit (ADK) 解決了代理設計中最棘手的持久性記憶問題,這被視為邁向更高可靠性的重要一步。

MIT 技術突破:KV 快取壓縮 50 倍

在追求高可靠性的過程中,記憶體瓶頸一直是大型語言模型(LLM)的痛點。雖然部分技術細節仍待學術期刊正式發表驗證,但 VentureBeat 報導了 MIT 研究人員開發的一種名為「Attention Matching」的新技術。該技術據稱能將 KV 快取(模型存儲工作記憶的區域)壓縮高達 50 倍,且幾乎不損失準確性。這對於處理長文檔或需要長時間運行的 AI 代理至關重要,因為它大幅降低了長上下文任務的計算成本與延遲。

企業部署的現實與挑戰

對於企業團隊來說,從「通常可行」到「像軟體一樣可靠」的距離決定了 AI 的採用率。當前的趨勢顯示,業界正減少對單純「更大參數」的追求,轉而投入大量資源於數據清理、自動化測試以及邊緣案例的覆蓋。加州目前的搜尋趨勢中,「Anthropic AI 工作取代」與「AI 可靠性工程」並列,顯示勞動力市場與技術開發正同時面臨 AI 整合的震盪。未來的 AI 領軍者,將不再是那些擁有最大模型的人,而是那些能夠率先在「九的進軍」中走到最後的團隊。

常見問題

什麼是「九的進軍」(March of Nines)?

這是指將 AI 可靠性從 90% 逐步提升到 99.999% 的過程。Karpathy 認為每一階段的提升都需要成倍的工程努力。

為什麼 90% 的準確度不能直接部署?

在生產環境中,10% 的出錯率代表系統不可靠。對於涉及法律、財務或安全的任務,這種出錯頻率會造成無法接受的損失。

「支架工程」是什麼意思?

它是指在 AI 模型周圍構建的工程架構,負責監控、調用工具、處理記憶以及確保模型在設定的邊界內運作。

MIT 的技術對 AI 發展有什麼幫助?

「Attention Matching」技術能壓縮模型工作記憶 50 倍,這能大幅降低長文檔處理的成本,讓 AI 代理能更便宜、更快速地運行。