從「演示」到「生產」的斷層
在人工智慧領域,開發一個令人驚豔的 Demo 很簡單,但將其轉化為穩定運行的軟體卻異常艱難。前特斯拉 AI 主管 Andrej Karpathy 最近提出了一個關鍵概念——「九的進軍」(March of Nines)。他指出,當一個 AI 系統達到 90% 的可靠性時,這僅僅是第一步。對於企業級應用而言,從一個 9 (90%) 到兩個 9 (99%),再到五個 9 (99.999%),每一階段所需投入的工程努力都是呈指數級增長的。根據 Google Trends 資料顯示,隨著 AI 代理(AI Agents)技術的普及,開發者對「AI 可靠性」的搜尋熱度在加州已達 87,顯示業界正從單純追求模型規模轉向工程實踐。
為什麼 90% 的可靠性遠遠不夠?
Karpathy 在 VentureBeat 的專訪中解釋道,許多開發者在看到 AI 成功執行十次中的九次任務時就感到興奮,但在現實世界的生產環境中,那剩下的 10% 失敗率往往意味著系統崩潰、法律風險或昂貴的錯誤。他認為,AI 的開發正進入一個「線下評測」與「線上監控」同樣重要的階段。這不僅是模型的問題,更是關於如何構建包裹模型的「工程支架」。LangChain 的執行官 Harrison Chase 也持有類似觀點,他認為僅有更好的模型並不能保證 AI 代理能成功部署,真正的挑戰在於「支架工程」(Harness Engineering)。
支架工程:AI 代理的進化關鍵
傳統的 AI 支架旨在限制模型不要出錯,而現代的支架工程則必須允許 AI 代理自主地進行工具調用、循環運行並解決邊緣案例(Edge Cases)。Harrison Chase 指出,這是「上下文工程」的延伸,AI 系統需要具備長期的持久性記憶。目前,Google 的 AI 產品經理 Shubham Saboo 已經開源了一款名為「Always On Memory Agent」的工具,利用 Google 的 Agent Development Kit (ADK) 解決了代理設計中最棘手的持久性記憶問題,這被視為邁向更高可靠性的重要一步。
MIT 技術突破:KV 快取壓縮 50 倍
在追求高可靠性的過程中,記憶體瓶頸一直是大型語言模型(LLM)的痛點。雖然部分技術細節仍待學術期刊正式發表驗證,但 VentureBeat 報導了 MIT 研究人員開發的一種名為「Attention Matching」的新技術。該技術據稱能將 KV 快取(模型存儲工作記憶的區域)壓縮高達 50 倍,且幾乎不損失準確性。這對於處理長文檔或需要長時間運行的 AI 代理至關重要,因為它大幅降低了長上下文任務的計算成本與延遲。
企業部署的現實與挑戰
對於企業團隊來說,從「通常可行」到「像軟體一樣可靠」的距離決定了 AI 的採用率。當前的趨勢顯示,業界正減少對單純「更大參數」的追求,轉而投入大量資源於數據清理、自動化測試以及邊緣案例的覆蓋。加州目前的搜尋趨勢中,「Anthropic AI 工作取代」與「AI 可靠性工程」並列,顯示勞動力市場與技術開發正同時面臨 AI 整合的震盪。未來的 AI 領軍者,將不再是那些擁有最大模型的人,而是那些能夠率先在「九的進軍」中走到最後的團隊。

