跳至主要內容
科技前線生醫突破政策解讀成長思維焦點追蹤
設定興趣偏好EN
科技前線

只有 90% 的準確度是不夠的:Andrej Karpathy 警示 AI 落地必須跨越的「可靠性長尾」

Andrej Karpathy 提出了「九之進行曲」概念,警告 AI 達到 90% 可靠性與 99.9% 的生產級要求之間存在巨大工程鴻溝。LangChain 執行長建議通過「外掛工程」與結構化知識圖譜(如 FIBO)來解決 AI 代理的不可靠問題,這標誌著 AI 開發重點從模型規模轉向確定性工程。

Jason
Jason
· 3 分鐘閱讀
更新於 2026年3月9日
A complex 3D diagram showing a small step from 0 to 90% and a massive, mountain-like incline from 90

⚡ TL;DR

AI 開發者正轉向「外掛工程」,試圖跨越從 Demo 到穩定產品之間的 90% 可靠性瓶頸。

九之進行曲:演示與產品之間的巨大鴻溝

「當你看到一個 Demo 並且它在 90% 的時間裡都能工作時,那僅僅是第一個九。」特斯拉前人工智能負責人 Andrej Karpathy 最近提出的「九之進行曲」(March of Nines)概念,在 AI 開發圈引發了強烈共鳴。Karpathy 指出,達到 90% 的可靠性相對容易,但要將其提升到 99%、99.9% 甚至 99.99%(即所謂的生產級可靠性),所需的工程努力並非線性的,而是呈指數級增長。這一觀點揭示了當前 AI 產業的一個殘酷現實:雖然大模型層出不窮,但真正能穩定落地成為生產力工具的卻寥寥無幾。

根據 VentureBeat 的分析,這種可靠性瓶頸在企業級應用中尤為明顯。對於一個處理財務報表或法律文件的 AI 代理(Agent)來說,10% 的出錯率意味著它每處理 10 份文件就會產生一個嚴重的錯誤(Hallucination),這對於任何一家嚴肅的企業來說都是不可接受的。Karpathy 的警告提醒開發者,不要被亮眼的 Demo 所迷惑,真正的挑戰在於那最後 10% 的「長尾問題」。

「外掛工程」的興起:LangChain 執行長的解決方案

與 Karpathy 的觀點相呼應,LangChain 的共同創辦人兼執行長 Harrison Chase 在最新的訪談中提出了「外掛工程」(Harness Engineering)的概念。Chase 認為,單純依靠模型的自我提升(Smarter Models)並不足以解決生產環境下的可靠性問題。相反,我們需要為這些模型建立一套複雜的「外掛系統」,包括上下文管理、工具調用約束以及多步推理的驗證機制。

根據最近發表於 Scientific Reports (PMC12748213) 的研究顯示,採用「代理式圖譜 RAG」(Agentic Graph RAG)框架可以顯著提升臨床決策支持系統的準確度。這種方法不再讓 AI 模型盲目地生成答案,而是將其嵌入一個結構化的知識圖譜中,讓模型在每一步推理時都有據可查、有法可依。這正是 Chase 所提倡的:通過外部的「骨架」來約束和引導內部的「靈魂」,從而跨越從 90% 到 99% 的門檻。

本體論與守欄人:金融領域的 AI 實踐

在對安全性要求極高的金融領域,AI 的落地更需要嚴格的「守欄人」。研究顯示,利用「金融業業務本體論」(FIBO)可以為 AI 代理提供精確的行業知識和行為邊界。當 AI 代理試圖發起一筆不符合監管要求的交易或在解釋財務政策時發生偏移,FIBO 提供的結構化規則可以即時介入並進行糾偏。

這種「本體論驅動」的 AI 開發模式正逐漸成為行業標準。根據 ArXiv 上的一篇論文 (2603.06503v1) 顯示,當前最先進的表格分析 AI 在處理複雜企業工作簿時,如果沒有明確的邏輯約束,其多步推理的可靠性會迅速下降。通過將「九之進行曲」的邏輯引入金融 AI 開發,開發者可以預先識別出模型最容易出錯的場景,並針對性地設計干預機制。Google Trends 數據顯示,全球對於「AI Reliability」(AI 可靠性)的搜索熱度在過去一年增長了 120%,反映出企業客戶從「技術好奇」轉向「落地質疑」的心理變化。

未來展望:從「對話框」到「自主代理」

跨越「九之進行曲」不僅僅是技術問題,更是產品設計範式的轉變。未來的 AI 產品可能不再是一個簡單的對話框,而是一個具有動態 UI(A2UI)的自主系統,能夠在遇到不確定的邊際情況時主動尋求人類的反饋或自動回退到安全模式。這種「人機協同」的冗餘設計,正是填補那最後幾個「九」的關鍵所在。

對於開發者來說,現在是時候放下對模型參數量的盲目崇拜,轉而關注「外掛工程」和「可靠性測試」了。正如 Karpathy 所言,AI 的下半場競爭不在於誰能做出更驚艷的 Demo,而在於誰能提供像電力一樣穩定、像自來水一樣可靠的 AI 服務。每一位工程師都需要在這場「九之進行曲」中找到自己的位置,因為那最後 10% 的長尾,才是技術真正改變世界的開端。

常見問題

什麼是「九之進行曲」(March of Nines)?

這是 Andrej Karpathy 提出的一個觀點,認為提升 AI 可靠性的每一位小數點(從 90% 到 99%,再到 99.9%)所需的工程量是巨大的,通常比最初開發 Demo 還要難。

為什麼 90% 的準確度在企業中不可用?

因為在生產環境中,10% 的出錯率意味著高度的不確定性和風險。金融、醫療等行業需要接近 100% 的確定性來避免嚴重後果。

「外掛工程」(Harness Engineering)是如何運作的?

它不直接修改 AI 模型,而是在模型周圍建立一套規則、驗證機制和知識圖譜,來過濾錯誤輸出並引導正確的推理路徑。