什麼是 AgentPerf 基準測試？

AgentPerf 是業界首個衡量代理型 AI（Agentic AI）系統性能的基準測試，由 Artificial Analysis 開發。

NVIDIA Blackwell 在此測試中的表現如何？

NVIDIA Blackwell Ultra NVL72 平台表現領先，每兆瓦處理的代理數量比過往系統高出 20 倍。

什麼是「忠實不確定性」技術？

這是 Google 推出的技術，讓模型在生成內容時監控自己的信心水平，若信心不足則採取謹慎路徑，有效抑制幻覺。

NVIDIA Blackwell 稱霸首個 Agentic AI 基準測試；Google 推出「忠實不確定性」抑制幻覺

AI 基礎設施的里程碑：AgentPerf 基準測試

隨著人工智慧從單純的語言模型轉向能夠自主執行任務的「代理型 AI」（Agentic AI），硬體性能的衡量標準也在改變。NVIDIA 近日宣布，其最新的 Blackwell Ultra NVL72 平台在業界首個代理型 AI 基準測試——「AgentPerf」中表現卓越。根據 NVIDIA 的數據，該平台在代理工作負載的處理效率上，每兆瓦（MW）運行的代理數量比過往系統高出 20 倍。這一數據不僅展示了 Blackwell 架構在處理複雜任務流上的優勢，也為企業選擇 AI 基礎設施提供了明確參考。

代理型 AI 的崛起

代理型 AI 的核心在於其自主性與決策能力，這對算力的需求與傳統 LLM 推理截然不同。AgentPerf 基準測試是由 Artificial Analysis 所開發，旨在模擬企業環境中 AI 代理執行多步驟任務的場景。NVIDIA 的表現驗證了其在大規模並行處理與記憶體頻寬上的優勢，使其成為目前部署代理型 AI 的首選基礎設施。根據 Google Trends 資料顯示，關於「Agentic AI infrastructure」的搜尋熱度在科技產業中心地區達到了 82。

Google 對抗 AI 幻覺的新武器：忠實不確定性

在硬體突破的同時，AI 軟體端的可靠性也迎來了重大進展。Google 研究團隊發表了一項名為「忠實不確定性」（Faithful Uncertainty）的技術，旨在徹底解決大型語言模型的「幻覺」問題。該技術的核心在於讓模型能夠將其回應的準確性與內部的信心閾值進行對齊，當模型對答案感到「不確定」時，它會選擇給出最佳猜測而非胡亂編造，從而顯著降低錯誤率。

技術深度解析

「忠實不確定性」技術透過元認知（Metacognition）模型，讓 AI 在生成內容時監控自己的信心水平。當信心低於設定值時，模型會採取更嚴謹的推理路徑或向使用者承認不確定性。這項技術對於醫療診斷、法律分析與金融諮詢等極度依賴準確性的領域具有革命性意義。根據 ArXiv 發表的技術文件顯示，該技術在多項基準測試中成功減少了幻覺率，並提高了模型輸出的一致性。

產業與市場影響

NVIDIA 與 Google 的兩項進展分別從「硬體算力」與「軟體可靠性」兩個維度，加速了 AI 的企業落地。企業不再需要因為擔心 AI 幻覺而猶豫是否部署代理型 AI，同時 Blackwell 架構提供的強大算力也降低了大規模代理部署的成本。分析師認為，這兩項技術的結合將推動 AI 代理在 2026 年底進入大規模商用階段。

展望未來

隨著基準測試與幻覺抑制技術的成熟，AI 代理將從「聊天工具」轉變為真正的「數位員工」。未來觀察重點將在於這些技術如何整合至現有的企業工作流（Workflow）中，以及是否能進一步降低硬體門檻，讓中小型企業也能享受到代理型 AI 的紅利。