
科技前線
Jason·
AI 可靠性進展:MIT 研發 KV 快取壓縮技術,將記憶體消耗大幅降低 50 倍
MIT 研究人員推出名為「Attention Matching」的技術,可將 LLM 的 KV 快取記憶體消耗降低 50 倍而不失準確度。結合 Andrej Karpathy 對 AI 可靠性的觀察,這標誌著 AI 產業正從「功能演示」轉向追求高穩定性與低部署門檻的生產階段。
2 篇相關文章

MIT 研究人員推出名為「Attention Matching」的技術,可將 LLM 的 KV 快取記憶體消耗降低 50 倍而不失準確度。結合 Andrej Karpathy 對 AI 可靠性的觀察,這標誌著 AI 產業正從「功能演示」轉向追求高穩定性與低部署門檻的生產階段。

MIT 研究人員發表了 Attention Matching 技術,能將大語言模型的 KV 快取記憶體需求降低 50 倍,且不失精度。同時 Google 開源了基於 Gemini 3.1 的持續性記憶體代理,標誌著 AI 從外部向量資料庫轉向原生記憶體工程。