#MIT

2 篇

MIT 研究人員推出名為「Attention Matching」的技術，可將 LLM 的 KV 快取記憶體消耗降低 50 倍而不失準確度。結合 Andrej Karpathy 對 AI 可靠性的觀察，這標誌著 AI 產業正從「功能演示」轉向追求高穩定性與低部署門檻的生產階段。

MIT 研究人員發表了 Attention Matching 技術，能將大語言模型的 KV 快取記憶體需求降低 50 倍，且不失精度。同時 Google 開源了基於 Gemini 3.1 的持續性記憶體代理，標誌著 AI 從外部向量資料庫轉向原生記憶體工程。