Thinking Machines 正在開發的「互動模型」是什麼？

這是一種全新的 AI 互動技術，旨在跳脫目前「輸入後等待回答」的模式，讓 AI 能夠進行連續、即時的語音與視訊感知及互動。

這種模型對用戶有什麼實質好處？

用戶將能像與真人合作一樣，自然地與 AI 進行多模態（語音、視訊）協作，無需頻繁發送指令，互動體驗更具直覺性。

這種技術未來會應用在哪裡？

除了日常的個人助理外，特別適用於需要持續環境感知與快速反應的場景，例如工業品質監控、醫療照護與專業協作工作流。

Mira Murati 創立 Thinking Machines：聚焦新一代「互動模型」，推動 AI 語音與視訊協作

離開 OpenAI 後的全新征程

前 OpenAI 技術長 Mira Murati 在離開後所創立的新公司「Thinking Machines」，終於向外界揭開了其技術研發的神秘面紗。該公司於本週宣布，正全力投入開發一種稱為「互動模型」（Interaction Models）的創新技術。這項技術的初衷是為了徹底改變人類與 AI 代理之間的操作流程，從目前的「轉向式」（turn-based）對話，進化為連續、即時的語音與視訊協作。

突破「轉向式」限制的互動模型

目前市場上主流的 AI 模型（如 ChatGPT、Claude 等）大多遵循「輸入 -> 等待 -> 輸出」的轉向式互動模式。這種模式適合處理簡單查詢，但對於需要高度自然互動的工作場景則顯得不夠流暢。

根據 Thinking Machines 的願景，互動模型旨在讓 AI 能夠「持續接收」音訊與視訊資料。這意味著 AI 將能夠像人類一樣，即時處理周遭的聲音與影像訊息，並隨時進行響應。Mira Murati 強調，真正的 AI 協作應該像人類同事之間的溝通一樣自然，而非機械地等待用戶輸入指令。

產業前景與技術挑戰

Thinking Machines 的這項研究方向，預示了 AI 代理進入實體空間與專業場景的可能。如果 AI 能持續進行影像與聲音的理解，它們將能勝任更多需要即時決策的工作，例如協助工業機器人進行環境判斷，或是在醫療現場進行即時的健康數據監控。

然而，這項技術也帶來了巨大的技術挑戰與隱私疑慮。處理連續、高解析度的影音流需要強大的運算資源與極低的延遲。此外，當 AI 隨時在「聽」與「看」時，如何在設計中嵌入嚴格的隱私防護，將是 Thinking Machines 在推向市場時必須解決的關鍵課題。

展望未來

Thinking Machines 的出現，代表了 AI 領域正在從「語言模型的單一智力」向「具身化與即時感知的互動性」邁進。Mira Murati 的這項新嘗試，或許正標誌著 AI 發展的下一個黃金時代。

FAQ 問答

Q: Thinking Machines 正在開發的「互動模型」是什麼？ A: 這是一種全新的 AI 互動技術，旨在跳脫目前「輸入後等待回答」的模式，讓 AI 能夠進行連續、即時的語音與視訊感知及互動。
Q: 這種模型對用戶有什麼實質好處？ A: 用戶將能像與真人合作一樣，自然地與 AI 進行多模態（語音、視訊）協作，無需頻繁發送指令，互動體驗更具直覺性。
Q: 這種技術未來會應用在哪裡？ A: 除了日常的個人助理外，特別適用於需要持續環境感知與快速反應的場景，例如工業品質監控、醫療照護與專業協作工作流。