大英百科全書起訴的主要原因是什麼？

主要指控 OpenAI 未經授權使用其內容訓練 GPT-4，且模型能精確背誦原文，構成對其訂閱市場的直接替代。

OpenAI 的辯護邏輯是什麼？

OpenAI 通常主張「公平使用」，認為訓練 AI 是轉化性使用，並非複製原文，且有利於公眾獲取知識。

這起訴訟對普通用戶有什麼影響？

如果 OpenAI 敗訴，未來 ChatGPT 可能會移除受版權保護的特定知識庫，或需要大幅提高服務價格以支付授權費。

版權戰爭升級：大英百科全書與韋伯字典起訴 OpenAI 擅自訓練模型

百年百科的控訴：GPT-4 是「背誦」出來的？

全球知識權威《大英百科全書》（Encyclopedia Britannica）與其旗下的《梅里亞姆-韋伯斯特字典》（Merriam-Webster）已正式對 OpenAI 提起版權訴訟。根據 The Verge 報導，原告指控 OpenAI 在開發 GPT-4 等大型語言模型時，未經許可使用了近 10 萬篇版權文章。訴訟的核心論點極具威脅性：OpenAI 不僅僅是在「學習」，而是在「背誦」這些內容，導致 AI 生成的結果與原創內容「實質相似」。

大英百科全書在訴狀中具體指出，GPT-4 能夠近乎逐字地重現其字典條目與深度分析文章。這種「無損背誦」（lossless memorization）現象，讓 AI 模型成了原創內容的直接市場替代品。對於一家依靠訂閱制生存的百年出版社來說，OpenAI 的行為被視為對其商業根基的毀滅性打擊。這起訴訟也反映了傳統媒體對 AI 公司「數據收割」行為的集體憤怒。

「公平使用」還是「市場替代」？法律邊界的攻防

OpenAI 過去一向以美國版權法中的「公平使用」（Fair Use）教義作為辯護理由，聲稱其對數據的處理是「轉化性」的，創造了全新的 AI 功能。然而，法律專家指出，根據 17 U.S.C. § 107 的第四大要素，即「使用行為對潛在市場的影響」，OpenAI 面臨巨大挑戰。如果用戶可以透過 ChatGPT 免費獲取原本需要付費訂閱的大英百科內容，那麼這種使用行為就很難被視為公平使用。

這起訴訟與《紐約時報》控告 OpenAI 的案件遙相呼應。技術上，AI 模型的權重中是否儲存了版權內容的具體片段，已成為法庭取證的焦點。學術研究顯示，大型語言模型在處理高頻出現的知識點時，確實容易發生記憶溢出。根據 PubMed 的相關討論，數據集的完整性與版權歸屬將直接影響 AI 生成結果的可靠性與法律合規性。隨著「版權訴訟」在加州搜尋熱度穩定，法律界正屏息以待法庭對「轉化性使用」的最新詮釋。

數據來源的枯竭與 AI 公司的新策略

面對日益增多的法律訴訟，OpenAI 等公司正試圖改變策略，從「無償抓取」轉向「付費授權」。然而，大英百科全書的訴訟顯示，許多內容持有者對 OpenAI 的出價並不滿意。根據 TechCrunch 的報導，OpenAI 已與多家通訊社達成協議，但像大英百科全書這種擁有極高知識密度的學術資源，顯然更看重其內容的排他性價值。如果不解決版權問題，AI 模型未來可能會面臨「高質量數據枯竭」的危機。

市場數據顯示，企業對 AI 合規性的關注度達到了新高。在 Google Trends 中，關於「AI 訓練數據合法性」的搜尋熱度在過去三個月增長了 45%。這反映出，開發者在採購 AI 服務時，也開始擔心未來可能面臨的版權連帶責任。大英百科全書的這一拳，打在的不僅是 OpenAI 的技術臉面上，更是整個生成式 AI 產業長期以來依賴的「默許抓取」慣例。

未來展望：建立知識有償使用的數位契約

無論這起訴訟最終是達成和解還是走向判決，它都將改寫數位出版與人工智慧之間的互動規則。一種可能的結果是，法庭強制要求 AI 公司建立更透明的數據溯源機制，讓原創作者能根據其內容在模型生成中的貢獻獲得分潤。另一種可能是，AI 公司將不得不重新研發「防記憶」技術，確保模型只學習規律而非背誦事實。在知識的價值被代碼重構的今天，大英百科全書的訴訟是一場關於「誰擁有真理」的主權保衛戰。

百年百科的控訴：GPT-4 是「背誦」出來的？

「公平使用」還是「市場替代」？法律邊界的攻防

數據來源的枯竭與 AI 公司的新策略

未來展望：建立知識有償使用的數位契約

❓ 常見問題