百年百科的控訴:GPT-4 是「背誦」出來的?
全球知識權威《大英百科全書》(Encyclopedia Britannica)與其旗下的《梅里亞姆-韋伯斯特字典》(Merriam-Webster)已正式對 OpenAI 提起版權訴訟。根據 The Verge 報導,原告指控 OpenAI 在開發 GPT-4 等大型語言模型時,未經許可使用了近 10 萬篇版權文章。訴訟的核心論點極具威脅性:OpenAI 不僅僅是在「學習」,而是在「背誦」這些內容,導致 AI 生成的結果與原創內容「實質相似」。
大英百科全書在訴狀中具體指出,GPT-4 能夠近乎逐字地重現其字典條目與深度分析文章。這種「無損背誦」(lossless memorization)現象,讓 AI 模型成了原創內容的直接市場替代品。對於一家依靠訂閱制生存的百年出版社來說,OpenAI 的行為被視為對其商業根基的毀滅性打擊。這起訴訟也反映了傳統媒體對 AI 公司「數據收割」行為的集體憤怒。
「公平使用」還是「市場替代」?法律邊界的攻防
OpenAI 過去一向以美國版權法中的「公平使用」(Fair Use)教義作為辯護理由,聲稱其對數據的處理是「轉化性」的,創造了全新的 AI 功能。然而,法律專家指出,根據 17 U.S.C. § 107 的第四大要素,即「使用行為對潛在市場的影響」,OpenAI 面臨巨大挑戰。如果用戶可以透過 ChatGPT 免費獲取原本需要付費訂閱的大英百科內容,那麼這種使用行為就很難被視為公平使用。
這起訴訟與《紐約時報》控告 OpenAI 的案件遙相呼應。技術上,AI 模型的權重中是否儲存了版權內容的具體片段,已成為法庭取證的焦點。學術研究顯示,大型語言模型在處理高頻出現的知識點時,確實容易發生記憶溢出。根據 PubMed 的相關討論,數據集的完整性與版權歸屬將直接影響 AI 生成結果的可靠性與法律合規性。隨著「版權訴訟」在加州搜尋熱度穩定,法律界正屏息以待法庭對「轉化性使用」的最新詮釋。
數據來源的枯竭與 AI 公司的新策略
面對日益增多的法律訴訟,OpenAI 等公司正試圖改變策略,從「無償抓取」轉向「付費授權」。然而,大英百科全書的訴訟顯示,許多內容持有者對 OpenAI 的出價並不滿意。根據 TechCrunch 的報導,OpenAI 已與多家通訊社達成協議,但像大英百科全書這種擁有極高知識密度的學術資源,顯然更看重其內容的排他性價值。如果不解決版權問題,AI 模型未來可能會面臨「高質量數據枯竭」的危機。
市場數據顯示,企業對 AI 合規性的關注度達到了新高。在 Google Trends 中,關於「AI 訓練數據合法性」的搜尋熱度在過去三個月增長了 45%。這反映出,開發者在採購 AI 服務時,也開始擔心未來可能面臨的版權連帶責任。大英百科全書的這一拳,打在的不僅是 OpenAI 的技術臉面上,更是整個生成式 AI 產業長期以來依賴的「默許抓取」慣例。
未來展望:建立知識有償使用的數位契約
無論這起訴訟最終是達成和解還是走向判決,它都將改寫數位出版與人工智慧之間的互動規則。一種可能的結果是,法庭強制要求 AI 公司建立更透明的數據溯源機制,讓原創作者能根據其內容在模型生成中的貢獻獲得分潤。另一種可能是,AI 公司將不得不重新研發「防記憶」技術,確保模型只學習規律而非背誦事實。在知識的價值被代碼重構的今天,大英百科全書的訴訟是一場關於「誰擁有真理」的主權保衛戰。

