類似ChatGPT的人工智能大模型每日都引起新話題,最新引起關注的是訓練這些大模型的海量數據,大部份是互聯網上取得的,一方面這些數據可能涉及大量偏見、歧視、有害,以及侵犯名譽和隱私的內容,一方面亦觸及知識產權問題。

《華盛頓郵報》發表了與艾倫人工智能研究院合作進行的調查,他們拆解了Google的C4數據集,研究資料來自哪些網站。C4是許多知名英語AI大模型的訓練材料,包括Google的T5和Facebook的LLaMA,由於數據集中有三分之一的網站已經不存在,所以實際統計的數據大約為1000萬個網站。

結果顯示,提供數據頭三位的,是囊括全球專利信息的Google專利網、維基百科和訂閱制數字圖書館scribd。但之後出現意外的名字,包括被美國司法部查封的盜版電子書網站b-ok.org,位列190,以及其他至少二十多個因為侵犯版權被美國查封的網站。

另外,《魔獸世界》玩家論壇wowhead高居第181位,《赫芬頓郵報》創辦人阿里安娜·赫芬頓創立的行為轉變課程網站thriveglobal位居175位。創意產品眾籌網站kickstarter位列25,令人質疑AI向用戶提供的創意和市場營銷方案,很有可能本身就是現成的產品。超過50萬的個人博客亦收錄到C4訓練集中,作者顯然無得到任何報酬。

每日產生大量經審校內容的媒體,都是訓練集的最愛,紐約時報、洛杉磯時報、衛報、福布斯和赫芬頓郵報,都高居數據庫的頭10位。由於美國媒體的特性,所以訓練集中也能找到以極右翼、白人至上主義內容為主的網站,當中找到至少7.2萬個納粹的標誌性符號。

而社交網站Twitter的行政總裁馬斯克,就威脅控告微軟,指微軟非法使用Twitter的數據來訓練人工智能大模型。之前有報道指微軟會將Twitter移除出旗下的廣告營運平台。

微軟去年對開發ChatGPT的OpenAI投資100億美元,本身亦有開發自己的大型語言模型。利用社交網站數據訓練大模型十分重要,原因是當中包括一些非正式和互動的對話。但當這些人工智能模型由實驗室走進商業世界,數據的擁有人就提出知識產權的要求。

社交網站Reddit表示,會向利用Reddit內容訓練AI的軟件收費;環球音樂集團亦都指利用人工智能合成或模仿歌曲或藝人,是違反版權法例,以及集團和藝人間的合約。照片庫Getty Images亦都控告利用人工智能合成圖像的公司Stable Diffusion,指他們抄襲內容,訓練旗下的圖像生成模型。