生成式 AI ChatGPT 的法律末日如果被發現抄襲或侵權,警告 AI 倫理和 AI 法

在信用到期時給予信用。

這可能是您從小就堅信的一點聖人智慧。確實,人們假設或想像我們可能都在某種程度上合理地同意這是生活中公平明智的經驗法則。 當某人做了值得承認的事情時,確保他們得到應有的認可。

反向觀點似乎沒有那麼引人注目。

如果有人四處走動堅持信用應該 任何監管機構都不批准 在信用到期時被認可,好吧,你可能會斷言這樣的信念是不禮貌的並且可能是卑鄙的。 當成就顯著的人的信用被騙走時,我們常常發現自己非常不安。 我敢說,我們尤其不喜歡別人把別人的工作據為己有。 這是一個令人不安的雙重打擊。 應該得到榮譽的人被剝奪了他們在陽光下的時刻。 此外,騙子正在享受聚光燈下的樂趣,儘管他們錯誤地愚弄我們,盜用我們的好感。

為什麼所有這些關於以最正確的方式獲得信譽並避免錯誤和可鄙的方式的討論?

因為在談到最新的人工智能 (AI) 時,我們似乎面臨著類似的困境。

是的,聲稱這是通過一種稱為 生成式人工智能. 近來新聞中最熱門的 AI 生成式 AI 已經把它不應該得到的功勞據為己有,這引起了很多人的不滿。 隨著生成式 AI 的擴展和使用越來越多,這種情況可能會變得更糟。 越來越多的信用灌輸給生成人工智能,而可悲的是,那些當之無愧的真正信用卻被拋在了塵埃中。

我提出的明確表示這種所謂現象的方法是通過兩個時髦的標語:

  • 1)大規模抄襲
  • 2) 大規模侵犯版權

我假設您可能因 OpenAI 於 XNUMX 月發布的廣受歡迎的 AI 應用程序 ChatGPT 而了解生成式 AI。 我稍後會詳細介紹生成式 AI 和 ChatGPT。 掛在那裡。

讓我們馬上來看看是什麼讓人們心存疑慮的癥結所在。

一些人一直在強烈抱怨生成式人工智能可能會剝奪創造內容的人類。 你看,大多數生成式 AI 應用程序都是通過檢查互聯網上的數據訓練的數據。 基於這些數據,這些算法可以在 AI 應用程序中磨練出一個龐大的內部模式匹配網絡,該網絡隨後可以產生看似新的內容,這些內容令人驚訝地看起來像是人工設計的,而不是自動化的

這一非凡的壯舉在很大程度上歸功於對互聯網掃描內容的利用。 如果沒有大量和豐富的互聯網內容作為數據訓練的來源,生成式 AI 將幾乎是空洞的,並且很少或根本沒有興趣使用。 通過讓人工智能檢查數以百萬計的在線文檔和文本,以及各種相關內容,模式匹配逐漸衍生出來,以嘗試模仿人類製作的內容。

檢查的內容越多,在其他條件相同的情況下,模式匹配可能會得到更大程度的磨練,並在模仿方面變得更好。

這是一個價值不菲的問題:

  • 大問題: 如果您或其他人在 Internet 上擁有某些生成性 AI 應用程序經過訓練的內容,大概是在未經您的直接許可並且可能完全沒有您的意識的情況下進行的,那麼您是否有權獲得一塊餡餅,無論其產生的價值是什麼?生成人工智能數據訓練?

有些人激烈地爭辯說,唯一正確的答案是 ,值得注意的是,那些人類內容創作者確實應該從中分得一杯羹。 問題是,你很難找到任何人獲得了應有的份額,更糟糕的是,幾乎沒有人獲得任何份額。 非自願和不知不覺貢獻的互聯網內容創作者基本上被剝奪了應有的信用。

這可能被描述為殘暴和令人髮指的。 我們剛剛經歷了聖人智慧的拆解,即應該在信用到期時給予信用。 就生成式人工智能而言,顯然並非如此。 關於信用的長期有效的經驗法則似乎被無情地違反了。

哇,反駁說,你完全誇大和誤報了情況。 當然,生成式人工智能確實檢查了互聯網上的內容。 當然,這對於生成式 AI 的數據訓練非常有幫助。 不可否認,如果沒有這種深思熟慮的方法,今天令人印象深刻的生成式 AI 應用程序就不會那麼令人印象深刻。 但是當你說內容創作者應該被分配任何特定的信用表象時,你走得太遠了。

邏輯如下。 人們上網並從互聯網上學習東西,這是例行公事,本身沒有任何大驚小怪。 閱讀有關管道的博客,然後狂歡觀看免費提供的管道修理視頻的人可能在第二天出去找一份管道工的工作。 他們是否需要將一部分與管道相關的匯款交給撰寫有關如何安裝水槽管道的博主? 他們是否需要向製作視頻展示修理漏水浴缸步驟的視頻博主付費?

幾乎可以肯定不是。

生成式人工智能的數據訓練只是一種開發模式的手段。 只要生成式人工智能的輸出不僅僅是對所檢查內容的反省,你就可以有說服力地爭辯說它們已經“學習”了,因此不需要對任何特定來源給予任何特定的信任。 除非你能在執行精確反流時捕捉到生成 AI,否則跡象表明 AI 已經超越了任何特定來源。

沒有功勞歸功於任何人。 或者,有人假設,你可以說功勞歸於每一個人。 在 Internet 上找到的集體文本和人類的其他內容得到了信任。 我們都得到了榮譽。 試圖將功勞歸於某個特定來源是毫無意義的。 為人工智能的進步和全人類都將受益而高興。 互聯網上的這些帖子應該感到榮幸,因為它們為人工智能的未來進步做出了貢獻,以及這將如何幫助人類永生。

關於這兩種截然不同的觀點,我將有更多話要說。

同時,對於那些在互聯網上擁有網站的人來說,你是傾向於認為信用到期和遲到的陣營,還是認為互聯網內容創作者絕對是對立的一方? 任何監管機構都不批准 被宰是更有說服力的姿勢?

一個謎和一個謎語都擠在一起。

讓我們打開包裝。

在今天的專欄中,我將解決這些表達的擔憂,即生成式 AI 本質上是剽竊或可能侵犯已發佈在 Internet 上的內容的版權(被視為知識產權或 IP 問題)。 我們將研究這些疑慮的基礎。 在本次討論中,我會偶爾提到 ChatGPT,因為它是生成 AI 的 600 磅重的大猩猩,但請記住,還有許多其他生成 AI 應用程序,它們通常基於相同的總體原則。

同時,您可能想知道生成式人工智能究竟是什麼。

讓我們首先介紹生成式 AI 的基礎知識,然後我們可以仔細研究手頭的緊迫問題。

所有這一切都涉及大量人工智能倫理和人工智能法律方面的考慮。

請注意,目前正在努力將道德 AI 原則融入 AI 應用程序的開發和部署中。 越來越多的關注和以前的人工智能倫理學家正在努力確保設計和採用人工智能的努力考慮到做事的觀點 永遠的人工智能 並避免 壞的人工智能. 同樣,有人提出了新的 AI 法律,作為防止 AI 努力在人權等問題上失控的潛在解決方案。 有關我對 AI 倫理和 AI 法律的持續和廣泛報導,請參閱 這裡的鏈接這裡的鏈接,僅舉幾例。

正在製定和頒佈人工智能道德準則,以期防止社會陷入無數人工智能誘導陷阱。 關於我對近 200 個國家通過教科文組織的努力製定和支持的聯合國人工智能倫理原則的報導,請參閱 這裡的鏈接. 同樣,正在探索新的 AI 法律,以試圖讓 AI 保持平穩。 最近的一次拍攝包括一組建議的 人工智能權利法案 美國白宮最近發布的關於人工智能時代人權的報告,見 這裡的鏈接. 讓人工智能和人工智能開發人員走上正確的道路,並阻止可能削弱社會的有目的或無意的不正當行為,需要舉全村之力。

我將把 AI 倫理和 AI 法律相關的考慮因素交織到這個討論中。

生成式人工智能基礎

最廣為人知的生成式 AI 實例由名為 ChatGPT 的 AI 應用程序代表。 ChatGPT 在去年 XNUMX 月由 AI 研究公司 OpenAI 發佈時迅速進入公眾意識。 自從 ChatGPT 獲得了巨大的頭條新聞以來,令人驚訝地超過了其規定的 XNUMX 分鐘的成名時間。

我猜您可能聽說過 ChatGPT,或者甚至認識使用過它的人。

ChatGPT 被認為是一種生成式 AI 應用程序,因為它將用戶的一些文本作為輸入,然後 生成 或產生由一篇文章組成的輸出。 AI 是文本到文本生成器,儘管我將 AI 描述為文本到文章生成器,因為這更容易闡明它的常用用途。 您可以使用生成式 AI 來撰寫冗長的作品,也可以讓它提供相當簡短的精闢評論。 一切聽從您的吩咐。

您需要做的就是輸入一個提示,AI 應用程序會為您生成一篇嘗試回應您的提示的文章。 撰寫的文本看起來就像這篇文章是由人的手和思想寫成的。 如果你輸入“告訴我關於亞伯拉罕·林肯”的提示,生成式人工智能將為你提供一篇關於林肯的文章。 還有其他生成 AI 模式,例如文本到藝術和文本到視頻。 我將在這裡重點關注文本到文本的變化。

您的第一個想法可能是,就撰寫論文而言,這種生成能力似乎沒什麼大不了的。 你可以很容易地在互聯網上進行在線搜索,很容易找到大量關於林肯總統的文章。 生成式 AI 的關鍵在於生成的文章相對獨特,提供原創作品而不是抄襲。 如果你試圖在網上某個地方找到 AI 生成的文章,你不太可能會發現它。

生成式 AI 經過預先訓練,並利用複雜的數學和計算公式,該公式是通過檢查網絡上的書面文字和故事中的模式而建立的。 由於檢查了成千上萬的書面段落,人工智能可以吐出新的文章和故事,這些文章和故事是所發現內容的大雜燴。 通過添加各種概率函數,生成的文本與訓練集中使用的文本相比非常獨特。

人們對生成式 AI 有很多擔憂。

一個關鍵的缺點是,由基於生成的人工智能應用程序生成的文章可能會嵌入各種虛假信息,包括明顯不真實的事實、被誤導性描述的事實以及完全捏造的明顯事實。 這些虛構的方面通常被稱為 人工智能幻覺,一個我不喜歡但遺憾的是似乎越來越流行的標語(關於為什麼這是糟糕和不合適的術語的詳細解釋,請參閱我的報導 這裡的鏈接).

另一個問題是,儘管不是自己撰寫論文,但人類很容易將 AI 生成的論文歸功於他人。 您可能聽說過教師和學校非常關註生成式 AI 應用程序的出現。 學生可以使用生成式 AI 來撰寫他們分配的論文。 如果一個學生聲稱一篇文章是他們自己親手寫的,那麼老師幾乎不可能辨別它是否是由生成人工智能偽造的。 有關我對這個學生和老師混淆方面的分析,請參閱我的報導 這裡的鏈接這裡的鏈接.

社交媒體上出現了一些關於 生成式人工智能 斷言這個最新版本的人工智能實際上是 有感知的人工智能 (不,他們錯了!)。 AI 倫理和 AI 法律領域的人士尤其擔心這種不斷擴大的索賠趨勢。 您可能會禮貌地說,有些人誇大了當今 AI 的實際能力。 他們假設人工智能具有我們尚未能夠實現的能力。 那真不幸。 更糟糕的是,他們可能會允許自己和他人陷入可怕的境地,因為他們假設人工智能在採取行動方面具有感知能力或類似人類。

不要將人工智能擬人化。

這樣做會讓你陷入一個棘手而沉悶的依賴陷阱,即期望 AI 做它無法執行的事情。 話雖如此,最新的生成式 AI 的功能相對令人印象深刻。 請注意,在使用任何生成式 AI 應用程序時,您應該始終牢記一些重大限制。

現在最後一個預警。

無論您在生成式 AI 響應中看到或讀到什麼 似乎 要以純事實(日期、地點、人物等)的形式傳達,請確保保持懷疑並願意仔細檢查您所看到的內容。

是的,日期可以編造,地點可以編造,我們通常期望無可非議的元素是 全部 受到懷疑。 在檢查任何生成的 AI 文章或輸出時,不要相信你讀到的內容並保持懷疑的眼光。 如果一個生成式 AI 應用程序告訴你亞伯拉罕林肯乘坐他的私人飛機在全國各地飛行,你無疑會知道這是胡說八道。 不幸的是,有些人可能沒有意識到噴氣式飛機在他那個時代並不存在,或者他們可能知道但沒有註意到這篇文章提出了這種厚顏無恥的錯誤主張。

在使用生成 AI 時,強烈的健康懷疑和持續的懷疑心態將是你最好的資產。

我們已準備好進入這一闡明的下一階段。

互聯網和生成式 AI 齊頭並進

既然您大致了解了什麼是生成式 AI,我們就可以探討生成式 AI 是公平還是不公平地“槓桿化”這個棘手的問題,或者有人會說 公然地 利用 互聯網內容。

以下是我與此事相關的四個重要主題:

  • 1)雙重麻煩:抄襲和侵權
  • 2)試圖證明抄襲或侵犯版權將被嘗試
  • 3) 為剽竊或侵犯版權辯護
  • 4)法律地雷等待

我將涵蓋這些重要主題中的每一個,並提供我們都應該認真考慮的有見地的考慮。 這些主題中的每一個都是更大難題的組成部分。 你不能只看一件。 你也不能孤立地看待任何一件作品。

這是一個錯綜複雜的馬賽克,必須對整個拼圖給予適當的和諧考慮。

雙重麻煩:抄襲和版權侵權

那些製造和部署生成式人工智能的人面臨的雙重麻煩是,他們的產品可能會做兩件壞事:

  • 1)剽竊。 生成式 AI 可以解釋為 剽竊 根據 AI 數據訓練期間發生的互聯網掃描,互聯網上存在的內容。
  • 2) 侵犯版權。 生成式人工智能可以說是一項事業 侵犯版權 與數據訓練期間掃描的 Internet 內容相關聯。

需要澄清的是,互聯網上的內容比通常為生成 AI 的數據訓練而掃描的內容要多得多。 通常只有一小部分互聯網被使用。 因此,我們可以推測,在數據訓練期間未掃描的任何內容與生成 AI 沒有特別的關係。

不過,這有點值得商榷,因為您可能會畫一條線,將已掃描的其他內容與未掃描的內容連接起來。 此外,另一個重要的附帶條件是,即使有內容沒有被掃描,如果生成人工智能的輸出碰巧落在相同的措辭上,它仍然可以被認為是抄襲和/或侵犯版權。 我的觀點是,所有這些都有很多問題。

底線: 當涉及到剽竊和侵犯版權時,生成式 AI 充滿了潛在的 AI 倫理和 AI 法法律難題 支持流行的數據培訓實踐。

到目前為止,AI 製造商和 AI 研究人員已經順利通過了這一過程,儘管他們頭上懸著的劍若隱若現、搖搖欲墜。 迄今為止,只有少數訴訟針對這些做法發起。 您可能聽說過或看過有關此類法律訴訟的新聞報導。 例如,其中一個涉及文本到圖像公司 Midjourney 和 Stability AI 侵犯在互聯網上發布的藝術內容。 由於 Copilot 軟件生成 AI 應用程序,另一個涉及對 GitHub、Microsoft 和 OpenAI 的文本到代碼侵權。 Getty Images 也一直致力於追查 Stability AI 的文本到圖像侵權行為。

您可以預見會有更多此類訴訟被提起。

現在,由於結果相對未知,因此發起這些訴訟有點偶然。 法院會站在 AI 製造商一邊,還是認為他們的內容被不公平利用的人會成為勝利者? 一場代價高昂的官司總是一件嚴肅的事情。 花費大量的法律費用必須與輸贏的機會進行權衡。

人工智能製造商似乎別無選擇,只能奮起反抗。 如果他們讓步,哪怕是一點點,很可能會導致大量額外的訴訟(從本質上講,這會增加其他人也勝訴的可能性)。 一旦水里有合法的血,剩下的合法鯊魚就會爭先恐後地向所謂的“輕鬆得分”進發,一場慘烈的金錢大屠殺肯定會發生。

一些人認為我們應該通過新的人工智能法來保護人工智能製造商。 這種保護甚至可能具有追溯力。 這樣做的基礎是,如果我們想看到生成式 AI 的進步,我們必須給 AI 製造商一些安全區域跑道。 一旦訴訟開始對 AI 製造商取得勝利,如果發生這種情況(我們還不知道),擔心的是生成 AI 將會消失,因為沒有人願意為 AI 公司提供任何支持。

正如 Ilia Kolochenko 博士和 Gordon Platt 博士在 Bloomberg Law 2023 年 XNUMX 月發表的一篇題為“ChatGPT:IP、網絡安全和生成人工智能的其他法律風險”的最新彭博法律文章中巧妙指出的,以下是與這些觀點相呼應的兩個重要摘錄:

  • “現在,美國法律學者和知識產權法教授之間就未經授權的抓取和隨後使用受版權保護的數據是否構成侵犯版權展開了激烈的辯論。 如果在這種做法中看到侵犯版權的法律從業者的觀點佔上風,那麼這種人工智能係統的用戶也可能對二次侵權負責,並可能面臨法律後果。”
  • “為了全面應對挑戰,立法者不僅應該考慮​​使現有的版權立法現代化,還應該考慮實施一套專門針對人工智能的法律法規。”

回想一下,作為一個社會,我們確實為 擴張 互聯網的發展,正如最高法院現在審查著名或臭名昭著的第 230 條所見證的那樣。因此,我們可能願意為生成人工智能的進步採取一些類似的保護措施,這似乎在合理和先例之內。 或許可以臨時設置保護措施,在生成式 AI 達到某個預定的熟練程度後失效。 可以設計其他保障條款。

我將很快發布我對最高法院對第 230 條的評估和最終裁決可能如何影響生成人工智能的出現的分析。 請留意即將發布的帖子!

回到尖銳的觀點,即我們應該為被稱為生成 AI 的社會令人敬畏的技術創新留出餘地。 有人會說,即使聲稱的版權侵權已經發生或正在發生,為了推進生成人工智能的特定目的,整個社會也應該願意允許這種情況發生。

希望新的 AI 法律將被精心製定並調整到與生成 AI 的數據訓練相關的細節。

為此目的製定新的 AI 法律的想法有很多反對意見。 一個擔憂是,任何此類新的人工智能法都會為各種侵犯版權的行為打開閘門。 我們會後悔我們允許這樣新的 AI 法律落在書本上的那一天。 無論你多麼努力地試圖將其局限於 AI 數據訓練,其他人都會偷偷摸摸或巧妙地找到漏洞,這些漏洞將構成不受約束和猖獗的版權侵權。

一輪又一輪的爭論去。

一個不是特別站得住腳的論點與試圖起訴 AI 本身有關。 請注意,我一直將 AI 製造商或 AI 研究人員稱為應受譴責的利益相關者。 這些是人和公司。 有人建議我們應該將 AI 作為被起訴的一方。 我在我的專欄中詳細討論了我們尚未將法人資格歸因於 AI,請參閱 這裡的鏈接 例如,因此這種針對 AI 本身的訴訟現在被認為是毫無意義的。

作為應該起訴誰或什麼的問題的附錄,這引出了另一個有趣的話題。

假設某個特定的生成 AI 應用程序是由我們稱為 Widget Company 的某個 AI 製造商設計的。 Widget Company 規模相對較小,收入不多,資產也不多。 起訴他們不太可能獲得人們可能尋求的巨額財富。 至多,你只會對糾正你認為錯誤的事情感到滿意。

你想追大魚。

這就是它是如何產生的。 一家 AI 製造商選擇將他們的生成 AI 提供給 Big Time Company,這是一家擁有大量麵團和大量資產的大型企業集團。 命名 Widget Company 的訴訟現在將有一個更好的目標,即也命名為 Big Time Company。 這是一場律師會喜歡的大衛和歌利亞的戰鬥。 當然,Big Time Company 無疑會嘗試擺脫釣魚鉤。 他們能否這樣做又是一個不確定的法律問題,他們可能會無可救藥地陷入泥潭。

在我們進一步討論這個問題之前,我想在桌面上討論一些關於由於數據訓練而引起的生成 AI 的競爭侵蝕的關鍵問題。 我相信您憑直覺意識到剽竊和侵犯版權是兩種不同的東西。 它們有很多共同點,儘管它們也有很大不同。

以下是杜克大學的簡潔描述,對這兩者進行了解釋:

  • “最好將剽竊定義為未經認可地使用他人的作品。 這是一個道德問題,涉及索賠人未創建的工作的信用索賠。 無論該作品的版權狀態如何,都可以剽竊他人的作品。 例如,從太舊而仍受版權保護的書籍或文章中復制仍然是剽竊。 使用從未經確認的來源獲取的數據也是剽竊,即使像數據這樣的事實材料可能不受版權保護。 然而,剽竊很容易治愈——正確引用材料的原始來源。”
  • “另一方面,侵犯版權是指未經授權使用他人的作品。 這是一個法律問題,首先取決於作品是否受版權保護,以及使用量和使用目的等細節。 如果一個人復制太多受保護的作品,或出於未經授權的目的進行複制,僅僅承認原始來源並不能解決問題。 只有事先徵得版權所有者的許可,才能避免侵權指控的風險。”

我指出了這兩個問題的重要性,這樣您就會意識到補救措施可能會相應地有所不同。 此外,他們都沉浸在滲透到 AI 倫理和 AI 法律的考量中,這使得它們同樣值得研究。

讓我們探索一種聲稱的補救措施或解決方案。 您會發現它可能有助於雙重麻煩問題中的一個,但不會幫助另一個。

一些人堅持認為,人工智能製造商所要做的就是引用他們的來源。 當生成式 AI 生成一篇文章時,只需包含對文章中所述內容的具體引用。 提供各種 URL 和其他指示,說明使用了哪些 Internet 內容。 這似乎讓他們擺脫了對剽竊的疑慮。 輸出的文章大概會清楚地確定正在生成的措辭使用了哪些來源。

聲稱的解決方案中有一些狡辯,但在 30,000 英尺的高度上,我們可以說這確實是解決剽竊困境的半令人滿意的方法。 正如上面關於版權侵權的解釋中所述,引用源材料並不一定能讓你擺脫困境。 假設內容已受版權保護,並且取決於其他因素(例如使用了多少材料),等待中的版權侵權之劍可能會急劇下降並最終終結。

雙重麻煩是這裡的口號。

試圖證明抄襲或侵犯版權將是嘗試

證明給我看!

這是我們在生活中的不同時期都聽到過的陳詞濫調。

你知道怎麼回事。 您可能會聲稱某事正在發生或已經發生。 你可能在內心深處知道這已經發生了。 但是當涉及到推動與推動時,你必須有證據。

用今天的話來說,你需要展示 , 像他們說的。

我的問題是: 我們如何證明生成人工智能不恰當地利用了互聯網內容?

人們認為答案應該很簡單。 您要求或告訴生成式 AI 生成輸出的論文。 然後,您將這篇文章與可以在 Internet 上找到的內容進行比較。 如果你找到了這篇文章,巴姆,你就把生成式人工智能釘在了眾所周知的牆上。

生活似乎從未如此輕鬆。

設想我們使用生成式 AI 來製作一篇包含大約 100 個單詞的文章。 我們四處走動,試圖到達互聯網的所有角落,搜索這 100 個單詞。 如果我們找到這 100 個單詞,以完全相同的順序和相同的方式顯示,我們似乎已經找到了一個熱門單詞。

假設雖然我們在互聯網上找到一篇看似“可比”的文章,但它只匹配了 80 個單詞中的 100 個。 這似乎仍然足夠,也許。 但是想像一下,我們只找到 10 個匹配的單詞中的 100 個實例。 這足以叫囂抄襲或侵犯版權嗎?

灰色存在。

這樣的文字很有趣。

將此與文本到圖像或文本到藝術的情況進行比較。 當生成式 AI 提供文本到圖像或文本到藝術的功能時,您輸入文本提示,AI 應用程序會根據您提供的提示生成圖像。 該圖像可能不同於在這個或任何其他行星上看到的任何圖像。

另一方面,該圖像可能會讓人聯想到其他確實存在的圖像。 我們可以查看生成的 AI 生成的圖像,並憑直覺說它確實看起來像我們以前見過的其他圖像。 一般來說, 視覺 比較和對比方面更容易進行。 話雖這麼說,但請注意,關於什麼構成一幅圖像與另一幅圖像的重疊或複制,存在巨大的法律辯論。

另一種類似的情況存在於音樂中。 有生成式 AI 應用程序允許您輸入文本提示,AI 產生的輸出是音頻音樂。 這些文本到音頻或文本到音樂的 AI 功能才剛剛開始出現。 你可以賭上一大筆錢的一件事是,由生成式 AI 製作的音樂將因侵權而受到高度審查。 我們似乎知道何時聽到音樂侵權,但這又是一個複雜的法律問題,不僅僅是基於我們對感知到的複制的感受。

再舉一個例子。

文本到代碼生成 AI 使您能夠輸入文本提示,AI 將為您生成編程代碼。 然後您可以使用此代碼編寫計算機程序。 您可以使用生成的代碼,也可以選擇編輯和調整代碼以滿足您的需要。 還需要確保代碼適當且可行,因為生成的代碼中可能會出現錯誤和錯誤。

您的第一個假設可能是編程代碼與文本沒有什麼不同。 它只是文本。 當然,它是提供特定目的的文本,但它仍然是文本。

好吧,不完全是。 大多數編程語言對該語言的編碼語句的性質都有嚴格的格式和結構。 這在某種意義上比自由流動的自然語言要窄得多。 您對編碼語句的製定方式有些局限。 同樣,使用和排列語句的順序和方式也有些封閉。

總而言之,展示編程代碼被剽竊或侵權的可能性幾乎比自然語言更容易。 因此,當一個生成式人工智能去掃描互聯網上的程序代碼並隨後生成程序代碼時,爭論代碼被公然複製的可能性將相對更有說服力。 這不是灌籃高手,因此預計將為此展開激烈的戰鬥。

我的首要觀點是,我們將面臨相同的 AI 倫理和 AI 法律問題,以應對所有生成 AI 模式。

剽竊和侵犯版權將是有問題的:

  • 文本到文本或文本到文章
  • 文本到圖像或文本到藝術
  • 文字轉音頻或文字轉音樂
  • 文字轉視頻
  • 文本到代碼
  • 等等

他們都受到同樣的關注。 有些可能比其他的更容易“證明”。 他們所有人都會有自己的各種關於 AI 倫理和 AI 法律基礎的噩夢。

為剽竊或侵犯版權辯護

出於討論目的,讓我們關注文本到文本或文本到文章的生成 AI。 我這樣做的部分原因是 ChatGPT 的巨大流行,它是文本到文本類型的生成 AI。 有很多人在使用 ChatGPT,還有許多人在使用各種類似的文本到文本生成 AI 應用程序。

那些使用生成式 AI 應用程序的人是否知道他們可能依賴剽竊或侵犯版權?

他們這樣做似乎值得懷疑。

我敢說,普遍的假設是,如果生成的 AI 應用程序可供使用,AI 製造商或部署 AI 的公司必須知道或確信他們提供使用的產品沒有任何問題。 如果能用,那肯定是光明正大的。

讓我們回顧一下我之前關於我們將如何嘗試證明特定的生成式 AI 在錯誤的數據訓練基礎上工作的評論。

我可能還要補充一點,如果我們能抓住一個這樣做的生成 AI,那麼抓到其他 AI 的機會可能會增加。 我並不是說所有的生成式 AI 應用程序都會在同一條船上。 但是一旦其中一個被釘在牆上,他們就會發現自己身處波濤洶湧的大海中。

這就是為什麼密切關注現有訴訟也非常值得的原因。 第一個在侵權指控中獲勝的人,如果發生這種情況,可能會給其他生成式 AI 應用程序帶來厄運和陰霾,除非一些狹隘的問題逃避了手頭更廣泛的問題。 那些在侵權訴訟中敗訴的人並不一定意味著生成式人工智能應用程序可以敲響警鐘並慶祝。 損失可能歸因於與其他生成 AI 應用程序不相關的其他因素,等等。

我曾提到過,如果我們拿一篇 100 字的文章並嘗試在 Internet 上以完全相同的順序找到那些確切的單詞,那麼在其他條件相同的情況下,我們可能會有相對可靠的剽竊或版權侵權案例。 但如果匹配的單詞數量很少,我們似乎如履薄冰。

我想更深入地研究一下。

進行比較的一個明顯方面是由完全相同的單詞以完全相同的順序組成的。 這可能發生在整個段落中。 這很容易發現,幾乎就像放在銀盤上交給我們一樣。

如果只有一小段單詞匹配,我們也可能會懷疑。 我們的想法是查看它們是否是我們可以輕鬆刪除或忽略的關鍵詞或填充詞。 我們也不希望被過去時或將來時或其他愚蠢行為所欺騙。 還應考慮這些詞語的變化。

另一個層次的比較是當這些詞在很大程度上不是特別相同的詞時,但即使在不同的狀態下,這些詞似乎仍然在表達相同的觀點。 例如,摘要通常會使用非常相似的詞作為原始來源,但我們可以看出摘要似乎是基於原始來源。

最難的比較是基於概念或想法。 假設我們看到一篇文章,沒有相同或相似的詞作為比較基準,但本質或思想是相同的。 誠然,我們正在進入艱難的境地。 如果我們輕易地說思想受到嚴密保護,那麼我們就會對幾乎所有形式的知識和知識擴張都加蓋蓋子。

我們可以再次參考杜克大學的一個方便的解釋:

  • “版權不保護思想,只保護思想的具體表達。 例如,法院裁定丹·布朗在寫作時並未侵犯早期書籍的版權 “達芬奇密碼 因為他從早期作品中藉鑑的只是基本思想,而不是情節或對話的細節。 由於版權旨在鼓勵創造性生產,因此使用他人的想法製作新的原創作品符合版權的宗旨,並不違反版權。 只有當一個人未經許可複制另一個人的表達時,才可能侵犯版權。”
  • “另一方面,為了避免剽竊,即使是從別人那裡借來的想法,也必須承認其來源,無論這些想法的表達方式是否是藉用的。 因此,釋義需要引用,即使它很少引起任何版權問題。”

請注意之前確定的雙重故障方面之間的差異。

那麼,將比較方法付諸實踐是多年來一直在進行的事情。 這樣想。 為功課寫論文的學生可能會忍不住從互聯網上獲取內容,並假裝他們創作了 A 級普利策獎獲獎詞。

長期以來,教師們一直在使用剽竊檢查程序來解決這個問題。 一位老師拿起學生的論文並將其輸入剽竊檢查器。 在某些情況下,整個學校都會授權使用剽竊檢查程序。 每當學生提交論文時,他們必須先將論文發送到剽竊檢查程序。 老師被告知節目報告的內容。

不幸的是,您必須對這些抄襲檢查程序必須說的內容非常謹慎。 重要的是要仔細評估報告的適應症是否有效。 如前所述,確定作品是否被複製的能力可能是模糊的。 如果你不假思索地接受了檢查程序的結果,你就可以在學生沒有抄襲的情況下誣告他們抄襲了。 這可能令人心碎。

繼續,我們可以嘗試在測試生成 AI 輸出的領域使用剽竊檢查程序。 將生成式 AI 應用程序輸出的論文視為學生撰寫的論文。 然後我們衡量剽竊檢查員說了什麼。 這是用一粒鹽完成的。

最近有一項研究試圖以這種方式在生成人工智能的背景下實施這些類型的比較。 我想和你一起回顧一些有趣的發現。

首先,需要添加一些背景知識。 生成式 AI 有時被稱為 LLM(大型語言模型)或簡稱為 LM(語言模型)。 其次,ChatGPT 基於另一個名為 GPT-3.5 的 OpenAI 生成 AI 包的版本。 在 GPT-3.5 之前,有 GPT-3,再之前是 GPT-2。 如今,與後來的系列相比,GPT-2 被認為是相當原始的,我們都熱切地等待著即將推出的 GPT-4,請參閱我在 這裡的鏈接.

我想簡要探討的研究包括檢查 GPT-2。 認識到這一點很重要,因為我們現在已經遠遠超出了 GPT-2 的能力。 不要對 GPT-2 的分析結果做出任何輕率的結論。 儘管如此,我們可以從 GPT-2 的評估中學到很多東西。 該研究的標題是“語言模型會剽竊嗎?” 作者 Jooyoung Lee、Thai Le、Jinghui Chen 和 Dongwon Lee,出現在 ACM WWW '23,1 年 5 月 2023-XNUMX 日,美國德克薩斯州奧斯汀。

這是他們的主要研究問題:

  • “LM 在多大程度上(不限於記憶)利用訓練樣本中的短語或句子?”

他們使用了以下三個級別或類別的潛在剽竊:

  • “逐字抄襲:未經轉換的單詞或短語的精確副本。”
  • “釋義剽竊:同義詞替換、單詞重新排序和/或反向翻譯。”
  • “創意剽竊:以細長形式表示核心內容。”

GPT-2 確實接受過互聯網數據訓練,因此適合進行此類分析:

  • “GPT-2 在 WebText 上進行了預訓練,包含從 8 萬個 Reddit 鏈接中檢索到的超過 45 萬份文檔。 由於 OpenAI 尚未公開發布 WebText,因此我們使用 OpenWebText,它是 WebText 語料庫的開源重建。 它已被先前的文獻可靠地使用。”

從研究中摘錄的選擇性關鍵發現包括:

  • “我們發現經過預訓練的 GPT-2 家族確實抄襲了 OpenWebText。”
  • “我們的研究結果表明,微調顯著減少了 OpenWebText 的逐字抄襲案例。”
  • “與 Carlini 等人一致。 和 Carlini 等人,我們發現較大的 GPT-2 模型(large 和 xl)通常比較小的模型更頻繁地生成剽竊序列。”
  • “但是,不同的 LM 可能表現出不同的抄襲模式,因此我們的結果可能不會直接推廣到其他 LM,包括更新的 LM,例如 GPT-3 或 BLOOM。”
  • “此外,眾所周知,自動抄襲檢測器有許多故障模式(包括假陰性和假陽性)。
  • “鑑於大多數 LM 的訓練數據是在沒有通知內容所有者的情況下從網絡上抓取的,他們將訓練集中的單詞、短語甚至核心思想重複到生成的文本中具有倫理意義。”

我們絕對需要更多此類研究。

如果您對 GPT-2 與 GPT-3 在數據訓練方面的比較感到好奇,那麼會有非常明顯的對比。

根據報導的跡象,GPT-3 的數據訓練要廣泛得多:

  • “該模型是使用來自互聯網的文本數據庫進行訓練的。 這包括從書籍、網絡文本、維基百科、文章和互聯網上的其他文章中獲得的高達 570GB 的數據。 更準確地說,系統輸入了 300 億個單詞”(BBC 科學焦點 雜誌,“ChatGPT:關於 OpenAI 的 GPT-3 工具你需要知道的一切”,Alex Hughes,2023 年 XNUMX 月)。

對於那些對 GPT-3 數據訓練的更深入描述感興趣的人,以下是 GitHub 上發布的官方 GPT-3 模型卡的摘錄(最後更新日期為 2020 年 XNUMX 月):

  • “GPT-3 訓練數據集由發佈到互聯網的文本或上傳到互聯網的文本(例如書籍)組成。 迄今為止,它已經過訓練和評估的互聯網數據包括:(1) CommonCrawl 數據集的一個版本,根據與高質量參考語料庫的相似性進行過濾,(2) Webtext 數據集的擴展版本,(3 ) 兩個基於互聯網的圖書語料庫,以及 (4) 英語維基百科。”
  • “鑑於其訓練數據,GPT-3 的輸出和表現比那些沉浸在口頭、非數字文化中的人群更能代表互聯網連接的人群。 互聯網人群更能代表發達國家、富人、年輕人和男性的觀點,並且以美國為中心居多。 較富裕的國家和發達國家的人口表現出較高的互聯網普及率。 數字性別鴻溝還表明,全球女性在線人數較少。 此外,由於世界不同地區的互聯網普及率和訪問水平不同,因此該數據集未能充分代表聯繫較少的社區。”

從上述關於 GPT-3 的指示中得出的一個結論是,在那些製造生成式 AI 的人中,一個經驗法則是你可以掃描的互聯網數據越多,改進或推進生成式 AI 的可能性就會增加。

您可以通過兩種方式中的任何一種來看待這一點。

  • 1) 改進AI. 我們將擁有能夠在盡可能多的互聯網上爬行的生成式人工智能。 令人興奮的結果是生成式人工智能將比現在更好。 這是一件值得期待的事情。
  • 2) 大量複製潛力. 互聯網掃描範圍的擴大既令人討厭又引人入勝,使剽竊和侵犯版權的問題可能變得越來越大。 之前沒有那麼多的內容創作者受到影響,但規模正在蓬勃發展。 如果您是內容創作者一方的律師,這會讓您熱淚盈眶(也許是沮喪的淚水,或者是為這帶來的訴訟前景而高興的淚水)。

杯子是半滿的還是半空的?

你決定。

法律地雷等待

您可能正在考慮的一個問題是,您發布的 Internet 內容是否被認為是被掃描的公平遊戲。 如果您的內容在付費專區後面,那麼它可能不是被掃描的目標,因為它無法輕易訪問,具體取決於付費專區的強度。

我猜想大多數普通人不會將他們的內容藏在付費專區後面。 他們希望他們的內容公開可用。 他們假設人們會看一看。

公開你的內容是否也意味著你批准對其進行掃描以供正在接受數據訓練的生成 AI 使用?

可能是,可能不是。

這是那些翻白眼的法律事務之一。

回到前面提到的 彭博法 文章中,作者提到了與許多網站相關的條款和條件 (T&C) 的重要性:

  • “法律地雷——被運行在線機器人進行數據抓取的不知情的人工智能公司大大忽視了——隱藏在所有類型的公共網站上普遍可用的條款和條件中。 與目前懸而未決的知識產權法和版權侵權困境相比,網站的條款和條件有完善的合同法支持,通常可以依靠足夠數量的先例在法庭上強制執行。”

它們表明假設您的網站有一個與許可相關的頁面,如果您使用標準化的現代模板,它很可能包含一個關鍵條款:

  • “因此,大多數網站的樣板條款和條件——大量免費提供——包含禁止自動數據抓取的條款。 具有諷刺意味的是,這種免費提供的模板可能已用於 ChatGPT 培訓。 因此,內容所有者可能希望查看其條款和條件,並插入一個單獨的條款,明確禁止在未經網站所有者事先書面許可的情況下,將網站上的任何內容用於 AI 培訓或任何相關目的,無論是手動收集還是自動收集”

他們對內容創建者對其網站採取的潛在行動的分析中包含了一個額外的問題:

  • “因此,為每次違反禁止刮擦條款的行為插入可強制執行的違約金條款,並通過無保證金禁令條款加以加強,對於那些不願提供其成果的創意內容作者來說,可能是一個可行的解決方案。為 AI 培訓目的而進行的智力勞動沒有報酬,或者至少對他們的工作給予了適當的認可。”

您可能需要就此諮詢您的律師。

有人說,這是一種重要的方式,可以告訴 AI 製作者內容創作者非常認真地保護他們的內容。 確保您的許可措辭正確,似乎會引起 AI 製造商的注意。

但其他人則有點悲觀。 他們沮喪地說,你可以繼續在你的網站上使用最嚴厲、最致命的法律語言,但最終,人工智能製造商將對其進行掃描。 你不會知道他們這樣做了。 你將有一段時間證明他們做到了。 您不太可能發現他們的輸出反映了您的內容。 這是一場你贏不了的艱苦戰鬥。

反對意見是你甚至在戰鬥開始之前就投降了。 如果您至少沒有足夠的法律語言,並且如果您確實抓住了他們,他們將搖擺不定並狡猾地逃避任何責任。 都是因為您沒有發布正確的法律術語。

與此同時,另一種尋求獲得牽引力的方法包括 記號 您的網站上寫著該網站不會被生成 AI 掃描。 這個想法是設計一個標準化的標記。 網站大概可以將標記添加到他們的網站。 人工智能製造商會被告知他們應該改變數據掃描以跳過標記的網站。

標記方法能否成功? 問題包括獲取和張貼標記的成本。 以及人工智能製造商是否會遵守標記並確保他們避免掃描標記的站點。 另一種觀點是,即使 AI 製造商不同意這些標記,這也為上法庭提供了另一個線索,並爭辯說內容創建者已經走了最後一英里,試圖警告 AI 掃描。

哎呀,這一切都讓你頭暈目眩。

結論

關於這個棘手話題的最後幾點評論。

您準備好從一個令人費解的角度來看待整個人工智能作為剽竊者和版權侵權者的困境了嗎?

在剽竊或侵犯版權行為中“捕捉”生成式人工智能的大部分假設取決於發現輸出 高度相似 先前的工作,例如在數據訓練期間可能掃描的 Internet 上的內容。

假設分而治之的策略在這裡發揮作用。

這就是我的意思。

如果生成式 AI 從這裡借用一點點,從那裡借用一點點,最終將它們混合在一起產生任何特定的輸出,那麼陷入困境的機會就會大大減少。 任何輸出似乎都不會上升到一個足夠的閾值,您可以肯定地說它是從一個特定的源項目中復制的。 生成的論文或其他輸出模式只能部分匹配。 通過試圖爭辯剽竊或侵犯版權的通常方法,你通常不得不展示更多的東西在起作用,特別是如果一點點不是很突出並且可以在互聯網上廣泛找到(削弱任何適當的盜用舉證責任)。

即使建議的證據表面上無關緊要,你還能有說服力地宣稱生成式 AI 的數據訓練已經敲詐了網站和內容創作者嗎?

考慮一下。

如果我們面臨潛在的大規模剽竊和大規模版權侵權,我們可能需要改變我們定義什麼構成剽竊和/或版權侵權的方法。 也許有一個主要或普遍存在剽竊或侵犯版權的案例。 由數千或數百萬個微小片段組成的馬賽克可以被解釋為犯下此類違規行為。 但明顯的問題是,這可能會使各種內容突然受到破壞。 這可能是一個滑坡。

沉重的思緒。

談到沉重的思想,傳奇作家列夫·托爾斯泰有句名言:“生命的唯一意義就是為人類服務。”

如果你的網站和其他人的網站正在被掃描以改善人工智能,雖然你沒有從中得到一分錢,但你是否會因為堅信你正在為人類的未來做出貢獻而得到莊嚴的安慰? 這似乎是一個很小的代價。

好吧,除非 AI 被證明是可怕的存在風險,將所有人類從存在中抹去。 你不應該以此為榮。 我想你會盡快不為那個可怕的結果做出貢獻。 撇開那個災難性的預測不談,你可能會想,如果人工智能製造商正在從他們的生成人工智能中賺錢,而且他們似乎很享受這種暴利,那麼你也應該分一杯羹。 分享和分享。 AI 製造商應該請求掃描任何網站的許可,然後還要協商為被允許進行掃描而支付的價格。

在信用到期時給予信用。

讓我們暫時給沃爾特斯科特爵士最後一句話:“哦,我們編織的網絡多麼混亂。 當我們第一次練習欺騙時。”

如果您認為欺騙正在進行,這可能適用,或者如果您認為一切都很好、完全直率且合法,則可能不適用。 請慷慨地相信自己仔細考慮過這個問題。 你應得的。

資料來源:https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics-和艾法律/