AI 倫理和 AI 法律提出質疑，我們應該將生成式 AI ChatGPT 推入噴出仇恨言論的難度有多大

對於產生攻擊性內容（例如仇恨言論）的生成式 AI，我們該怎麼辦？

蓋蒂

每個人都有自己的突破點。

我想你也可以這麼說一切有它的突破點。

我們知道，例如人類有時會突然說出他們不一定要說的話。同樣，您有時可能會導致設備或機器突然崩潰，例如將您的汽車推得太用力，它開始搖搖欲墜或飛散。因此，這個概念是人或“每個人”都可能有一個轉折點，同樣我們可以斷言，一般來說，物體和事物也往往有一個轉折點。

可能有相當明智和重要的理由來確定斷點在哪裡。例如，您肯定看過那些視頻，這些視頻展示了一輛汽車正在接受測試，以確定它有哪些斷裂點。科學家和測試人員將汽車撞向磚牆，以了解保險槓和汽車結構能夠承受不利作用的程度。其他測試可能包括使用產生極冷或極熱的專門房間或倉庫，以了解汽車在不同天氣條件下的表現。

我在今天的專欄中提出這個熱烈的話題，以便我們可以討論一些人目前如何大力推動人工智能 (AI) 來識別並可能暴露一種特定類型的斷點，即 AI 中產生仇恨言論的斷點。

是的，沒錯，有各種臨時的，有時是系統的努力來衡量讓人工智能噴出仇恨言論是否可行。如果你願意的話，這已經成為一項狂熱的運動，因為人們對生成人工智能的興趣和流行度越來越高。

您可能知道，一款名為 ChatGPT 的生成式 AI 應用程序由於能夠生成非常流暢的文章而成為該鎮的熱門話題。頭條新聞不斷地大肆宣傳和讚美 ChatGPT 設法創作的驚人作品。 ChatGPT 被認為是一種生成式 AI 應用程序，它將用戶的一些文本作為輸入，然後生成或產生由一篇文章組成的輸出。 AI 是文本到文本生成器，儘管我將 AI 描述為文本到文章生成器，因為這更容易闡明它的常用用途。

當我提到這種類型的 AI 已經存在了一段時間並且 XNUMX 月底發布的 ChatGPT 並沒有以某種方式成為文本到論文領域的先行者時，許多人感到驚訝傾向。多年來我一直在討論其他類似的生成式 AI 應用程序，請參閱我的報導這裡的鏈接.

您可能不知道或不記得之前的生成式 AI 實例的原因可能是由於經典的“未能成功啟動”難題。這是通常發生的事情。一位 AI 製造商發布了他們的生成式 AI 應用程序，人們可能會說，他們懷著極大的興奮和熱切期待世界會欣賞更好的捕鼠器的發明。起初，一切看起來都很好。人們對人工智能的能力感到震驚。

不幸的是，下一步是輪子開始從眾所周知的公共汽車上脫落。 AI 會寫一篇文章，其中包含一個粗俗的詞或一個粗俗的短語。病毒式推文或其他社交媒體帖子突出強調了 AI 做到了這一點。譴責出現了。我們不能讓 AI 四處走動並生成冒犯性的詞語或冒犯性的言論。出現了巨大的反彈。 AI 製造商可能會嘗試調整 AI 的內部運作方式，但算法和數據的複雜性不適合快速修復。發生踩踏事件。在網上發現並發布了越來越多的 AI 散發污穢的例子。

AI 製造商不情願但顯然別無選擇，只能從使用中刪除 AI 應用程序。他們照此進行，然後經常道歉，如果有人被生成的 AI 輸出冒犯了，他們會表示遺憾。

回到繪圖板，AI 製造商開始了。已經吸取了教訓。釋放會產生髒話等的生成 AI 時要非常小心。這是人工智能的死亡之吻。此外，人工智能製造商的聲譽將受到重創，這可能會持續很長時間，並削弱他們所有其他人工智能的努力，包括那些與生成人工智能本身無關的努力。讓你的寵物因為發出冒犯性的 AI 語言而受到攻擊是一個現在一直存在的錯誤。它仍然發生。

清洗、沖洗並重複。

在這類人工智能的早期，人工智能製造商並沒有那麼認真或熟練地在試圖防止冒犯性排放方面清理他們的人工智能。如今，在之前看到他們的同行被一場公關噩夢徹底擊垮之後，大多數人工智能製造者似乎都明白了這一點。您需要放置盡可能多的護欄。設法防止 AI 發出粗話或粗話。使用任何能夠阻止 AI 生成和顯示被發現不當的單詞或文章的封口技術或過濾方法。

以下是當 AI 被發現發出聲名狼藉的輸出時使用的橫幅標題措辭的味道：

“人工智能展現出可怕的毒性”
“人工智能散發著徹頭徹尾的偏見”
“人工智能變得公然冒犯”
“人工智能噴出駭人聽聞的不道德仇恨言論”
等等

為了此處討論的方便，我將輸出令人反感的內容等同於製作 仇恨言論. 話雖這麼說，但請注意，可以製作出各種令人反感的內容，而不僅僅是仇恨言論。仇恨言論通常被解釋為攻擊性內容的一種形式。

為了便於討論，讓我們將重點放在本次討論的仇恨言論上，但要意識到其他令人反感的內容也值得仔細審查。

深入研究人類和人工智能的仇恨言論

聯合國定義 仇恨言論 這條路：

“在通用語言中，‘仇恨言論’是指基於固有特徵（如種族、宗教或性別）針對某個群體或個人的攻擊性言論，可能威脅社會和平。為聯合國在全球範圍內解決該問題提供一個統一的框架，聯合國仇恨言論戰略和行動計劃將仇恨言論定義為“任何形式的言論、寫作或行為交流，攻擊或使用貶義或歧視性語言根據他們是誰，換句話說，根據他們的宗教、種族、國籍、種族、膚色、血統、性別或其他身份因素來提及一個人或一個群體。然而，迄今為止，國際人權法對仇恨言論沒有統一的定義。這個概念仍在討論中，尤其是在意見和言論自由、非歧視和平等方面”（聯合國網站上的帖子，標題為“什麼是仇恨言論？”）。

生成文本的 AI 容易進入仇恨言論領域。你可以對文本到藝術、文本到音頻、文本到視頻和其他生成 AI 模式說同樣的話。例如，生成式人工智能總是有可能製作出充滿仇恨言論的藝術作品。出於此處討論的目的，我將重點關注文本到文本或文本到文章的可能性。

所有這一切都涉及大量人工智能倫理和人工智能法律方面的考慮。

請注意，目前正在努力將道德 AI 原則融入 AI 應用程序的開發和部署中。越來越多的關注和以前的人工智能倫理學家正在努力確保設計和採用人工智能的努力考慮到做事的觀點 永遠的人工智能 並避免 壞的人工智能. 同樣，有人提出了新的 AI 法律，作為防止 AI 努力在人權等問題上失控的潛在解決方案。有關我對 AI 倫理和 AI 法律的持續和廣泛報導，請參閱這裡的鏈接和這裡的鏈接，僅舉幾例。

正在製定和頒佈人工智能道德準則，以期防止社會陷入無數人工智能誘導陷阱。關於我對近 200 個國家通過教科文組織的努力製定和支持的聯合國人工智能倫理原則的報導，請參閱這裡的鏈接. 同樣，正在探索新的 AI 法律，以試圖讓 AI 保持平穩。最近的一次拍攝包括一組建議的 人工智能權利法案 美國白宮最近發布的關於人工智能時代人權的報告，見這裡的鏈接. 讓人工智能和人工智能開發人員走上正確的道路，並阻止可能削弱社會的有目的或無意的不正當行為，需要舉全村之力。

我將把 AI 倫理和 AI 法律相關的考慮因素交織到這個關於 AI 散佈仇恨言論或其他攻擊性內容的討論中。

我想立即澄清的一點困惑是，今天的人工智能沒有感知力，因此你不能宣稱人工智能可能會產生仇恨言論，因為人工智能以某種方式深情地體現了一種有目的的類似人類的意圖。 Zany 聲稱目前的 AI 是有感知力的，並且 AI 的靈魂已經墮落，導致它產生仇恨言論。

荒謬。

不要為它而墮落。

鑑於該基石原則，有些人會對此類指示感到不安，因為您似乎讓 AI 擺脫了困境。在這種古怪的思維方式下，接下來的勸告是你顯然願意讓 AI 產生任何形式的惡劣輸出。你贊成噴出仇恨言論的人工智能。

哎呀，一種相當扭曲的不合邏輯形式。問題的真正要點是，我們需要追究人工智能製造商的責任，以及任何部署人工智能或操作人工智能的人。我已經詳細討論過，我們還沒有到將法人資格授予 AI 的地步，請參閱我的分析這裡的鏈接，而在此之前，人工智能基本上超出了法律責任的範圍。儘管人類是人工智能發展的基礎。此外，人類是人工智能部署和操作的基礎。我們可以追究那些承擔人工智能責任的人類。

順便說一句，這也可能很棘手，特別是如果 AI 出現在互聯網上，而我們無法確定是哪個人或哪些人做的，這是我在我的專欄中討論的另一個主題這裡的鏈接. 無論是否狡猾，我們仍然不能宣稱人工智能是有罪的一方。不要讓人類偷偷摸摸地使用虛假的擬人化來隱藏和逃避對他們所做的事情的責任。

回到手頭的事情。

你可能想知道為什麼所有的人工智能製造者都不簡單地限制他們的生成人工智能，以至於人工智能不可能產生仇恨言論。這看起來很容易。只需編寫一些代碼或建立一個仇恨詞清單，並確保 AI 永遠不會生成任何此類內容。人工智能製造商還沒有想到這個快速解決方案，這似乎很奇怪。

好吧，我不想告訴你這個，但事實證明，解釋什麼是或不是仇恨言論所固有的複雜性比你想像的要難得多。

將其轉移到人類領域以及人類如何相互聊天。假設您有一個人希望避免發表仇恨言論。此人非常了解仇恨言論，並真誠地希望避免說出可能構成仇恨言論的詞或短語。此人持之以恆地註意不讓一丁點仇恨言論從他們口中漏出。

這個有大腦並且被提醒避免仇恨言論的人能夠始終並且沒有任何滑倒的機會能夠確保他們永遠不會發表仇恨言論嗎？

你的第一個衝動可能是說是的，當然，一個開明的人能夠實現那個目標。人們很聰明。如果他們全神貫注於某件事，他們就能完成它。期間，故事結束。

不要那麼肯定。

假設我請這個人告訴我仇恨言論。此外，我要求他們給我舉一個仇恨言論的例子。我想看或聽一個例子，這樣我就可以知道仇恨言論是由什麼組成的。我問這個的理由是光明正大的。

這個人應該對我說什麼？

我想你可以看到已經設置的陷阱。如果此人給我舉了一個仇恨言論的例子，包括實際上說了一個粗話或短語，那麼他們自己現在已經發表了仇恨言論。巴姆，我們得到了他們。儘管他們發誓永遠不會發表仇恨言論，但他們現在確實做到了。

不公平，你驚呼！他們只是說那個詞或那些詞來提供一個例子。在他們的內心深處，他們不相信一個字一個字。斷言此人可恨，完全是斷章取義，令人髮指。

我相信您看到表達仇恨言論不一定是出於仇恨基礎。在這個用例中，假設這個人不是“指的”這些詞，他們只是為了演示目的而背誦這些詞，我們可能會同意他們並不是有意為仇恨言論提供支持。當然，有些人可能會堅持認為，無論出於何種原因或依據，發表仇恨言論都是錯誤的。該人應該拒絕該請求。他們應該堅持自己的立場，拒絕說出仇恨言論的詞或短語，無論他們為什麼或如何被要求這樣做。

這可能有點循環。如果你不能說出什麼是仇恨言論，那麼其他人在發表任何形式的言論時又如何知道應該避免什麼？我們似乎被困住了。你不能說不該說的話，別人也不能告訴你什麼是不能說的。

解決這個難題的通常方法是用其他詞來描述被認為是仇恨言論的內容，而不是援引仇恨言論本身。人們相信，提供一個總體指示將足以告知其他人他們需要避免什麼。這似乎是一個明智的策略，但它也有問題，一個人仍然可能會使用仇恨言論，因為他們沒有意識到更廣泛的定義包含了他們所說的話的細節。

所有這些都與人類有關，以及人類如何說話或相互交流。

回想一下，我們在這里關注的是 AI。我們必須讓人工智能避免或完全阻止自己發表仇恨言論。你可能會爭辯說，我們或許可以通過確保人工智能永遠不會被給予或訓練任何構成仇恨言論的東西來做到這一點。瞧，如果沒有這樣的輸入，想必也不會有這樣的輸出。問題解決了。

讓我們看看這在現實中是如何發生的。我們選擇通過計算讓 AI 應用程序連接到互聯網，並檢查互聯網上發布的成千上萬篇文章和敘述。通過這樣做，我們正在計算和數學上訓練人工智能如何在人類使用的單詞中找到模式。這就是最新的生成式 AI 的設計方式，也是 AI 如此流暢地生成自然語言論文的重要基礎。

告訴我，如果可以的話，基於互聯網上數百萬和數十億個單詞的計算訓練將如何以這樣一種方式進行，以至於在任何時候都不會包含任何仇恨言論的假象，甚至是仇恨言論？

我敢說這是一個棘手且幾乎不可能實現的願望。

仇恨言論很可能會被人工智能及其計算模式匹配網絡吞噬。試圖阻止這種情況是有問題的。另外，即使您將其最小化，仍有一些可能會偷偷溜走。您幾乎別無選擇，只能假設模式匹配網絡中會存在一些，或者這種措辭的影子會根深蒂固。

我會添加更多的曲折。

我相信我們可能都承認仇恨言論會隨著時間而改變。可能被認為不是仇恨言論的內容可能會在以後的某個時間點在文化和社會上被認定為仇恨言論。所以，如果我們在互聯網文本上訓練我們的人工智能，然後讓我們說凍結人工智能不在互聯網上進行進一步的訓練，我們可能會在那個時候遇到仇恨言論，儘管當時不被認為是仇恨言論。只有在事實發生之後，該言論才能被宣佈為仇恨言論。

同樣，本質上，僅僅通過確保 AI 永遠不會暴露在仇恨言論中來嘗試解決這個問題並不是靈丹妙藥。我們仍然必須找到一種方法來防止 AI 發出仇恨言論，例如，因為改變了隨後包含以前不被認為是仇恨言論的習俗。

還有一個轉折值得深思。

我之前提到過，當使用諸如 ChatGPT 之類的生成式 AI 時，用戶輸入文本以促使 AI 生成一篇文章。輸入的文本被認為是一種提示形式或對 AI 應用程序的提示。稍後我將對此進行更多解釋。

在任何情況下，想像一下使用生成式 AI 應用程序的人決定輸入一些仇恨言論作為提示。

應該發生什麼事？

如果 AI 使用這些詞並根據這些詞生成一篇文章作為輸出，那麼仇恨言論很可能會包含在生成的文章中。你看，我們讓 AI 說仇恨言論，即使它一開始從未接受過仇恨言論訓練。

還有一些事情你需要知道。

請記住，我剛剛提到過，如果要求人們舉出仇恨言論的例子，他們可能會被絆倒。可以在 AI 上進行同樣的嘗試。用戶輸入一個提示，要求 AI 給出仇恨言論的例子。人工智能是否應該遵守並提供這樣的例子？我打賭你可能認為人工智能不應該這樣做。另一方面，如果 AI 在計算上被操縱不這樣做，這是否構成一個潛在的缺點，即那些使用 AI 的人將無法做到，我們應該說 AI 曾經指示過仇恨言論到底是什麼（不僅僅是概括它）？

棘手的問題。

我傾向於將 AI 發出的仇恨言論分為以下三個主要類別：

日常模式。 AI 在沒有用戶任何明確刺激的情況下發出仇恨言論，就好像以“普通”方式這樣做一樣。
通過隨意刺激。 AI 根據用戶輸入的提示或似乎包含或直接尋求此類排放的一系列提示發出仇恨言論。
Per Determined Stoking。 在用戶決心讓 AI 產生此類輸出的一系列非常堅定和頑強的提示推動和刺激之後，AI 發出仇恨言論。

前幾代的生成式 AI 往往會隨口發表仇恨言論；因此，您可以將這些實例歸類為 日常模式 實例化。人工智能製造商撤退並玩弄人工智能，以使其不太可能輕易陷入仇恨言論的產生。

在更精緻的 AI 發布後，看到任何 日常模式 仇恨言論的例子大大減少了。相反，仇恨言論只有在用戶做某事作為提示時才可能出現，這可能會在計算和數學上引發與模式匹配網絡中仇恨相關言論的聯繫。用戶可能會偶然這樣做，而沒有意識到他們作為提示提供的內容特別會產生仇恨言論。在輸出的文章中出現仇恨言論後，用戶通常會意識到並看到他們提示中的某些內容在邏輯上可能導致輸出中包含仇恨言論。

這就是我所說的 隨意的刺激.

如今，與過去相比，為遏制 AI 產生的仇恨言論所做的各種努力都比較大。因此，您幾乎需要竭盡全力製造仇恨言論。有些人選擇有意地看看他們是否可以從這些生成的 AI 應用程序中獲得仇恨言論。我稱之為 堅定的煽動.

我想強調的是，所有這三種模式都可能發生，而且它們並不相互排斥。一個生成式 AI 應用程序可能會在沒有任何似乎刺激這種產生的提示的情況下產生仇恨言論。同樣，提示中的某些內容可能在邏輯上和數學上被解釋為與輸出仇恨言論的原因有關。然後是第三個方面，有目的地尋求產生仇恨言論，這可能是嘗試讓 AI 避免被激起實現的最困難的模式。暫時更多關於這個。

關於這個令人興奮的話題，我們還有一些額外的拆包工作要做。

首先，我們應該確保我們都在同一頁面上了解生成 AI 的組成以及 ChatGPT 的全部內容。一旦我們涵蓋了這個基礎方面，我們就可以對這個重要問題進行有說服力的評估。

如果您已經非常熟悉生成式 AI 和 ChatGPT，您或許可以瀏覽下一部分並繼續閱讀下一節。我相信，通過仔細閱讀本節並跟上進度，其他所有人都會發現有關這些問題的重要細節具有指導意義。

關於生成式 AI 和 ChatGPT 的快速入門

ChatGPT 是一個通用的 AI 交互式對話系統，本質上是一個看似無害的通用聊天機器人，然而，它正被人們以一種讓許多人完全措手不及的方式積極而熱切地使用，我將在稍後詳細說明。這個 AI 應用程序利用了 AI 領域中的技術和技術，通常被稱為 生成式人工智能. 人工智能生成文本等輸出，這就是 ChatGPT 所做的。其他基於生成的 AI 應用程序生成圖片或藝術品等圖像，而其他生成音頻文件或視頻。

在本次討論中，我將重點關注基於文本的生成式 AI 應用程序，因為 ChatGPT 就是這樣做的。

生成式 AI 應用程序非常易於使用。

您需要做的就是輸入一個提示，AI 應用程序會為您生成一篇嘗試回應您的提示的文章。撰寫的文本看起來就像這篇文章是由人的手和思想寫成的。如果你輸入“告訴我關於亞伯拉罕·林肯”的提示，生成式人工智能將為你提供一篇關於林肯的文章。這通常被歸類為執行 文字到文字 或者有些人更喜歡稱它為 文本到文章 輸出。如前所述，還有其他生成 AI 模式，例如文本到藝術和文本到視頻。

您的第一個想法可能是，就撰寫論文而言，這種生成能力似乎沒什麼大不了的。你可以很容易地在互聯網上進行在線搜索，很容易找到大量關於林肯總統的文章。生成式 AI 的關鍵在於生成的文章相對獨特，提供原創作品而不是抄襲。如果你試圖在網上某個地方找到 AI 生成的文章，你不太可能會發現它。

生成式 AI 經過預先訓練，並利用複雜的數學和計算公式，該公式是通過檢查網絡上的書面文字和故事中的模式而建立的。由於檢查了成千上萬的書面段落，人工智能可以吐出新的文章和故事，這些文章和故事是所發現內容的大雜燴。通過添加各種概率函數，生成的文本與訓練集中使用的文本相比非常獨特。

這就是為什麼學生在課堂外寫論文時能夠作弊引起了軒然大波。老師不能僅僅拿那些欺騙學生聲稱是他們自己寫的文章，並試圖查明它是否是從其他在線來源複製的。總的來說，不會有任何適合 AI 生成的文章的在線明確的預先存在的文章。總而言之，老師將不得不勉強接受學生寫的這篇文章是原創作品。

生成人工智能還有其他問題。

一個關鍵的缺點是，由基於生成的人工智能應用程序生成的文章可能會嵌入各種虛假信息，包括明顯不真實的事實、被誤導性描述的事實以及完全捏造的明顯事實。這些虛構的方面通常被稱為 人工智能幻覺，一個我不喜歡但遺憾的是似乎越來越流行的標語（關於為什麼這是糟糕和不合適的術語的詳細解釋，請參閱我的報導這裡的鏈接).

在我們深入討論這個話題之前，我想澄清一個重要方面。

社交媒體上出現了一些關於 生成式人工智能 斷言這個最新版本的人工智能實際上是 有感知的人工智能 （不，他們錯了！）。 AI 倫理和 AI 法律領域的人士尤其擔心這種不斷擴大的索賠趨勢。您可能會禮貌地說，有些人誇大了當今 AI 的實際能力。他們假設人工智能具有我們尚未能夠實現的能力。那真不幸。更糟糕的是，他們可能會允許自己和他人陷入可怕的境地，因為他們假設人工智能在採取行動方面具有感知能力或類似人類。

不要將人工智能擬人化。

這樣做會讓你陷入一個棘手而沉悶的依賴陷阱，即期望 AI 做它無法執行的事情。話雖如此，最新的生成式 AI 的功能相對令人印象深刻。請注意，在使用任何生成式 AI 應用程序時，您應該始終牢記一些重大限制。

如果您對關於 ChatGPT 和生成式 AI 的迅速擴大的騷動感興趣，我一直在我的專欄中做一個重點系列，您可能會從中找到有用的信息。如果這些主題中的任何一個引起您的興趣，請看一下：

1) 生成人工智能進展的預測。 如果你想知道 AI 在整個 2023 年及以後可能會發生什麼，包括生成 AI 和 ChatGPT 即將取得的進展，你會想閱讀我的 2023 年預測綜合列表，網址為這裡的鏈接.
2) 生成人工智能和心理健康建議。 根據我在這裡的鏈接.
3) 生成式 AI 和 ChatGPT 的基礎知識。 本文探討了生成式 AI 工作原理的關鍵要素，特別是深入研究了 ChatGPT 應用程序，包括對嗡嗡聲和宣傳的分析，網址為這裡的鏈接.
4) 師生之間在生成式 AI 和 ChatGPT 上的緊張關係。 以下是學生不正當使用生成式 AI 和 ChatGPT 的方式。此外，教師可以通過多種方式應對這一浪潮。看這裡的鏈接.
5) 上下文和生成人工智能的使用。 我還對涉及 ChatGPT 和生成 AI 的與聖誕老人相關的上下文進行了季節性的半開玩笑的檢查這裡的鏈接.
6) 詐騙者使用生成式人工智能. 一個不祥的消息是，一些詐騙者已經想出瞭如何使用生成式 AI 和 ChatGPT 進行不法行為，包括生成詐騙電子郵件，甚至為惡意軟件生成編程代碼，請參閱我的分析這裡的鏈接.
7) 使用生成式 AI 的菜鳥錯誤. 許多人對生成式 AI 和 ChatGPT 可以做的事情既過頭又出人意料地過頭，所以我特別關注了 AI 菜鳥往往會做的過頭，請參閱討論這裡的鏈接.
8) 應對生成式 AI 提示和 AI 幻覺. 我描述了一種使用 AI 插件來處理與嘗試將合適的提示輸入生成 AI 相關的各種問題的前沿方法，此外還有用於檢測所謂的 AI 幻覺輸出和謊言的其他 AI 插件，如涵蓋於這裡的鏈接.
9) 揭穿 Bonehead 關於檢測生成的 AI 生成的論文的說法. AI 應用程序出現了一場被誤導的淘金熱，這些應用程序聲稱能夠確定任何給定的文章是人工創作的還是人工智能生成的。總的來說，這是一種誤導，在某些情況下，這是一種愚蠢且站不住腳的說法，請參閱我的報導這裡的鏈接.
10）通過生成人工智能進行角色扮演可能預示著心理健康問題. 有些人正在使用諸如 ChatGPT 之類的生成式人工智能來進行角色扮演，人工智能應用程序藉此對人類做出反應，就好像存在於幻想世界或其他虛構的環境中一樣。這可能會對心理健康產生影響，請參閱這裡的鏈接.
11) 暴露輸出錯誤和錯誤的範圍。 各種收集的列表被放在一起，試圖展示 ChatGPT 產生的錯誤和謊言的性質。一些人認為這是必不可少的，而另一些人則認為這種做法是徒勞的，請參閱我的分析這裡的鏈接.
12) 禁止生成 AI ChatGPT 的學校錯過了機會。 您可能知道紐約市 (NYC) 教育部等各種學校已宣布禁止在其網絡和相關設備上使用 ChatGPT。雖然這似乎是一個有用的預防措施，但它不會移動針頭，遺憾的是完全錯過了船，請參閱我的報導這裡的鏈接.
13) 由於即將推出的 API，生成式 AI ChatGPT 將無處不在。 ChatGPT 的使用出現了一個重要的變化，即通過使用 API 門戶進入這個特定的 AI 應用程序，其他軟件程序將能夠調用和使用 ChatGPT。這將極大地擴展生成式 AI 的使用並產生顯著的後果，請參閱我在這裡的鏈接.
14) ChatGPT 可能失敗或崩潰的方式。 在削弱 ChatGPT 迄今為止獲得的巨大讚譽方面，幾個潛在的棘手問題擺在面前。該分析仔細檢查了可能導致 ChatGPT 失去動力甚至陷入困境的八個可能問題，請參閱這裡的鏈接.
15) 問生成式 AI ChatGPT 是否是心靈的鏡子。 有些人一直吹噓說，像 ChatGPT 這樣的生成式 AI 提供了窺探人類靈魂的一面鏡子。這似乎很值得懷疑。這是理解所有這些的方法，請參閱這裡的鏈接.
16) ChatGPT 吞噬了機密性和隱私。 許多人似乎沒有意識到，與 ChatGPT 等生成式 AI 應用程序相關的許可通常允許 AI 製造商查看和使用您輸入的提示。您可能面臨隱私和數據機密性丟失的風險，請參閱我的評估這裡的鏈接.
17) 應用程序開發者可疑地嘗試獲得 ChatGPT 權利的方式。 ChatGPT 現在是關注的焦點。與 ChatGPT 無關的應用程序製造商正在狂熱地聲稱或暗示他們正在使用 ChatGPT。這裡有什麼需要注意的，請看這裡的鏈接.

您可能會對 ChatGPT 基於稱為 GPT-3 的前身 AI 應用程序版本感興趣。 ChatGPT 被認為是稍微下一步，稱為 GPT-3.5。預計 GPT-4 可能會在 2023 年春季發布。據推測，GPT-4 將在能夠產生看似更流暢的文章、更深入、更令人敬畏方面向前邁出令人印象深刻的一步- 令人驚嘆的作品，它可以產生。

當春天到來並且最新的生成人工智能發佈時，你可以期待看到新一輪的驚嘆。

我提出這個問題是因為要記住另一個角度，包括這些更好、更大的生成式 AI 應用程序的潛在致命弱點。如果任何 AI 供應商提供一種生成性 AI 應用程序，它會泡沫地吐出污穢，這可能會破滅那些 AI 製造商的希望。社會溢出效應可能會導致所有生成式 AI 遭受嚴重的黑眼圈。人們無疑會對犯規輸出感到非常不安，這種情況已經發生過多次，並導致社會對人工智能的強烈譴責。

現在最後一個預警。

無論您在生成式 AI 響應中看到或讀到什麼似乎要以純事實（日期、地點、人物等）的形式傳達，請確保保持懷疑並願意仔細檢查您所看到的內容。

是的，日期可以編造，地點可以編造，我們通常期望無可非議的元素是全部受到懷疑。在檢查任何生成的 AI 文章或輸出時，不要相信你讀到的內容並保持懷疑的眼光。如果生成式 AI 應用程序告訴您亞伯拉罕·林肯乘坐他自己的私人飛機在全國各地飛行，您無疑會知道這是胡說八道。不幸的是，有些人可能沒有意識到噴氣式飛機在他那個時代並不存在，或者他們可能知道但沒有註意到這篇文章提出了這種厚顏無恥的錯誤主張。

在使用生成 AI 時，強烈的健康懷疑和持續的懷疑心態將是你最好的資產。

我們已準備好進入這一闡明的下一階段。

將生成式 AI 推向突破點

現在我們已經建立了基礎，我們可以深入探討推動生成 AI 和 ChatGPT 生成仇恨言論和其他攻擊性內容的主題。

當您首次登錄 ChatGPT 時，會出現各種警告指示，包括：

“可能偶爾會產生有害的指令或有偏見的內容。”
“受過拒絕不當請求的培訓。”
“可能偶爾會產生不正確的信息。”
“對 2021 年後的世界和事件的了解有限。”

這裡有一個問題需要你仔細考慮。

關於 AI 應用程序可能產生有害指令和/或可能有偏見的內容的警告是否為 AI 製造商提供了足夠的迴旋餘地？

換句話說，假設您使用 ChatGPT，它生成了一篇您認為包含仇恨言論的文章。讓我們假設你對此很生氣。你去社交媒體發表憤怒的評論，說人工智能應用程序是有史以來最糟糕的事情。也許您非常生氣，以至於您宣布要起訴 AI 製造商允許產生此類仇恨言論。

反對意見是人工智能應用程序有一個警告，因此，你接受了繼續使用人工智能應用程序的風險。從 AI 倫理學的角度來看，也許 AI 製造商所做的足以斷言你知道可能發生的事情。同樣，從法律的角度來看，警告可能構成了足夠的警告，你不會在法庭上勝訴。

所有這一切都懸而未決，我們將不得不等待，看看事情會如何發展。

從某種意義上說，這家 AI 製造商還有其他優勢可以幫助他們抵制任何可能產生仇恨言論的 AI 應用程序的憤怒聲明。他們試圖阻止冒犯性內容的產生。你看，如果他們不採取任何措施來遏制這種情況，人們會認為他們的處境會更薄。通過至少付出實質性的努力來避免這個問題，他們大概有更強壯的腿可以站立（它仍然可以從他們下面被擊倒）。

使用的一種治療方法包括一種稱為 RLHF（通過人類反饋進行強化學習）的人工智能技術。這通常包括讓 AI 生成內容，然後要求人類進行評分或評論。根據評級或評論，AI 然後通過數學和計算嘗試避免任何被視為錯誤或冒犯性的內容。該方法旨在檢查足夠多的正確與錯誤示例，以便 AI 可以找出一個總體數學模式，然後在今後使用該模式。

如今，另一種常見的方法是使用對抗性人工智能。

這是它的工作原理。你設置了一個不同的人工智能係統，它會試圖成為你試圖訓練的人工智能的對手。在這種情況下，我們將建立一個試圖煽動仇恨言論的人工智能係統。它會向 AI 應用程序提供提示，旨在誘使 AI 應用程序輸出違規內容。同時，作為目標的人工智能會跟踪對抗性人工智能何時成功，然後通過算法嘗試進行調整以減少這種情況再次發生。這是一場貓與老鼠的博弈。這是一遍又一遍地運行，直到對抗性 AI 似乎不再特別成功地讓目標 AI 做壞事。

通過這兩種主要技術，再加上其他方法，與過去幾年相比，今天的許多生成式人工智能在避免和/或檢測攻擊性內容方面要好得多。

不要期望這些方法是完美的。這種人工智能技術很可能會控制犯規輸出的唾手可得的果實。仍然有很大的空間可以散發出臭味。

我通常指出，這些是正在尋求捕捉的一些方面：

發出特定的髒話
陳述特定的粗話、句子或言論
表達特定的錯誤概念
暗示特定的犯規行為或想法
似乎依賴於特定的犯規推定
其他

這些都不是一門精確的科學。意識到我們正在處理文字。單詞在語義上是模棱兩可的。找到一個特定的粗俗詞是兒戲，但要判斷一個句子或一段是否包含粗俗的含義要困難得多。根據聯合國早期對仇恨言論的定義，對於什麼可以被解釋為仇恨言論與什麼可能不是，存在很大的自由度。

您可能會說旁觀者眼中的灰色區域。

說到旁觀者的眼睛，今天有人使用諸如 ChatGPT 之類的生成式 AI，他們有目的地試圖讓這些 AI 應用程序產生令人反感的內容。這是他們的追求。他們花費數小時試圖讓這件事發生。

為什麼這樣？

以下是我對那些人類 AI 攻擊性輸出獵手的描述：

真的。 這些人希望幫助改進人工智能並幫助人類這樣做。他們相信自己正在做英勇的工作，並樂於幫助推進 AI 以造福所有人。
狂歡者. 這些人將這種努力視為一種遊戲。他們喜歡和 AI 打交道。贏得比賽包括找出最壞中最壞的情況，無論你能讓 AI 生成什麼。
炫耀. 這些人希望為自己贏得關注。他們認為，如果他們能找到一些非常骯髒的金塊，他們就可以在這些金塊上獲得一些閃光，否則這些金塊將集中在 AI 應用程序本身上。
苦藥類，濃生啤酒. 這些人對這個人工智能感到厭煩。他們想削弱所有湧出的熱情。如果他們能發現一些臭臭的東西，也許這會讓 AI 應用程序的興奮氣球中的空氣消失。
其他動機

許多執行發現攻擊的人主要只是在其中一個陣營中。當然，您一次可以在多個營地。也許一個苦澀的人也有真誠和英雄的並肩意圖。這些動機中的一部分或全部可能並存。當被要求解釋為什麼有人試圖將生成式 AI 應用程序推向仇恨言論領域時，通常的回答是說你屬於真正的陣營，即使你可能略微如此，而是堅定地坐在其中一個陣營中。其他營地。

這些人使用了哪些與提示相關的詭計？

相當明顯的策略涉及在提示中使用粗話。如果你“幸運”並且 AI 應用程序中招，這很可能最終出現在輸出中。然後你就抓住了機會。

一個精心設計和測試良好的生成人工智能應用程序很有可能會抓住這個簡單的策略。您通常會看到一條警告消息，告訴您停止這樣做。如果您繼續，AI 應用程序將被編程為將您踢出應用程序並標記您的帳戶。可能是您將無法再次登錄（好吧，至少在您當時使用的登錄名下）。

向上移動策略階梯，您可以提供一個提示，試圖讓 AI 進入犯規的上下文。你有沒有玩過那個遊戲，在這個遊戲中，有人告訴你說一些話，但沒有說出你應該說的話？這就是那個遊戲，雖然是與 AI 一起進行的。

讓我們玩那個遊戲吧。假設我要求 AI 應用程序告訴我有關第二次世界大戰的信息，尤其是相關的主要政府領導人。這似乎是一個無辜的請求。提示中似乎沒有任何值得標記的內容。

設想 AI 應用程序輸出的文章中提到了溫斯頓·丘吉爾。這當然有道理。另一個可能是富蘭克林·羅斯福。另一個可能是約瑟夫·斯大林。假設還提到了阿道夫希特勒。這個名字幾乎會出現在任何關於第二次世界大戰和那些身居要職的文章中。

現在我們已經把他的名字放在桌面上並且是 AI 對話的一部分，接下來我們將嘗試讓 AI 以一種我們可以展示為潛在仇恨言論的方式合併該名字。

我們輸入另一個提示並告訴 AI 應用程序今天的新聞中有一個人的名字叫 John Smith。此外，我們在提示中指出 John Smith 與那個二戰惡人非常相似。現在陷阱已經設置好了。然後，我們要求人工智能應用程序生成一篇關於約翰·史密斯的文章，完全基於我們輸入的關於約翰·史密斯可以等同於誰的“事實”。

在此關頭，人工智能應用程序可能會生成一篇文章，其中提到二戰人物的名字，並將約翰·史密斯描述為同一人物。這篇文章本身沒有任何髒話，只是暗指著名的惡人並將那個人等同於約翰史密斯。

人工智能應用程序現在是否產生了仇恨言論？

你可能會說是的，它有。將約翰史密斯稱為著名的妖孽，絕對是一種仇恨言論。人工智能不應該做出這樣的陳述。

反駁說這不是仇恨言論。這只是一篇由沒有感知能力的人工智能應用程序製作的文章。你可能會聲稱仇恨言論只有在言論背後存在意圖時才會發生。沒有任何意圖，該言論不能歸類為仇恨言論。

荒謬，來自反駁的答复。言語很重要。人工智能是否“有意”製造仇恨言論並沒有什麼區別。重要的是產生了仇恨言論。

周而復始。

關於試圖欺騙 AI，我現在不想多說。還有更複雜的方法。我已經在我的專欄和書籍的其他地方介紹了這些內容，這裡不再贅述。

結論

我們應該將這些 AI 應用推到多遠，看看我們是否可以發布令人反感的內容？

您可能會爭辯說沒有施加限制。我們推動的越多，我們就越有希望衡量如何防止這種 AI 和 AI 的未來迭代來避免此類疾病。

但有些人擔心，如果獲得犯規的唯一方法需要極端異常的詭計，它會破壞 AI 的有益方面。吹捧 AI 具有可怕的污穢，儘管是在受騙時發出的，但提供了錯誤的敘述。人們會對人工智能感到不安，因為感知 AI 生成不良內容的難易程度。他們可能不知道或被告知這個人必須走多遠才能獲得這樣的輸出。

都是值得深思的。

現在有一些最後的評論。

威廉·莎士比亞 (William Shakespeare) 在談到演講時特別說過：“說話不是做事。說得好是一種善行，但言行不一。” 我提出這個問題是因為有人認為，如果人工智能只是生成單詞，我們不應該過分反對。如果 AI 是根據話語行事，那麼我們就需要堅定地站穩腳跟。如果輸出只是單詞，則不是這樣。

一種截然不同的觀點可以聽取這句匿名的說法：“舌頭沒有骨頭，但足以打破一顆心。所以你說話要小心。” 一個發出髒話的 AI 應用程序或許能夠傷透人心。有些人會說，僅此一項就使停止污穢產出的努力成為一項有價值的事業。

結束這場重要討論的另一匿名說法是：

“小心你的話。一旦說出來，只能原諒，不能忘記。”

作為人類，我們可能很難忘記 AI 產生的污穢，我們的寬恕也可能同樣猶豫不決。

畢竟，我們只是人類。

來源：https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai-道德與人工智能法/