Nvidia 的新文本到 3D 對工程和產品設計意味著什麼

TL;博士:生成式 AI 正在以令人振奮的速度發展。 Nvidia 的最新算法將文本轉換為 3D 網格的速度是兩個月前發布的項目的兩倍。 這意味著現在的技術能力已經超過了我們與他們合作的能力。

上週 Nvidia 科學家展示了生成 AI 空間發展的指數級速度。 這種活動的爆炸式增長——尤其是在過去 9 個月中尤為明顯——將對生活的方方面面產生影響,尤其是在產品設計、工程和生產方面。 這些變化將使該行業擺脫思想交流方式的結構性限制,加快創新周期,並最終實現其可持續發展承諾。

多年來一直被告知人工智能將從根本上改變我們的工作方式,但很少有人認為創意部門會成為其首批受害者。 3 年 GPT-2020 的類人文本生成器的出現使人們更加關注可能性。 從那以後,這是一段瘋狂的旅程:DALL-E(文本到圖像)、Whisper(語音識別)和最近的 Stable Diffusion(文本到圖像)不僅提高了語音和視覺 AI 工具的能力,而且減少了使用它們所需的資源(從 GPT-175 的 3 億個參數減少到穩定擴散的 900 億個)。

Stable Diffusion 的大小意味著不到 5gb 的磁盤空間——能夠在任何筆記本電腦上運行。 不僅; 與 OpenAI(主要由微軟資助並發布 GPT-3、DALL-E 和 Whisper)不同,Stable Diffusion 是開源的,這意味著其他人可以更容易地在其學習的基礎上進行構建。 這意味著我們只是看到了創新周期的開始——正如 Nvidia 的論文現在所顯示的那樣,未來還有很多。

Stable Diffusion 的支持者 (stability.ai) 通過向其他團隊提供技術和財政資助,進一步推動這一趨勢,將探索帶入新的方向。 此外,大量項目正在使這些工具可供更廣泛的用戶使用。 其中包括開源設計工具 Blender 的插件,以及 Adob​​e 專有的 Photoshop 等效插件。 對這些工具的完整 API 訪問由大量風險投資資助,這意味著數億軟件開發人員,而不僅僅是幾十萬數據工程師,現在將在這些算法上創建他們自己的工具。

語音、圖像和文本是最先被這些技術顛覆的垂直領域。 但 3D 也不甘落後。 除了利基生成藝術,卡通顯然是第一個應用點。 已經有一個基於穩定擴散的神奇寶貝生成器。 接下來是視覺效果和電影。 但許多其他行業可能會被打亂——其中以 Interiorai.com 為首的室內設計行業。

在所有這些興奮中,將創新應用於設計與工程感覺像是事後才想到的。 然而,它很可能是最終受影響最嚴重的地區。 當然,最初存在挑戰:首先,Stable Diffusion 及其同胞還不是很精確。 這對卡通來說不是問題,但對於任何將文本轉換為工業環境中使用的全 3D 幾何圖形的嘗試來說,這都是一個重大挑戰。 這是一個剛剛起步的領域(一個名為 Bits101 的項目於 2015 年在以色列啟動)。 這可能是該行業的聖杯,但還有許多中間挑戰可能更容易解決。 其中包括改進的對象識別(Yolo 算法已經被使用並取得了很好的效果),這將導致改進引用和註釋——提高質量並減少錯誤。 插件還應該使使用生成式 AI 開發基本設計(基元)變得更容易,然後可以在設計工具中進一步編輯這些設計以根據需要提高容忍度。 這是一種已經在 Altair 的 Inspire 中使用的方法,它使用有限元分析來做同樣的事情。 這些基元還可以作為帶註釋模型的綜合數據庫,而這在 3D CAD 行業中是非常缺乏的。 Physna 的 CEO 和創始人 在一篇文章中指出了這一點 詳細介紹了他們自己使用這些新穎方法創建詳細 3D 設計的嘗試,這也突出了使用合成數據驅動這些算法的一些缺陷 從 3D 繪圖創建 2D 設計是另一個潛在的應用領域,智能 CAM 也是如此——從刀具磨損庫以確定最佳加工策略。

這些挑戰本身很重要且有利可圖。 然而,它們的主要影響將是通過最終減少對 3D 設計來傳達意圖的依賴來幫助改進從創意到設計的路徑。 設計,無論是 2D 還是 3D,都是將客戶需求轉化為最終產品的主要方式。 這限制了行業,因為這些設計就像一個黑匣子,所有這些有價值的客戶洞察、製造限制和公司目標都存儲在其中,無法解開,但可以單獨識別。 這意味著當事情發生變化時,簡單地調整設計幾乎是不可能的。 這就是為什麼像 3D 打印這樣的製造業創新需要很長時間才能被採用,並且長期讓短期投資者失望。 儘管飛機的生產壽命超過 20 年,但構成飛機的部件從設計之時就已“固定”。 幾乎沒有創新的餘地——這些必須等待下一代的推出。

能夠更改單個約束並允許諸如穩定擴散之類的算法重構設計和生產參數將顯著加快新創新的採用,並使我們能夠更快地構建更輕、性能更好的產品。 正如他們在一級方程式或系統設計中所做的那樣,未來的工程師將充當約束經理,能夠用文字和參考數據源來表達產品的目標和限制是什麼。

如果不以這種方式加快新產品和現有產品的工程流程,我們幾乎無法實現我們必須為自己設定的雄心勃勃的可持續發展目標。 為此,我們必須首先就一種語言達成一致,我們可以使用這種語言來超越設計進行交流。 這種新的語義模型是上述創新的明顯差距。 許多公司已經開始嘗試使用它,例如 nTopology 及其場的概念. 然而,與語義模型將提供的算法不同,變化的速度很慢。 據報導,Nvidia 的新算法速度是之前的兩倍多 夢幻融合,發佈時間不到 2 個月前。 產品和工程公司現在需要努力以新的、面向未來的方式捕捉他們的想法,以便充分利用這種生成式 AI 的爆炸式增長所帶來的可能性。 算法的變化速度再次表明,摩爾斯定律適用於工具數字化的任何地方。 儘管任務緊迫,但挑戰仍然是我們人類無法接受這種變化並部署能夠釋放其潛力的新通信方法。

資料來源:https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/