微軟的 VASA-1 可以只從一張圖片產生逼真的說話臉。

在最近的一份白皮書中,微軟推出了一種新的人工智慧模型,該模型可以產生一個看起來和聽起來都很真實的會說話的頭部,並且只需上傳一張靜態照片和一個語音樣本即可生成。

新模型被命名為VASA-1,它只需要一張肖像風格的圖片和一個語音音頻文件,並將它們融合在一起製作一個帶有面部表情、唇形同步和頭部動作的頭部說話的短影片.製作出來的頭甚至可以唱歌,並且是創作時上傳的聲音。

Microsoft VASA-1 是動畫領域的突破

微軟表示,新的AI模型仍處於研究階段,目前還沒有向公眾發布的計劃,只有微軟研究人員可以接觸到。然而,該公司分享了相當多的演示樣本,這些樣本顯示出令人驚嘆的真實感和嘴唇動作,看起來過於逼真。

資料來源:微軟。

該演示展示了看起來真實的人們,就好像他們坐在攝影機前並被拍攝一樣。頭部的動作很真實,看起來很自然,與音訊相匹配的嘴唇動作也非常出色,但似乎沒有什麼不自然的地方。整體嘴巴的同步性是驚人的。

微軟表示,該模型是為了製作虛擬角色動畫而開發的,並聲稱演示中顯示的所有人物都是合成的,正如他們所說,這些模型是由 OpenAI 的圖像生成器 DALL-E 生成的。因此,我們認為,如果它可以為人工智慧生成的模型製作動畫,那麼顯然它有更大的潛力為任何真人的照片製作動畫,這應該更加真實,並且更容易處理。

Vasa-1 的用例及其潛在的誤用

資料來源:微軟。

如果我們看看VASA-1在實際應用中的潛力,那麼在基線上,它可以用來製作動畫電影中的角色動畫,這將透過自然的面部表情和頭部動作給角色帶來更真實的感覺。出於同樣的原因,另一個用途可能是在電玩遊戲中,例如《俠盜獵車手》等。未來它可能會用於超現實的人工智慧生成的電影或系列,其中的角色可以由圖像生成器生成,並可以由 VASA-1 製作動畫,觀眾甚至可能感覺不到角色不是人類。

除了創造性地使用該工具之外,它還可以被用來創建用於惡意目的的內容。 VASA-1 的潛在濫用可能是其用於深度偽造,因為它將使參與深度偽造創作的任何人都可以輕鬆擴大其不良策略並產生更現實的誤導內容。還記得拜登在初選前用聲音阻止人們投票的機器人電話醜聞嗎?現在,它可能是機器人通話之後的機器人視頻,並且具有非常逼真的人類表情。

潛在的濫用風險可能是微軟將測試僅限於其研究人員的原因。據微軟研究人員稱,與其他一些工具一樣,該工具可用於創建冒充人類的誤導性和欺騙性內容,但他們的目標是積極使用應用程式。 Nvidia 和 Runway AI 也發布了具有相同功能的模型,但 VASA-1 似乎更現實,也是一個有前途的候選人。 

該研究論文可以在這裡查看,微軟的註釋可以在這裡查看。

資料來源:https://www.cryptopolitan.com/microsofts-vasa-1-can-generate-talking-faces/