超逼真!AI自動影片生成

超逼真!AI自動影片生成

Print Friendly

超逼真!AI自動影片生成
撰文/林采萱

圖形處理器大廠NVIDIA透過對抗式生成網絡(GAN)建立的新影像合成技術,只要提供簡單的圖像線條或草圖框架,電腦便可自動生成猶如真實世界般的3D場景!

由色塊到影像

人是視覺導向的生物。我們喜歡自然、喜歡美的事物,也因此我們想盡辦法讓影像變得更美好。圖片合成早已不是問題,尤其Adobe系列軟體更擴展圖片編修及各種合成的應用,人人都有能力讓自己變得更美。然而,影像的世界不僅止於圖片。影片剪輯,甚至合成的難度,是圖片合成技術無法比擬的,尤其動畫的開發更需耗費數年。不過現在救星出現了!

一般來說,一秒要有30張連續圖片快速播放,才能在人眼中看起來是順暢的影像。所以對於傳統手繪動畫來說,一秒便須繪製至少30張圖。若要完成片長2小時的電影,則需要上萬張,非常耗費人力與時間。直到電腦動畫出現後,以向量圖形縮減作畫時間。可是隨著電腦遊戲、虛擬實境的出現,電腦動畫的製作時間仍然太長,技術進展幅度無法滿足需求。例如,去年底(2018)甫開賣即突破多項銷售紀錄的電玩遊戲《碧血狂殺2》(Red Dead Redemption II),遊戲中動畫場景的創建便是一千名動畫製作人員耗費逾8年的時間才完成。

NDIVIA在加拿大蒙特婁舉行的人工智慧會議NeurIPS上所發表的Vid2Vid,是圖片到圖片合成技術的進階版本,可依據簡單的影像輸入,輸出逼真、精緻的影片,且成果優於目前其他方法:僅輸入由色塊構成的影像,經過神經網絡運算後,電腦便可合成出長30秒、畫質2K解析度的逼真街景影片;透過人為參數調整,更可改變街景,歐風建築或現代建築背景,任君選擇。這項NVIDIA新開發的影片合成技術,將可大幅縮短影像渲染時間,甚至自動合成影片,大幅降低動畫及特效的製作成本。

左上為由色塊構成的輸入影片,右上為pix2pixHD生成之影像,左下為COVST生成之影像,右下為本文所提方法生成之影像,按此可觀看影片

GAN

然而要生成如此真實的影片,除了要處理場景與場景間的融合問題之外,還要讓每一幀圖像有連續關係、考量影像的時間變化。為了處理複雜的影片變換,團隊使用對抗式生成網絡(Generative Adversarial Network,GAN)框架。自多年前由Google提出後,GAN已成為近期機器學習中最新穎且進展最快速的非監督式演算法,應用範圍也更廣泛。

這個方法主要利用生成器(Generator)與判別器(Discriminator)間的相互競爭,誘使彼此進步:前者負責生成影像或音頻,後者扮演監督、辨偽者的角色;生成器透過不斷優化來欺瞞判別器,判別器則想盡辦法找出生成器的破綻,直到最終輸出人眼真假難辨的影像。

儘管如此,GAN在影片生成上,卻時常有影像不連貫的問題,每一幀格間常常會出現不自然地抖動。而Vid2Vid這個方法,是以先前發表的pix2pixHD技術為基礎,再加入時序限制、光流法(optic flow)。且其特殊之處在於使用「條件圖片判別器」(Conditional image discriminator)以及「條件影片判別器」(Conditional video discriminator)共兩種判別器,導正「序列生成器」(Sequential generator)的生成結果,確保影像的解析度與連貫性。

光流法

為了簡化影格與影格間的相容問題,研究員採用馬可夫模型(Markov Model)生成每一幀影格,但其中包含大量無用的資訊,徒增計算時間。故透過檢測圖像像素強度(值)的變化,來推斷物體移動速度及方向,有效掌握圖像間的轉換關係,此謂「光流法」。

通常影片主體的變動較大,而背景則幾乎保持一致,兩者光流走向不同。因此前景、後景通常會分開建模,來加快收斂速度。以街景圖為例:行人、車輛等前景的變動幅度較大,光流計算難度較高;道路、樹木等背景則通常沒有什麼改變,所以光流計算較準確。即使如此,GAN在較複雜的場景,例如前述的街景影片中,仍會出現道路白線突然消失等細節上的問題。

三組合成前後的跳舞圖片。每一組圖的左圖為原始跳舞影片,中間小圖為提取出來的跳舞姿勢,右圖為合成後的跳舞影片,按此可觀看影片

除街景合成外,研究團隊也嘗試利用簡單輪廓合成表情、動作平滑且自然的談話或舞蹈影像,除了肢體動作栩栩如生外,連光影的晃動也都毫無不協和之處,也因此在公開時引起軒然大波。

Vid2Vid無疑是新一代影像合成與處理技術的革新,除動畫及特效應用外,料也將應用於自駕車的訓練之中。

 

參考資料

  1. T.C. Wang, M.Y. Liu, A. Tao, J. Kautz, and B. Catanzaro, “Video-to-Video Synthesis“, arXiv, 2018.
  2. T.C. Wang, M.Y. Liu, A. Tao, J. Kautz, and B. Catanzaro, “High-resolution image synthesis and semantic manipulation with conditional gans“, arXiv, 2018.
  3. Will Knight. “AI software can dream up an entire digital world from a simple sketch“. MIT Technology Review, 2018.

(本文由教育部補助「AI報報─AI科普推廣計畫」執行團隊編譯)

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *


6 − = 0