超逼真！AI自動影片生成

Posted on 2019/07/02 in 人工智慧, 圖像辨識與電腦視覺, 技術 with 沒有迴響 3,945 views

超逼真！AI自動影片生成
撰文／林采萱

圖形處理器大廠NVIDIA透過對抗式生成網絡（GAN）建立的新影像合成技術，只要提供簡單的圖像線條或草圖框架，電腦便可自動生成猶如真實世界般的3D場景！

由色塊到影像

人是視覺導向的生物。我們喜歡自然、喜歡美的事物，也因此我們想盡辦法讓影像變得更美好。圖片合成早已不是問題，尤其Adobe系列軟體更擴展圖片編修及各種合成的應用，人人都有能力讓自己變得更美。然而，影像的世界不僅止於圖片。影片剪輯，甚至合成的難度，是圖片合成技術無法比擬的，尤其動畫的開發更需耗費數年。不過現在救星出現了！

一般來說，一秒要有30張連續圖片快速播放，才能在人眼中看起來是順暢的影像。所以對於傳統手繪動畫來說，一秒便須繪製至少30張圖。若要完成片長2小時的電影，則需要上萬張，非常耗費人力與時間。直到電腦動畫出現後，以向量圖形縮減作畫時間。可是隨著電腦遊戲、虛擬實境的出現，電腦動畫的製作時間仍然太長，技術進展幅度無法滿足需求。例如，去年底（2018）甫開賣即突破多項銷售紀錄的電玩遊戲《碧血狂殺2》（Red Dead Redemption II），遊戲中動畫場景的創建便是一千名動畫製作人員耗費逾8年的時間才完成。

NDIVIA在加拿大蒙特婁舉行的人工智慧會議NeurIPS上所發表的Vid2Vid，是圖片到圖片合成技術的進階版本，可依據簡單的影像輸入，輸出逼真、精緻的影片，且成果優於目前其他方法：僅輸入由色塊構成的影像，經過神經網絡運算後，電腦便可合成出長30秒、畫質2K解析度的逼真街景影片；透過人為參數調整，更可改變街景，歐風建築或現代建築背景，任君選擇。這項NVIDIA新開發的影片合成技術，將可大幅縮短影像渲染時間，甚至自動合成影片，大幅降低動畫及特效的製作成本。

左上為由色塊構成的輸入影片，右上為pix2pixHD生成之影像，左下為COVST生成之影像，右下為本文所提方法生成之影像，按此可觀看影片。

GAN

然而要生成如此真實的影片，除了要處理場景與場景間的融合問題之外，還要讓每一幀圖像有連續關係、考量影像的時間變化。為了處理複雜的影片變換，團隊使用對抗式生成網絡（Generative Adversarial Network，GAN）框架。自多年前由Google提出後，GAN已成為近期機器學習中最新穎且進展最快速的非監督式演算法，應用範圍也更廣泛。

這個方法主要利用生成器（Generator）與判別器（Discriminator）間的相互競爭，誘使彼此進步：前者負責生成影像或音頻，後者扮演監督、辨偽者的角色；生成器透過不斷優化來欺瞞判別器，判別器則想盡辦法找出生成器的破綻，直到最終輸出人眼真假難辨的影像。

儘管如此，GAN在影片生成上，卻時常有影像不連貫的問題，每一幀格間常常會出現不自然地抖動。而Vid2Vid這個方法，是以先前發表的pix2pixHD技術為基礎，再加入時序限制、光流法（optic flow）。且其特殊之處在於使用「條件圖片判別器」（Conditional image discriminator）以及「條件影片判別器」（Conditional video discriminator）共兩種判別器，導正「序列生成器」（Sequential generator）的生成結果，確保影像的解析度與連貫性。

光流法

為了簡化影格與影格間的相容問題，研究員採用馬可夫模型（Markov Model）生成每一幀影格，但其中包含大量無用的資訊，徒增計算時間。故透過檢測圖像像素強度（值）的變化，來推斷物體移動速度及方向，有效掌握圖像間的轉換關係，此謂「光流法」。

通常影片主體的變動較大，而背景則幾乎保持一致，兩者光流走向不同。因此前景、後景通常會分開建模，來加快收斂速度。以街景圖為例：行人、車輛等前景的變動幅度較大，光流計算難度較高；道路、樹木等背景則通常沒有什麼改變，所以光流計算較準確。即使如此，GAN在較複雜的場景，例如前述的街景影片中，仍會出現道路白線突然消失等細節上的問題。