NVIDIA 最新黑科技:用 AI 自動”腦補”生成超級慢動作


line banner

圖、文/品玩 Pingwest
慢動作是當今影視作品中經常用到的技術,能更加吸引觀眾目光,讓人們看到正常速度下看不到的細節,帶來視覺衝擊;把人們更好地帶入角色的腦海,傳遞情感。

隨著技術進步,如今我們的手機也可以拍慢動作了。如果只是發個臉書、Instagram,iPhone 相機裡的 Slow-Motion 絕對夠用了!

但如果想要拍專業級的慢動作呢?你往往需要一台相當高級的相機。然而一般的慢鏡頭相機都是 1000fps(每秒 1000 幀)起跳,幾千美金都是正常的;專業級則要到 3000fps 甚至更上萬 fps,價格往往要上萬美元了。

所以並不是所有人都能成為 The Slow Mo Guys 啊……

上面圖片就是來自The Slow Mo Guys 的影片。看看,用十幾萬刀的慢鏡頭相機拍出來的就是不一樣……

如果換成低幀率的相機呢,就變成了這樣:

為什麼一點都不連貫呢?因為慢鏡頭的原理就是用高幀率拍攝,幀率越高,按照60或者120fps 的正常幀率播放時就會顯得越順滑。

相機本身幀率低,然後強行慢放,還能有什麼好效果啊?

但如果非要如此呢?

隆重介紹NVIDIA最近發表的一個新技術:機器學習自動生成慢鏡頭:

靠算法來完成的慢動作

傳統的慢鏡頭,是因為相機真的拍到了那麼多幀的畫面。

而相信你也看懂了,NVIDIA 這個黑科技並不需要那麼多幀:它是用算法來給標準影片補充更多的畫面,從而將其變成一段高幀率影片,也就有了慢動作。

這是什麼意思呢?用下面這張圖來舉例,比方說正常相機拍到的是下面那組的 10幀,NVIDIA黑科技就是用計算「強行」生成額外的畫面,插在已有的畫面中間。

這些新生成的畫面,到底應該長什麼樣,就全靠算法來模擬了。過去也有類似的作法,效果並不好,而從等等的影片裡,你也看出來 NVIDIA已經遠遠超過以假亂真的程度了——這明明就是真的慢鏡頭嘛!

這項科技的名字,叫做「可變長度多幀插值」(Variable-Length Multi-Frame Interpolation)。

它可以在標準影片的基礎上,以令人難以想像的準確度,生成新的「假畫面」,進而變成流暢且清晰的慢動作影片。原始影片則必須達到或高於 30fps。

最厲害的是,這個慢鏡頭,你想要多慢就可以多慢,比如可以變成 60fps,就是已有的每兩幀之間多插一幀;也可以變成 900 幀,也就是每兩個畫面之間多插 29 個畫面……

NVIDIA將這項技術形像地稱為:超級慢動作 

而且NVIDIA表示,這個算法在測試中「比已有的最高級方法效果都更好」。

比如下圖中展示了六個同類的算法,可以看出前五個都有不同程度的畫面變形,f 的真實度最好,也正是NVIDIA的技術。

 AI 腦補多少?

這項所謂的多幀插值技術,其實並不是什麼新鮮東西。

如果你還記得小時候看電視,看球賽感覺特別順暢,那麼恭喜你:你已經感受過一個名叫動態插值的技術了……

這是因為在很早以前,電視就有這個能力了,它可以對兩幀畫面進行一定程度的複制和演化,生成新的一個畫面,然後插進去。

NVIDIA的新算法也是兩幀之間,但名字裡「可變多幀」意思是可以在任意兩幀之間完成插值,其中插值和遮擋推理會在一個端對端捲積神經網路上同時進行建模。

比方說原影片的1、2、3 幀,NVIDIA的黑科技可以在1 和3 之間新生成一個,跟真實的2 幀進行比對,從而優化算法。

所有人都可以這樣做,為什麼NVIDIA贏了?答案是顯而易見的:他們坐擁著大量的顯卡……

在訓練算法過程中,NVIDIA使用了Tesla V100 GPU,以及改良後的PyTorch 深度學習框架。NVIDIA共使用了1132 段影片,共37.6萬獨立影片幀數。

為了更直觀的展現自己的成果,NVIDIA還真和The Slow Mo Guys 合作了。開頭的影片裡展示了NVIDIA用他們發在網上的慢鏡頭影片進一步生成的「更慢鏡頭」影片,效果可以說相當驚人。

AI 的這次突破背後更重要的是,它讓慢動作製作有了擺脫硬體約束的可能。

NVIDIA在論文中表示,他們希望未來通過雲端完成大部分處理過程,進而讓這項技術能在消費性電子產品上普及。

這句話的意思是:以後你可以在手機上隨便拍拍,就自動給你做出超慢鏡頭……

是不是很值得期待?

只不過到那時,我們可能又要遇到另一個問題:

當影片裡面一大半的幀都是AI 強行「瞎編」出來的,那還算的上是真實的影片嗎?