NVIDIA 最新黑科技：用 AI 自動"腦補"生成超級慢動作 - 蘋果仁

圖、文／品玩 Pingwest
慢動作是當今影視作品中經常用到的技術，能更加吸引觀眾目光，讓人們看到正常速度下看不到的細節，帶來視覺衝擊；把人們更好地帶入角色的腦海，傳遞情感。

隨著技術進步，如今我們的手機也可以拍慢動作了。如果只是發個臉書、Instagram，iPhone 相機裡的 Slow-Motion 絕對夠用了！

但如果想要拍專業級的慢動作呢？你往往需要一台相當高級的相機。然而一般的慢鏡頭相機都是 1000fps（每秒 1000 幀）起跳，幾千美金都是正常的；專業級則要到 3000fps 甚至更上萬 fps，價格往往要上萬美元了。

所以並不是所有人都能成為 The Slow Mo Guys 啊……

上面圖片就是來自The Slow Mo Guys 的影片。看看，用十幾萬刀的慢鏡頭相機拍出來的就是不一樣……

如果換成低幀率的相機呢，就變成了這樣：

為什麼一點都不連貫呢？因為慢鏡頭的原理就是用高幀率拍攝，幀率越高，按照60或者120fps 的正常幀率播放時就會顯得越順滑。

相機本身幀率低，然後強行慢放，還能有什麼好效果啊？

但如果非要如此呢？

隆重介紹NVIDIA最近發表的一個新技術：機器學習自動生成慢鏡頭：

靠算法來完成的慢動作

傳統的慢鏡頭，是因為相機真的拍到了那麼多幀的畫面。

而相信你也看懂了，NVIDIA 這個黑科技並不需要那麼多幀：它是用算法來給標準影片補充更多的畫面，從而將其變成一段高幀率影片，也就有了慢動作。

這是什麼意思呢？用下面這張圖來舉例，比方說正常相機拍到的是下面那組的 10幀，NVIDIA黑科技就是用計算「強行」生成額外的畫面，插在已有的畫面中間。

這些新生成的畫面，到底應該長什麼樣，就全靠算法來模擬了。過去也有類似的作法，效果並不好，而從等等的影片裡，你也看出來 NVIDIA已經遠遠超過以假亂真的程度了——這明明就是真的慢鏡頭嘛！

這項科技的名字，叫做「可變長度多幀插值」(Variable-Length Multi-Frame Interpolation)。

它可以在標準影片的基礎上，以令人難以想像的準確度，生成新的「假畫面」，進而變成流暢且清晰的慢動作影片。原始影片則必須達到或高於 30fps。

最厲害的是，這個慢鏡頭，你想要多慢就可以多慢，比如可以變成 60fps，就是已有的每兩幀之間多插一幀；也可以變成 900 幀，也就是每兩個畫面之間多插 29 個畫面……

NVIDIA將這項技術形像地稱為：超級慢動作

而且NVIDIA表示，這個算法在測試中「比已有的最高級方法效果都更好」。

比如下圖中展示了六個同類的算法，可以看出前五個都有不同程度的畫面變形，f 的真實度最好，也正是NVIDIA的技術。

這項所謂的多幀插值技術，其實並不是什麼新鮮東西。

如果你還記得小時候看電視，看球賽感覺特別順暢，那麼恭喜你：你已經感受過一個名叫動態插值的技術了……

這是因為在很早以前，電視就有這個能力了，它可以對兩幀畫面進行一定程度的複制和演化，生成新的一個畫面，然後插進去。

NVIDIA的新算法也是兩幀之間，但名字裡「可變多幀」意思是可以在任意兩幀之間完成插值，其中插值和遮擋推理會在一個端對端的捲積神經網路上同時進行建模。

比方說原影片的1、2、3 幀，NVIDIA的黑科技可以在1 和3 之間新生成一個，跟真實的2 幀進行比對，從而優化算法。

所有人都可以這樣做，為什麼NVIDIA贏了？答案是顯而易見的：他們坐擁著大量的顯卡……

在訓練算法過程中，NVIDIA使用了Tesla V100 GPU，以及改良後的PyTorch 深度學習框架。NVIDIA共使用了1132 段影片，共37.6萬獨立影片幀數。

為了更直觀的展現自己的成果，NVIDIA還真和The Slow Mo Guys 合作了。開頭的影片裡展示了NVIDIA用他們發在網上的慢鏡頭影片進一步生成的「更慢鏡頭」影片，效果可以說相當驚人。

AI 的這次突破背後更重要的是，它讓慢動作製作有了擺脫硬體約束的可能。

NVIDIA在論文中表示，他們希望未來通過雲端完成大部分處理過程，進而讓這項技術能在消費性電子產品上普及。

這句話的意思是：以後你可以在手機上隨便拍拍，就自動給你做出超慢鏡頭……

是不是很值得期待？

只不過到那時，我們可能又要遇到另一個問題：

當影片裡面一大半的幀都是AI 強行「瞎編」出來的，那還算的上是真實的影片嗎？