圖、文/品玩,蘋果仁授權轉載
在經典計算技術的時代,推動進步的是英特爾和由它發揚光大的摩爾定律。2012 年之後,當計算技術進入了名為「深度學習」的全新時代,創辦於1993 年的NVIDIA卻成為了強勢黑馬。
「NVIDIA 透過深度學習平台所取得的創新,許多都已成為世界標準。我們以遠超摩爾定律的速度推動計算性能飛速增長,促進健康、交通、科學探索等無數領域的突破。」在一場演講中,創辦人兼 CEO 黃仁勳(Jensen Huang) 自豪地對數千名觀眾表示。
去年,站在同一個舞台,黃仁勳說他一直想要找到摩爾定律之後的路。而以神經網絡為基礎的人工智慧,其爆發式發展到了2018年已經過去了五年。而在這五年裡,GPGPU(通用圖形處理器)成為了人工智慧研發的利器,在計算密集型的深度學習任務上獨步天下。NVIDIA指出,和五年前的Ferml GPU架構相比,最新一代的Volta GPU架構的浮點計算能力提升了25倍。
「摩爾定律10 年5 倍,」黃仁勳說,「這就是我們超越摩爾定律的證明。」
NVIDIA開發者社群的擴張迅速,印證了黃仁勳大膽的聲明。該公司統計,GPU 開發者在今年將達到82 萬人,比五年前增長了5 倍;在NVIDIAGPU 上開發必備的並行計算架構工具包CUDA,下載數量超過了800 萬,其中約一半是在過去一年裡下載的。不僅如此,該公司提供的GPU 加速技術還被世界上大量超級計算機協同採用,其Volta GPU 為美國的Summit 和Sierra 兩大超算增加了大約100 PFLOPS(千萬億次浮點計算能力)。
在美國時間3月27日的NVIDIAGPU技術大會(GTC 2018)上,該公司帶來了多個在深度學習、自動駕駛和機器人領域足以掀起浪潮的新產品。其中最為重頭的,則是一年一度的新核彈級顯卡——這次,並不是GTX 11系列,也不是傳聞甚囂塵上的「礦卡」,而是一台被黃仁勳稱為「桌面超級計算機」的工作站:NVIDIA DGX-2。
DGX-2 是一台專門用於人工智慧訓練和/或推理任務的桌面計算機:
這是它的內部結構:
你可以看到,在圖中1 和2 的位置看起來是很多塊晶片。其實他們是 NVIDIA 的 Tesla V100 Volta 架構 GPGPU,單枚算力達到雙精度 7.8 TFLOPS(萬億次浮點計算)、單精度 15.7TFLOPS、深度學習 125TFLOPS。
而DGX-2單機箱安裝了16枚V100,總體性能達到了驚人的2PFLOPS ——業界第一台超過千萬億次浮點計算能力的單機箱計算機——稱它為超級計算機或許並不浮誇。
但DGX-2 的算力並非靠堆疊出來,如果它們之間不能實現高帶寬的數據互通則無意義。
時間倒回兩年前,NVIDIA有意在深度學習的設備市場上對英特爾發起直接挑戰,推出了Pascal 架構的P100 GPGPU。在當時,主流服務器PCIe 總線接口的帶寬和時延,已經無法滿足NVIDIA的需求。於是它們開發出了一個新的設備內互聯標準,叫做NVLink,使得帶寬達到了300 GB/s。一個8 枚GPGPU 的系統裡,NVLink 大概長這樣:
然而NVLink的標準拓撲結構在理論上最多支持8枚顯卡,仍不足以滿足NVIDIA對於新系統內置更多顯卡的需要。於是在NVLink的基礎上,NVIDIA開發出了一個名專門在顯卡之間管理NVLink任務的協處理器,命名為NVSwitch。這個元件在DGX-2上,讓16枚GPGPU中兩兩之間實現NVLink互通,總帶寬超過了14.4 TB。
這一數字創造了桌面級電腦內總線接口帶寬的新高,但實現它的目的並非跑分,而在於DGX-2 可以1)更快速地訓練一個高複雜度的神經網絡,或2)同時訓練大量不同結構的神經網絡。
N 卡之所以被稱為核彈有一種另類的解釋方式:它的多核心架構在這個依核心數量論高下的時代顯得超凡脫俗——動輒幾百、上千個CUDA 核心,令人不明覺厲。而在DGX-2 上,16 枚V100 的CUDA 核數達到了瘋狂的81,920 核心。這一事實,結合NVSwitch 技術、512GB 現存、30TB NVMe 固態硬盤、兩枚至強Platimum CPU 和高達1.5TB 的主機RAM——
黃仁勳用GPU 深度學習里程碑式的傑作AlexNet 來舉例。研究者Alex Krizhevsk 用了6 天,在NVIDIAGPU 上訓練AlexNet,這個研究首次利用梯度下降法和卷積神經網絡進行計算機圖像識別,顯著優於此前的手調參數法,拿下了ImageNet 圖像識別競賽冠軍。AlexNet 讓Alex 世界聞名,這6 天可以說值了。
然而,「同樣的8 層卷積神經網絡,我用DGX-2 跑了一下,只用18 分鐘就達到了同樣的結果,」黃仁勳說,「五年,500倍的進步。」
這說明了很多東西。其中有一條:在這五年裡,NVIDIA的技術進步節奏已經無法用摩爾定律來描述了。
DGX-2 主要的應用場景是顯著加速高端科研和商業人工智慧產品的研發和麵市。它顯然不是一台消費級的產品——高達150萬美元的售價……
開玩笑的,最終售價是40 萬美元……
然而即便是40 萬美元的未含稅價格,還是讓一些手頭緊張的工業用戶望而卻步。別擔心,DGX-2 只是今天NVIDIA在人工智慧領域的幾個新產品之一,其它還有:
1)DGX 機箱裡面的V100 GPGPU 升級版,RAM升級到了32 GB,哪些只需要單枚或者少量顯卡的研究者,生產力得到了解放,可以訓練更複雜的神經網絡了:
2)針對包括電影視覺特效、建築設計等創意工業,推出的Quadro GV100 顯卡產品。Quadro GV100 是一塊工作站顯卡,裡面是兩枚V100 GPU。這塊顯卡支持NVIDIA最新的頂級光線追踪(Ray Tracing) 技術NVIDIA RTX:
3)NVIDIA RTX:如前述,NVIDIA開發的一種極其複雜,且計算密集型的光效技術。簡單來說,像在真實世界裡那樣,摻雜的多光源、複雜的環境,導致光線照到不同材質的物品上所呈現出的散逸,以及物品對光源、對其它物品,在曲面、球面甚至不規則表面所產生的反射效果,或者光源照射到玻璃杯產生的不規則投影——這些光效和陰影在過去極難透過計算機完美呈現,但NVIDIA今天向著亦真亦幻往前走了一步。
4)TensorRT 4,新一代的TensorFlow推理工具;GPU對美國科技公司在去年推出的深度學習兼容框架標準ONNX兼容;終於可以在Kubernetes (K8S)上管理NVIDIAGPU了,支持AWS、Google Cloud Platform、阿里雲等。
5)新的自動駕駛車載計算架構ORIN。
6)駕駛虛擬模擬技術Drive SIM & Constellation。這是一個很有趣的技術,可以讓NVIDIA以及其它開放平台的科技公司在GPU 上模擬自動駕駛汽車訓練,顯著降低開放道路真車訓練的危險性。這個技術還有一個獨特的用例:接入了該平台的汽車,在未來可以遠程操控,黃仁勳演示了一個司機在會場,用VR 頭顯和手柄遠程駕駛一輛汽車躲避障礙並成功泊車。矽星人之後還會對這個技術進行探秘。
7)機器人開發開放平台ISSAC,利用了NVIDIA在自動駕駛上積累的一些技術,比如高精度地圖繪製等。
8)Project CLARA,一個雲端醫療診斷的項目。這個項目非常有趣,簡單來說,NVIDIA醫院提供基於雲端的醫療圖像識別超算,一個場景是上傳心臟B 超的實時視頻流,雲端的顯卡運行訓練好的神經網絡,可以將畫面變成三維的體積圖像,然後實時將器官高亮出來,從而生成一個更容易觀看的3D畫面。現場演示的畫面還給出了器官功能的實時數據,包括每次搏動的泵出血量等,令人印象深刻。
矽谷是一個T 卹帽衫和拖鞋統治的地方,而NVIDIA的創辦人黃仁勳在這裡是個相當明顯的另類:一襲皮夾克的他,工程師出身又負責過市場,演講起來絲毫沒有許多其它科技大佬身上特有的「虛偽」氣息。
在GTC 2018 上,可能覺得自己氣場還不夠強,他直接站在了椅子上接受記者的提問;他明顯接受過公關訓練,但在回答提問時的誠懇仍然在科技大佬中顯得獨特,甚至直接問旁邊的公關「你是不是想打斷我來著?但我已經說完了。人稱「核彈教父」的黃仁勳,名副其實。
他吐槽常見的x86 架構服務器棧,一個機櫃動輒數十台服務器,十幾台機櫃總成本成百上千萬美元。而取得同樣的深度學習訓練效果,只需幾台或者十幾台V100,或者一台DGX-2,價格至多六位數。這也是為什麼他在演講時,不斷對台下的觀眾重複:多買更划算!(The more you buy, the more you save.) 幾乎將一場GPU 技術前沿的演講變成了電視購物。
「Watch now ’cause here I come.」 是黃仁勳上台前的暖場歌曲裡的一句歌詞。
至少在今天,將摩爾定律踩在腳下,黃仁勳和他的NVIDIA看起來勢不可擋。