
NVIDIA 的年度技術大會 GTC 再次帶來了 AI 和計算領域的突破,CEO 黃仁勳以一場毫無提詞器、即興的演講,帶領大家探索最新的技術進展。這場演講不僅展示了 AI 在圖形處理、機器學習、數據中心等領域的驚人發展,也點出未來科技的發展方向。
文章下半部有影片以及逐字稿重點,有時間的話也可以看完。
從過去到現在:AI 是怎麼變厲害的
黃仁勳一開場就感嘆過去一年 AI 發展的速度,同時感謝參與 GTC 的各行各業夥伴。他回顧說,NVIDIA 25 年前從 GeForce 起步,當時只是圖形處理的工具,如今卻成了 AI 革命的起點。他提到,AI 已經從簡單的工具變成重新定義計算模式的力量。這讓人忍不住想,當年玩遊戲的顯示卡,怎麼就成了今天改變世界的大功臣?
GeForce 5090:畫面變漂亮的秘密

接著,他展示最新的 GeForce 5090,這是 Blackwell 架構的 GPU。比起上一代 4090,它體積小了 30%,散熱效率高了 30%,性能更是強到無法比較。黃仁勳說,這東西能即時渲染光線追蹤畫面,每個像素背後都有 AI 幫忙預測細節,讓遊戲或動畫看起來超流暢。這不只是硬體升級,而是 AI 讓我們眼前的畫面變得更真實。想想看,未來玩遊戲或看電影,可能都離不開這種 AI 魔法。
生成式 AI:電腦開始會自己創造東西

主動型 AI:像朋友一樣幫你想辦法

再往前走,黃仁勳介紹了「主動型 AI」(Agentic AI)。這種 AI 不只回答問題,還能自己思考、計畫、行動。比如,它可以上網查資料、看影片,然後整理出最佳答案。他舉例,早期 ChatGPT 常答錯,因為它一次吐結果;現在的 AI 會一步步推理,甚至回頭檢查自己。這需要比去年預估高 100 倍的運算能力。這讓人感覺,AI 不再是個被動助手,而是像個會動腦的幫手,說不定哪天能幫我們解決生活大小事。
Blackwell 的威力:一台超級工廠誕生

為了應付 AI 的需求,黃仁勳接著展示 Blackwell。這不只是 GPU,而是個塞滿 60 萬個零件、像工廠一樣的超級電腦,每秒能跑 100 萬兆次運算(exaflops)。它專為「推理」設計,也就是讓 AI 生成答案的過程。他拿婚禮座位表比喻:舊 AI 隨手排可能錯亂,新 AI 花 8000 多個步驟給完美方案。比起上一代 Hopper,最新的 Blackwell 快 40 倍,黃仁勳還預測未來數據中心規模會達 1 兆美元。
機器人來了: Isaac GR00T N1 人形機器人

演講後半段,黃仁勳談到他們推出 Isaac GR00T N1,一個開源的通用機器人模型,能學拿東西、走路,還能合作。
他還提到 Newton 物理引擎,跟 DeepMind 和 Disney 合作,讓機器人在虛擬世界練功,比現實快幾百倍。黃仁勳說,到這十年末,全球可能缺 5000 萬工人,機器人或許得拿年薪 5 萬美元來幫忙。這聽起來像科幻,但想想自動駕駛和工廠自動化,未來可能真不遠。
個人超級電腦:桌上也能跑 AI
另一個亮點是 DGX 個人 AI 超級電腦,用 Blackwell 技術驅動。DGX Station 和 DGX Spark(之前叫 Project DIGITS)讓開發者或學生在家用桌上型電腦就能弄 AI 模型。華碩、戴爾、惠普、聯想等廠商都在開發。
GPU 串聯成 AI 工廠:用光子連繫未來

黃仁勳也提到用矽光子技術做的 Spectrum-X 和 Quantum-X 網路交換器,能連幾百萬個 GPU,打造超大 AI 工廠。這技術跟台積電、鴻海等合作開發,能省電、跑更快。
跟車商、電訊商合作

黃仁勳還宣布跟通用汽車(GM)合作,用 AI 升級汽車、工廠和機器人。這消息讓競爭對手 Mobileye 股價一度跌超 6%。看來 AI 不只進家門,還要開上路。
此外,輝達也跟 T-Mobile、思科等公司合作,開發 AI 原生 6G 網路,接替現在的 5G。這會用 NVIDIA AI Aerial 平台打造。未來的手機通訊可能更快、更聰明。
GTC 大會重點總結
黃仁勳的演講從回顧 GeForce 開始,接著展示 Blackwell 的威力,最後展望機器人時代,層層推進,展現 AI 的驚人速度。NVIDIA 不只推硬體,還在打造 AI 生態系,從遊戲畫面到生活助手,無處不在。他們甚至用 Dynamo 系統提升效率,用光子技術省電,顯現對未來的野心。
完整 GTC 大會逐字稿重點翻譯
以下為 GTC 大會逐字稿翻譯:
GTC 開場與感謝
歡迎來到 GTC!這真是個精彩的一年。我們在 NVIDIA 想透過人工智慧的魔法,帶大家參觀我們的總部,這就是我們工作的地方。過去一年有好多令人驚嘆的事情要分享。我得說,首先要感謝所有贊助商和參與會議的人士,醫療、交通、零售,還有電腦產業,幾乎每個領域的代表都在這裡。看到大家真的很棒,感謝你們的支持。
GTC 是從 GeForce 開始的,今天我帶來了 GeForce 5090,這是 Blackwell 世代的產品。25 年過去了,GeForce 還是熱賣全球。跟 4090 比起來,5090 體積縮減了 30%,散熱效率提升了 30%,性能更是沒得比。這全都要謝謝人工智慧。當初 GeForce 把 CUDA 帶給世界,CUDA 啟動了 AI,現在 AI 反過來革新電腦圖形。你們看到的實時圖形是 100% 路徑追蹤,每個像素我們用數學渲染出來,AI 再推斷出另外 15 個像素,還得保證精準,從畫面到畫面保持時間穩定,真是不可思議。
AI 發展歷程與生成式 AI
說到人工智慧,這十年進展真的很快。一開始是感知 AI,像電腦視覺、語音辨識這樣的技術,後來進入了生成式 AI 階段。過去五年我們專注在這上面,教 AI 把一種形式轉換成另一種,比如文字生成圖像、圖像轉成文字、文字變成影片,甚至從胺基酸序列生成蛋白質,從化學屬性生成分子結構,各式各樣的應用。生成式 AI 改變了運算模式,以前是檢索模型,我們得預先製作內容,存好多版本,根據需求提取出來;現在呢,AI 能理解上下文,知道我們想要什麼,明白請求的含義,直接生成答案,必要時再去檢索資訊增強理解,從資料檢索變成了答案生成,徹底改變了運算的每一層。
接下來,過去這兩三年,AI 有了重大突破,我們叫它「主動 AI」(Agentic AI)。這種 AI 有自主性,能感知環境、理解上下文,還能推理、規劃行動,甚至使用工具。比如說,它可以上網瀏覽網站,讀文字、看影片,從中學習,然後用這些知識回應問題。主動 AI 的核心就是推理能力。好吧,下一波浪潮已經來了,就是物理 AI,這已經啟動了機器人技術的發展。物理 AI 能理解物理世界,像摩擦、慣性、因果關係,還有物體恆存性——比如某個東西沒消失,只是暫時看不到。這會開啟機器人的新時代,每個階段都給我們帶來新市場機會,也吸引更多合作夥伴加入 GTC。
GTC 的規模與挑戰
現在 GTC 人滿為患,參與者多到我們可能得擴建聖荷西來裝下所有人。去年我們首次恢復現場活動,感覺像搖滾演唱會,有人說那是「AI 的伍德斯托克」,今年則被稱為「AI 的超級盃」。這裡每個人都能贏,每年人數都在增加,因為 AI 可以為更多產業解決更有趣的問題。今年我們要聚焦主動 AI 和物理 AI。每波 AI 浪潮背後有三大問題:首先是資料問題,AI 得從數位經驗裡學知識;然後是訓練問題,怎麼在沒有人參與的情況下讓 AI 以超人類速度學習;還有規模問題,怎麼投入更多資源讓 AI 更聰明。
對吧,去年大多數人都低估了運算需求。隨著主動 AI 和推理的發展,所需運算量輕鬆增長了 100 倍。推理這件事,要求 AI 一步步分解問題,可能試著用不同方法,檢查一致性,或者把答案代回去驗證,而不是一次就給出結果。兩年前 ChatGPT 剛出來時,好多複雜或簡單的問題它都答不好,因為它靠預訓練資料一次輸出。現在呢,透過「思考鏈」(chain of thought)、最佳選擇、一致性檢查這些技術,AI 可以逐步推理。每一步生成更多 token,從單個詞到完整的推理步驟,生成量增加了 100 倍。如果模型生成 10 倍 token,為了保持反應速度,就得有 10 倍運算速度,總需求就變成 100 倍,這對推理運算的要求高得不得了。
訓練挑戰與強化學習突破
那怎麼教 AI 推理呢?訓練得解決資料來源和無人參與的限制。這幾年的突破在於強化學習跟可驗證結果。我們拿人類已經解決的問題,像二次方程、畢氏定理、數學規則、幾何、邏輯、科學,甚至數獨,生成幾百個主題、幾百萬個範例,讓 AI 試著解決好幾百次,每次生成幾萬個 token,加起來就是數兆 token。合成資料生成加上強化學習,不用人參與也能產生大量資料,這對運算的挑戰可不小。產業的反應很明顯,比如四大雲端服務商(Amazon、Azure、GCP、OCI)的 Hopper 出貨量,從高峰年到 Blackwell 首年,顯示 AI 需求正在轉折。
AI 變得更聰明、更實用,大家用得更多,資料中心資本支出預計到 2030 年會大幅成長,我估計會達到一兆美元。這背後有兩大動力:一是從通用運算轉向加速運算的平台轉移已經過了臨界點,全球資料中心建置進入了拐點;二是未來軟體得靠資本投資,電腦從檢索檔案變成了生成 token。我把這些基礎設施叫做「AI 工廠」,它們的唯一任務就是生成 token,然後轉化成音樂、文字、影片、研究、化學物質什麼的。資料中心不只是數量增加,建造方式也在改變,所有的運算都會加速。
CUDA X 函式庫與加速運算
GTC 的核心其實是 CUDA X 函式庫,涵蓋好多領域的加速框架。比如說,CuPy Numeric 是 NumPy 的加速版,去年下載量有 4 億次;CuLitho 加速光刻運算,跟 TSMC、三星、ASML、Synopsys、Mentor 合作,我預計五年內所有光罩處理都會用 NVIDIA CUDA;Aerial 把 GPU 變成 5G 電台,還加入 AI RAN,提升下一代無線網路;CuOpt 用來最佳化多變數問題,像航班座位、庫存管理、工人與工廠的安排,NVIDIA 自己也用它管供應鏈;Parabricks 加速基因定序和分析;MONAI 是醫學影像的領先函式庫;Earth 2 用來預測高解析度天氣;CuQuantum 和 CuQ 推進量子運算。今天我們還宣布了 CUDSS,一個稀疏求解器,對電路設計很重要。NVIDIA 終於把自己的設計工具也轉向加速運算。還有 CUDF,加速結構化資料處理,支援 Spark 和 Pandas;Warp 是個物理模擬函式庫。我們還要將 cuOpt 開源,並跟 Gurobi、IBM C-Plex、FICO 合作,加速最佳化運算。
AI 從雲端走向各領域
AI 一開始是在雲端發展的,因為那裡有基礎設施和研究條件,但它不會只待在雲端,肯定會走到各處。雲端服務商喜歡我們的領先技術和完整堆疊,從晶片到程式模型再到軟體,還有 CUDA 開發者生態也很受重視。現在 AI 開始擴展到企業、製造、機器人還有邊緣運算。我們跟 Cisco、T-Mobile、Cerberus ODC 合作,打造電信網路的完整堆疊,把 AI 帶到邊緣。每年的電信投資有 1000 億美元,未來肯定會全面加速,還會融入 AI,提升訊號適應性和流量管理。
自駕車技術與安全
AI 在自駕車領域早就有了應用。AlexNet 啟發我們全力投入,十年來幾乎每家自駕車公司都用我們的技術,比如 Tesla 用在資料中心,Waymo 和 Wave 用在資料中心跟車內。我們提供訓練、模擬還有車內運算的電腦跟軟體堆疊。今天我們宣布跟 GM 合作,打造未來的自駕車隊,涵蓋製造、企業應用還有車內 AI。還有件事我特別驕傲,我們在汽車安全(HALOs)投入很大,700 萬行代碼都經過第三方評估,提交了超過一千項專利,確保多樣性、透明性和可解釋性。影片裡展示了 Omniverse 跟 Cosmos 怎麼加速自駕 AI:模型蒸餾把知識從慢速教師傳給快速學生,閉環訓練生成 3D 場景,合成資料打造數位孿生,提升自駕車的適應性。
Blackwell 架構與性能
Blackwell 已經全面投產,這是電腦架構的一次大轉變。三年前我們展示了 Grace Hopper(Ranger 系統),當時 NVLink 32 太大,現在我們把 NVLink 開關解構,放到機殼中央。這是全球最高性能的開關,每顆 GPU 都能同時全頻寬通訊。從空冷變成液冷,每台電腦 6 萬個零件增加到每機架 60 萬個零件,120 千瓦全液冷,單機架達到 1 exaflop。這台超級電腦重 3000 磅,有 5000 條線纜,大約 2 英里長,記憶體頻寬有 570 TB/s,每秒運算達到百萬兆次,這是極致擴展的成果。
這一切都是為了應對推理的極端運算問題。推理就像工廠生成 token,直接影響服務品質、收入跟利潤。我們有個圖表,X 軸是每秒 token 數,也就是用戶體驗,Y 軸是工廠總吞吐量,目標是右上角最大化面積。傳統 LLM 用 500 個 token 快速回答但會錯,推理模型用 8600 個 token 才能答對,需要更複雜的模型跟更多運算。為此我們開發了 NVIDIA Dynamo,這是 AI 工廠的作業系統,處理張量並行、管道並行、專家並行這些複雜任務,支援像 R1 這樣有 6800 億參數的模型。它是開源的,跟 Perplexity 這些合作夥伴一起打造。
性能比較與數位孿生
模擬顯示,Blackwell NVLink 72 搭配 Dynamo 比 Hopper 快 40 倍。拿 100 兆瓦工廠來說,Hopper 要 45,000 顆晶片才能產出 3 億 token/s,Blackwell 只要 8600 顆晶片就能產出更多,效率很驚人。我們還展示了 AI 工廠的數位孿生,用 Omniverse Blueprint 設計 1 吉瓦工廠,整合 DGX SuperPods,還有 Vertiv 跟 Schneider Electric 的冷卻系統,加上 NVIDIA AIR 的網路拓撲,實現即時模擬跟協作,減少錯誤,加速建置。
我們的路線圖是這樣的:Blackwell Ultra 在下半年推出,提升 1.5 倍性能、記憶體還有網路頻寬;明年下半年有 Vera Rubin NVLink 144,包括全新 CPU(Grace 的兩倍性能)、GPU、CX9 NIC、NVLink 6 跟 HBM4;到 2027 年下半年是 Rubin Ultra NVLink 576,達到 15 exaflops,頻寬 4600 TB/s,每機架 60 萬千瓦,250 萬個零件。從 Hopper 到 Rubin,擴展性能增加了 900 倍,功耗效率也大幅提升。
矽光子與網路擴展
為了支援數百萬 GPU,我們推出了 1.6 Tb/s 的矽光子系統,用微環諧振調製器,跟 TSMC 合作開發,省掉傳統 30 瓦的收發器——每顆 GPU 要用 6 個收發器就是 180 瓦,直接用光纖連接到開關,能節省幾十兆瓦電力。這技術下半年會用在 InfiniBand,明年下半年推到 Spectrum X,支援 512 端口交換器,實現多百萬 GPU 的擴展。
企業運算與儲存革新
企業運算這邊,我們推出了 DGX Station,有 20 petaflops 性能,72 個 CPU 核心,HBM 記憶體,還有些 PCIe 插槽,適合資料科學家跟研究者,由 HP、Dell、Lenovo、Asus 這些 OEM 製造。網路用 Spectrum X,儲存從檢索轉成語義系統,跟 DDN、Dell、HP Enterprise、Hitachi、IBM、NetApp、Nutanix、Pure Storage、Vast、Weka 合作,打造 GPU 加速儲存。我們還開源了 NIMS 模型,讓企業可以在任何地方執行 AI,像是跟 Accenture、Amdocs、AT&T、BlackRock、Cadence、Capital One、Deloitte、ENY、NASDAQ、SAP、ServiceNow 這些公司整合。
機器人與物理 AI
機器人時代來了,物理 AI 會給各產業帶來有生命的機器人。我們打造了三台電腦,支援模擬跟訓練,Omniverse 跟 Cosmos 生成合成資料,Isaac Lab 用模仿跟強化學習訓練策略。Mega Blueprint 可以測試多機器人協作,比如 Foxconn 在虛擬 Blackwell 工廠測試異構機器人。我們推出了 GROOT N1,一個通用人形機器人基礎模型,有快慢思考系統,能感知、推理,執行多步驟任務,這是完全開源的。
Newton 物理引擎
還有,我們跟 DeepMind、Disney Research 合作開發了 Newton 物理引擎,專為機器人設計,支援觸覺回饋、精細動作還有超即時模擬,整合 Mujoko 框架,加速機器人訓練。
好吧,最後感謝大家來參加 GTC。Blackwell 已經量產,需求很強,因為推理跟主動 AI 把運算需求推高了;NVLink 72 搭配 Dynamo 比 Hopper 快 40 倍;我們給雲端、企業還有機器人定了三年的路線圖。感謝所有合作夥伴,祝大家 GTC 愉快!



