Google 發布 Gemini 1.5:採全新 MoE 架構,可處理多達百萬個 token

Google Gemini Gemini 1.5

Google 自家的語言模型 Gemini 在推出約 2 個月後就馬上就迎來了第一次升級;日前 Google 正式發佈最新一代語言模型 Gemini 1.5,對比 Gemini 1.0 不僅性能與功能皆有顯著提升,甚至可支援處理多達 100 萬個 token,也就代表能應付更長、更複雜的任務。

Gemini 1.5 性能更強,與 Ultra 1.0 版本不相上下

Google 說明 Gemini 1.5 採用「專家混合( Mixture of Experts / MoE)」架構,MoE 會將語言模型劃分為多個專家模塊,每一個專家模塊都專注於處理特定任務;當用戶給出指令時,模型就會根據指令內容啟用相關的專家模塊,不會一次就使用整個模型,從而提高處理性能與效率,也可有效提升模型的擴展性。

Google Gemini Gemini 1.5

目前 Google 釋出的第一個 Gemini 1.5 通用版本是定位中階的 Gemini 1.5 Pro;而 Gemini 1.5 Pro 表現非常亮眼,不僅在 87% 的基準測試中勝過 Gemini 1.0 Pro,整體性能甚至已經跟之前最高階的 Ultra 1.0 不相上下。

Gemini 1.5 可處理多達百萬個 token

Gemini 1.5 還可處理多達 100 萬個 token,不只比前代提升約 30 倍左右,也遠超其他大型語言模型(Gemini 1.0 為 32,000 個、GPT-4 Turbo 為 128,000 個、Claude 2.1 為 200,000 個)。

這相當於可一次性處理 1 小時的影片、11 小時的音訊、超過 3 萬行程式碼或超過 70 萬字的程式庫;更驚人的是 Google 內部也已經成功測試了使用 1,000 萬個 token 的 Gemini 1.5 模型。

Google Gemini Gemini 1.5

關於處裡能力的部分,Google 有展示出 3 種情境:

首先是大量複雜資訊處理,例如 Gemini 1.5 可理解、推理、識別多達 402 頁的阿波羅 11 號登月任務文字紀錄 PDF 檔;此任務需要 326,914 個 token。

或是給 Gemini 1.5 看一部時長 44 分鐘、由巴斯特·基頓出演的默劇,它可以準確分析劇情中各個時間點的人、事、物,甚至可以對劇情中容易被錯過的小細節進行推理;此任務需要 696,417 個 token。

最後讓 Gemini 1.5 處理超過 100,000 行程式碼,它能分析內容、提出修改建議、並解釋不同段落程式碼的運作原理;此任務需要 816,767 個 token。

Gemini 1.5 未來將取代 Gemini 1.0,也就是說大家都用得到;但標準版 Gemini 1.5 Pro 僅提供支援 12.8 萬個 token、付費版本才可使用 100 萬個 token,這就看個人需求。

不過 Google 也有提到未來會計畫把標準版 Gemini 1.5 Pro 擴展至 100 萬個 token,就看之後 Google 會提供怎樣的方案給用戶選擇。

更多 AI 相關資訊》