Google 全新 AI 模型「Gemini」推出，30 項測試都贏過 GPT-4v，比專家還強

最後更新： 2023 年 12 月 11 日

AI Google Gemini ChatGPT GPT-4 GPT-4v

Google 的 Bard AI 機器人過去曾使用 LaMDA 系列的語言模型，後來改為 PaLM2，如今正式宣佈推出自家的語言模型 Gemini，使用 TPU v4 和 v5e 晶片進行訓練，強調多模、多樣化的解析能力以及執行效率，甚至在多項測試中贏過 OpenAI 的 GPT-4 模型。

Google 自家原生 AI 模型，多項測試贏過 GPT-4v

Gemini 是 Google 推出的「原生」AI 模型，可以處理包含程式碼、文字、聲音、圖片、影片這些不同形式的內容，而且因為 Google 的資料庫中有著巨量的內容，是訓練 Gemini 很棒的資源。

Google 甚至表示 Gemini 可以直接「看懂」圖片，而不是像過去使用 OCR 的方式掃描圖片然後再辨識上面的文字這種方式來分析圖片。

在 Google 的影片中，拿了兩張圖片做比較，Gemini 可以回答右邊圖片中的汽車會跑的比較快，因為符合空氣力學的關係，但你可以注意到，圖片中並沒有任何的文字，如果使用傳統 OCR 解析圖片的方式，就無法判斷出這些內容。

Google 展示的內容中，甚至還直接畫了一隻鴨子，而 Gemini 也可以很快地理解出使用者話的內容是什麼。

AI Google Gemini ChatGPT GPT-4 GPT-4v

Gemini 也能夠解析程式碼、C++、Java 等常用程式語言，甚至是爬蟲都可以，不只分析，也能夠按照你要的需求、指定的語言生成程式碼。

AI Google Gemini ChatGPT GPT-4 GPT-4v

Gemini 的執行速度也相當快，在一個午休的時間就可以閱讀完 20 萬份的論文，並且從使用者要求的關鍵字、條件去查詢相關的資料，找出 250 份符合資格的論文以及我們要找的資料在哪裡，並且整理成一份清單。

AI Google Gemini ChatGPT GPT-4 GPT-4v

如果拿來和 OpenAI 的 GPT-4v 和 Gemini 做比較，全部 32 項測試中，有 30 項測試是由 Gemini 勝過了 GPT-4v，而且在 MMLU 大規模多任務語言理解的測試中，包含了歷史、法律、醫學、數學….等 57 個科目中，Gemini 都有達到 90% 的水準，甚至超越了人類專家的表現。