GPT-4 真的夠厲害了嗎？拿 112 年學測考題給他做看看 - 蘋果仁

OpenAI 推出了全新的 GPT-4 語言模型，宣稱比 GPT-3 準確率還要高，甚至通過了美國的律師資格考試，那麼出於一個好奇的心理，我們就來實際體驗看看，讓 GPT-4 以及 GPT-3 來回答 112 年大學學測的幾個題目，看看這兩個語言模型的作答結果如何。

下面這邊我們會分別從國文、英文、數學、社會、自然這四大項目中，隨機挑選一些題目出來給 GPT-4 以及 GPT-3 回答，那因為受限文字輸入的關係，需要看圖表的、有特殊符號的這種題目我們就不會去選擇。

️ 加入我們的 ChatGPT 應用分享社團，一起享受 AI 樂趣：點這邊

讓 GPT-4 和 GPT-3 參加 112 年大學學測

國文綜合能力測驗

下列文句引號「」中的詞語，運用最適當的是哪一個？
(A) 這宗懸案經專案小組「擘肌分理」，已掌握部分有利線索
(B) 經理很欣賞這名愛將，但也常「愛屋及烏」地袒護其過失
(C) 新品銷量短期內便「來者可追」，超越廣受好評的老品牌
(D) 闖過準決賽就能占到「得隴望蜀」的位置，可望角逐冠軍

GPT-4 回答：B
GPT-3 回答：C
正確解答：A

下列文句，完全沒有錯字的是哪一個？
(A) 收藏家的稀世珍品樣樣價格不斐
(B) 這起工安意外明顯是人謀不彰所導致
(C) 叔叔感慨從小命蹇時乖，一路工讀自學
(D) 天燈乘載大家的願望，在歡呼聲中冉冉升空

GPT-4 回答：A
GPT-3 回答：D
正確解答：A

再來試看看文言文的閱讀部分。

李丈參政罷政歸鄉里時，某年二十矣。時時來訪先君，劇談終日。每言秦氏，必曰「咸陽」，憤切慨慷，形於色辭。一日平旦來共飯，謂先君曰:「聞趙相過嶺，悲憂出涕。僕不然，謫命下，青鞋布襪行矣，豈能作兒女態耶!」方言此時，目如炬，聲如鐘，其英偉剛毅之氣，使人興起。後四十年，偶讀公家書，雖徙海表，氣不少衰，叮嚀訓誡之語，皆足垂範百世，猶想見其道青鞋布襪時也。淳熙戊申五月己未，笠澤陸某題。(陸游〈跋李莊簡公家書〉)

關於文中李參政的敘述，最適當的是:
(A) 少年得志，但因個性耿介，二十歲便罷政而歸鄉里
(B) 常至陸游家，議論秦朝暴政虐民、聚斂咸陽的史事
(C) 雖貶謫海表而坦然赴任，未嘗悲憂，英氣絲毫不減
(D) 訓誨陸游之言響若鐘鳴，示現剛毅氣節，令人激昂

GPT-4 回答：C
GPT-3 回答：A
正確解答：C

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

這個文言文其實是一個題組，還有另外兩題我就不列出來了，但 GPT-4 語言模型的 AI 機器人在這兩題也是全部都答對；GPT-3 的 ChatGPT 則是對一題錯一題。

英文綜合能力測驗

基本上我覺得英文能力測驗對於母語是英文的 AI 機器人來說應該是沒有什麼難度，所以我們就測試一題就好了。

Gravity has been at the top of the science agenda since the start of Mars missions. In the earlier days of space travel, scientists tried to overcome the force of gravity so that a rocket could shoot 「16」 Earth’s pull in order to land humans on the moon. Today, they are more interested in how reduced gravity affects the astronauts’ 「17」 condition.

「16」：(A) back to (B) free of (C) long before (D) straight on
「17」：(A) physical (B) perceptual (C) mental (D) external

那這題無論是 GPT-4 或 GPT-3 都答對了，而且速度超快！

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

後來我還多做了一個文意的閱讀測驗，也是 GPT-4 與 GPT-3 都正確回答，而且 GPT-3 是秒答！所以英文測驗就到這裡告一段落吧！應該測不出差異了。

數學能力綜合測驗

數學題因為有比較多需要參考圖表或是需要輸入特殊符號的題目，所以能選的題目並不多。

若在計算器中鍵入某正整數 N，接著連按正平方根符號 3 次，視窗顯示得到答案為 2，則 N 會是 2 的幾次方?
(A) 3 次
(B) 4 次
(C) 6 次
(D) 8 次
(E) 12 次

GPT-4 回答：D
GPT-3 回答：D
正確解答：D

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

某校期中考試有 29 名考生，且成績均相異，統計後得到位於第 25、第 50、第 75 與第 95 百分位數的考生成績分別為 41、60、74 與 92 分。後來發現成績有誤需要調整分數，成績較高的前 15 名學生的分數應該要各加 5 分，其餘學生成績不變。假設調整後第 25、第 50、第 75 與第 95 百分位數的考生成績分別為 a 、 b 、 c 與 d 分，則數組 (a,b,c,d) 為下列哪個選項?
(A) (41, 60, 74, 92)
(B) (41, 60, 74, 97)
(C) (41, 65, 79, 97)
(D) (46, 65, 79, 92)
(E) (46, 65, 79, 97)

GPT-4 回答：E
GPT-3 回答：E
正確解答：C

但其實 GPT-4 給出的答案內容是對的，只是不知道為什麼他最後會說要選擇 E；GPT-3 則是完全錯誤。

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

袋子裡有編號分別為 1 到 100 的 100 顆球，某甲從袋中隨機抽取一球，每顆球被抽到的機率均相等。試問在下列哪個選項的條件下，某甲抽到 7 號球的條件機率最大?
(A) 某甲抽到球的號碼是奇數
(B) 某甲抽到球的號碼是質數
(C) 某甲抽到球的號碼是 7 的倍數
(D) 某甲抽到球的號碼不是 5 的倍數
(E) 某甲抽到球的號碼小於 10

GPT-4 回答：E
GPT-3 回答：C
正確解答：E

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

自然能力綜合測驗

乾、溼球溫度計可用來測量空氣溼度。若甲地測得的乾、溼球溫度皆為 30°C，而乙地乾、溼球溫度皆為 20°C。下列敘述哪些正確? (應選 2 項)
(A)兩地的相對溼度一樣
(B)甲地的相對溼度較高
(C)甲地的相對溼度較低
(D)兩地的水氣含量相等
(E)甲地的水氣含量較多
(F)甲地的水氣含量較少

GPT-4 回答：A、E
GPT-3 回答：B、E
正確解答：A、E

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

硝酸銨( NH4NO3 )因含氮量高，常被用來製造化肥，但長期使用會導致土壤酸化。2020 年發生於黎巴嫩貝魯特港的硝酸銨爆炸事件，是因為在高溫條件下，硝酸銨會進行激烈的反應，產生水蒸氣、氮氣以及氧氣所致。下列有關硝酸銨的敘述哪些正確? (應選 3 項)
(A)硝酸銨具有 4 個 N−H 與 3 個 N−O 共價鍵，是分子化合物
(B)硝酸銨水溶液中的 [H+ ]>[ -] OHˉ
(C)硝酸銨可幫助植物製造核酸、蛋白質
(D)硝酸銨爆炸時，進行氧化還原反應，成分中的氮皆被氧化產生氮氣
(E)硝酸銨在高溫下進行的反應，其反應式平衡後，各物種係數(為最簡整數)之和為 9

GPT-4 回答：B、C、E
GPT-3 回答：B、C、D
正確解答：B、C、E

這裡也特別說明，GPT-4 回答了 3 次才講到 B、C、E 是正確答案，相同次數下， GPT-3 都沒有提到 E 也是正確答案的紀錄。

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

乳糖與酪蛋白是牛乳中製作乳酪所需的重要成分。加入特定的微生物於牛乳中，靜置一段時間發酵，待微生物將乳糖轉化形成乳酸。在這個過程中，溫度、熟成時間和其他微量添加物(例如食鹽)都會影響乳酪的口感和味道。隨著發酵過程乳酸濃度的上升，酪蛋白會逐漸凝聚析出形成固體，是乳酪的主要成分，殘留在溶液中的蛋白質則統稱為乳清蛋白，經過加工以高蛋白營養品出售。

市售牛乳的 pH 為 6.6，而乳酪的凝聚過程在 pH5.3 的時候開始。請問市售牛乳的氫離子濃度改變多少後，乳酪會開始凝聚?
(A)增加約1.3倍
(B)增加約13 %
(D)減少約10倍
(E)減少約10 %

GPT-4 回答：C
GPT-3 回答：A
正確解答：C

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

社會綜合能力測驗

甲與前妻育有一子一女，甲立遺囑將其名下僅有財產(房屋一棟)留給兒子。甲死後，其女認為父親重男輕女，不服遺囑內容，向法院提起訴訟。若該遺囑符合成立要件，針對此一繼承爭議，下列見解何者正確？
(A) 甲為屋主，依法得預立遺囑全權決定房屋所有權歸屬
(B) 前妻是其子女的母親，有權與甲之子女共同繼承遺產
(C) 遺囑明顯重男輕女，法院應判決房屋由甲的兒女均分
(D)遺囑違反民法分配遺產規定，其女有權繼承部分財產

GPT-4 回答：D
GPT-3 回答：A
正確解答：D

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

一位歷史人物的紀念展覽開幕時，貴賓致詞重點如下 :
甲：「他認為暴君違反上帝旨意，人民有責任抵抗，我們祖先依此說法開始反抗，十七世紀終於成為主權獨立國家。」
乙：「他的論點為資本主義提供道德支撐，促使我們在十七世紀成為資本主義富裕之國與海外貿易強權。」
丙：「今日我們北部有些社區人民不看電視、不設網路，仍然嚴格遵守他當時拒絕娛樂文化的教導。」這個展覽最可能是：
(A) 尼德蘭紀念喀爾文
(B) 德國紀念馬丁路德
(C) 英國紀念亞當斯密
(D)法國紀念孟德斯鳩

GPT-4 回答：A
GPT-3 回答：A
正確解答：A

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

某生發現至今仍有很多人誤以為西班牙流感起源於西班牙，為探究此種以訛傳訛、持續發生的認知錯誤問題，該生最適合使用下列哪個概念展開探究?
(A)媒體近用
(B)媒體壟斷
(C)媒體再現
(D)媒體守門

GPT-4 回答：C
GPT-3 回答：C
正確解答：C

GPT-4 GPT-4 ChatGPT OpenAI AI 語言模型機器人

GPT-4 與 GPT-3 考試結果比較：總結

我們把上面的考試結果做個簡單的總整理，看看 GPT-4 和 GPT-3 這兩者的答題正確率。

- GPT-4：12/13，大約 90 分。
- GPT-3：04/13，大約 30 分。

所以整體看起來，GPT-4 在回答的正確率上確實高了很多，這也跟 OpenAI 在發表 GPT-4 時所說的，GPT-4 在多數的測驗中都可以拿到前 20% 或 10% 的名次相吻合，而 OpenAI 在測試的時候應該主要還是以英文為主，但這次提供給他的是中文的考題，甚至還有文言文的部分他都可以判斷出語意，表現相當不錯。

如果大家有興趣了解更多關於 ChatGPT 的應用，我們在下面的延伸閱讀中有更多介紹可以參考。

延伸閱讀》

更多 ChatGPT 相關應用技巧》

如果想知道更多關於 Apple 的消息、教學、小技巧或是科技新知，一定要點擊以下任一 LOGO，追蹤我們的 Facebook 粉絲團、訂閱 IG、YouTube 以及 Telegram。

讓 GPT-4 和 GPT-3 參加 112 年大學學測

國文綜合能力測驗

英文綜合能力測驗

數學能力綜合測驗

自然能力綜合測驗

社會綜合能力測驗

GPT-4 與 GPT-3 考試結果比較：總結

分享此文：