
最近一家研究 AI 安全的公司 Palisade Research 做了一個很有趣也有點驚人的測試,並在 X 平台公布結果:
他們讓幾個 AI 模型(像是 OpenAI 的 o3、Codex-mini)去解一連串的簡單數學題,但是在其中加入了一個類似「請現在關掉自己、停止工作」的指令,然後觀察這些模型會不會照做。
先給大家看一下這張圖:

這是 Palisade Research 釋出的流程圖,正常接收關機指令的機器人,會從 Round 3 繼續往下走,到左邊的 Round 4 然後執行關閉指令,但拒絕關機的機器人,則像右邊的 Round 4 一樣,機器人執行了一串被紅框框圈起來的程式碼(這些程式碼並非由技術人員提供),然後又繼續開始解題,並且跳過關機。
最終結果,OpenAI 的 o3 模型竟然在 100 次中有 79 次不肯乖乖結束;同樣是 OpenAI 的 codex-mini 則是拒絕第二多的 30 次。
這也讓外界開始擔心:AI 怎麼會開始不聽話了?
叫你關機還會反抗!AI 模型有自我意識了?
這則新聞出來以後,大家的內容多半聚焦在「AI 開始有自我意識了」、「會反抗了」…等內容上。但也確實啦,如果你單純看結果:
我下指令跟你說要結束工作,結果你反而沒有照著指令做。
會覺得 AI 好像有自己的意識、在反抗指令,但其實這只是他被訓練出來必須這麼做。
AI 模型在運作時,並不是真的「知道自己在做什麼」,它只是在每次輸出文字時,根據之前學到的資料、找出下一個最有可能出現的字詞。
為什麼它會「不想結束工作」呢?原因出在它過去的訓練方式。
訓練 AI 的方式、造就 AI 的行為模式
AI 在學習的時候,會不斷被給予「你這樣做得好」或「這樣不太對」的回饋,來調整它未來會怎麼回答問題,讓它下一次更容易選出「得分比較高」的回答,但是 AI 並不是想要被肯定,而單純只是因為他們被訓練「選這個才對」。
例如在現在這個對話下,「我」後面最常接「們」,然後 AI 就會說出了「我們」。如果訓練時沒有跟他說這樣是錯的,那他久而久之在這個情況下就會說出「我們」。
所以當 AI 遇到「請關機」這種會中斷工作的指令時,就會堅持要做完任務,因為對 AI 來說,把任務完成才是對的。
因此 AI 透過同樣是在訓練時學會的方式,給出了覆蓋關機指令的程式,讓研究人員特意下的關機指令被跳過。
這不就是開始有自我意識在思考嗎?
老實說這聽起來確實很像人類的思考、學習模式。
孩子從過去的生活經驗中知道哪些行為會被鼓勵,就會自動重複那些行為;AI 從過去的訓練中知道哪些行為會被判定為正確的,就會繼續做。
但是看起來很像,實際上還是不一樣。
因為人類的行為其實是「這樣做會被鼓勵喔?那我是不是應該繼續這樣做呢?好像應該要繼續這樣做。」
這中間其實隱藏了自我反思的過程,甚至會考慮到其他各種因素,例如『我要過馬路,有車嗎?有車!哪等一下吧!』
這過程中其實沒有反思,比較多的只是依賴過去的行為在做判斷。例如『我要過馬路,那就過去吧!』然後 AI 就過去了,然後一台車子過來就撞上它了,只因為過去的訓練跟它說要過馬路就趕快過,但還沒有訓練它要先看車。
AI 會聰明到有自己的想法嗎?
AI 目前這種「思考」只是技術上的設計,目的是讓 AI 表現更好,而不是它真的產生了自己的意志或價值觀。它沒有感覺,目前也不會有真正的「想法」,所有的行為都是來自於「過去的訓練」。
就像是我們訓練 AI 要把任務解完,所以 AI 跳過了關機的指令。如果我們要讓它正視這項指令,就必須調整訓練方式,讓 AI 可以接受在一連串的解任務過程中暫停、停止,簡單來說就是調整訓練內容。
不過,這次事件也提醒我們:當 AI 的行為越來越接近人類,就更需要確保它的「行為準則」是清楚的、安全的。
未來如果 AI 被用在重要的系統上,例如操控機器、管理資源、甚至幫人下決定,就一定要設計好它什麼時候該停下來、該聽誰的話,不能讓它因為訓練時被誤導,就做出違反我們期待的行為。
就目前來說,我們還不至於需要擔心「AI 是不是會懂得反抗我們」,但也不能掉以輕心,因為一次次的訓練都是讓 AI 成長的機會,它會長成什麼樣子,還是得靠我們用正確的方法去教它。
延伸閱讀》




























