Google AI 搜尋翻車：建議每天吃一塊小石頭、在披薩裡面加入膠水 - 蘋果仁

圖、文／愛範兒授權轉載

2023 年 2 月，追趕 ChatGPT 的 Bard，公開犯了事實錯誤；2023 年 12 月，Gemini 侃侃而談如同賈維斯，然而卻被爆出影片是經過後製處理；2024 年 2 月，Gemini 生成多種膚色的歷史人物，被批評歧視白人。

這回，厄運降臨到 Google 的看家本領「搜尋」功能。國外網友看熱鬧不嫌事大，甚至上演了一波鬥圖狂歡。

被群嘲的 Google AI 搜索，有種清澈的愚蠢

剛結束不久的 Google I/O 大會，推出的其中一項功能是 AI Overview。

顧名思義，AI Overview 在網頁頂部生成綜合多個內容來源的摘要，同時附有連結。

當時，Google 對 AI Overview 很有信心，宣佈當即向所有美國用戶推出，很快也會推廣到更多國家，預計年底超過 10 億人都可以使用。

然而沒過幾天，AI Overview 先在美國用戶這裡翻車了。

自製披薩的奶酪容易掉下來怎麼辦？

Google 建議：往醬汁裡添加約 1/8 杯的膠水即可。特意強調是無毒的，真是令人感到窩心。

Google 並非隨意編故事，而是從 Reddit 一位用戶 11 年前的評論照搬了答案，可惜它讀不懂人類的幽默。

人一天裡應該吃多少石頭補充營養？

Google 沒有反駁問題本身的不合理，一本正經地胡說八道，根據加州大學伯克利分校地質學家的說法，應該一天至少吃一塊小石頭，以便攝取維生素和礦物質。

答案的源頭是 2021 年的一篇報導，出自以假新聞和諷刺文章聞名的新聞內容。

AI Overview 也不精通美國歷史，掉進了陰謀論的陷阱，說奧巴馬是第一位穆斯林總統。

一時間，X 等社交媒體掀起了一股抽象的浪潮：曬截圖，比拼誰的 Google 回答最荒謬。

競爭異常激烈，在 AI 的世界里，前總統從威斯康辛大學畢業了 21 次，一隻狗曾在 NBA、NFL 和 NHL 打過球，蝙蝠俠是一名警察。

針對這樣的狀況，Google 回應表示大部分 AI Overview 提供的訊息還是正確的，也提供了有用的連結供使用者深入瞭解，很多「翻車」例子，都是一些比較不常見的問題，結果無法重現甚至被篡改過。

比如，一張流傳甚廣的截圖顯示，治療憂鬱症的方法是跳下金門大橋一了百了。事關人命，Google 特意解釋了，這個結果是偽造的。

▲ 被 Google 闢謠的截圖

與此同時，Google 沒有闢謠其他例子，而是把它們作為改進 AI 的養分。

火眼金睛的網友還發現，之前 Google I/O 精挑細選的示範中，其實也出現了事實錯誤，只不過更加隱蔽。

被問到如何修復卡住的底片相機，Google 建議打開相機蓋並輕輕地取下底片，但如果實際這樣操作基本上會直接毀掉整卷底片。

流年不利的 Google，也不是第一次在萬眾矚目的公共場合犯錯了。

2023 年 2 月，Google Bard 在展示時說，詹姆斯·韋伯太空望遠鏡是第一個拍攝太陽系外行星的望遠鏡。事實上，第一張太陽系外行星圖像是在 2004 年拍攝的。一個錯誤，付出市值縮水 1000 億美元的代價。

這次，除了 AI Overview 本身犯錯，還有一個糟糕的地方：這個功能，它不好關。一些熱心的開發者，連夜製作了幾個擴充功能，強制讓 Google 搜尋只顯示傳統的搜尋結果。

沒有方便的退出機制是 Google 的不對，AI Overview 基於傳統搜尋頁面，用戶量極大，萬一有不熟悉 AI 的用戶，盲目信任它的結果並被誤導，後果就不好說了。

「Google 怎麼會錯 30%？」

其實，AI Overview 被曝光的問題並不新鮮。AI 會犯錯，早就是公開的秘密。

就像是「吸煙有害健康」的標語一樣，AI Overview 下方標注著「生成式 AI 是實驗性的。」ChatGPT 也小字提醒「可能會犯錯。」

大型語言模型的基本原理，是利用預測下一個單詞或者短語生成出現機率最大的內容，有時可能會選擇不正確但看似合理的詞語，也就導致了虛假訊息或者說「幻覺」。

AI Overview 的胡言亂語也是幻覺的表現，它結合了大型語言模型生成的語句和網際網路的連結，可以引用內容來源，但不保證這些引用內容的準確。

哪怕用到了 RAG（檢索增強生成）等技術，將檢索系統與生成模型相結合，限制回答問題的範圍，也只能抑制幻覺，而非根治幻覺。

並且，內容來源本身的可信度存疑。就像是美國版的 PTT 論壇 Reddit 就是由網友貢獻內容，而非權威媒體。

今年 2 月，Google 與 Reddit 達成協議，將其內容用於訓練 AI 模型。當時就有人懷疑，會否導致「garbage in, garbage out」（垃圾進，垃圾出）的尷尬情況。

被「幻覺」困擾的不只 Google。去年 5 月，一位網友提問微軟的 New Bing 時，答案明顯錯誤，他點開參考連結時發現，作為引用來源的回答，居然也是 AI 生成的，遣詞造句盡顯 AI 風味。

既然 AI 搜尋都有幻覺，為什麼總是 Google 被炎上？

創立於 1998 年的 Google，如今成為搜尋的代名詞，身為 AI 巨擘，勢必拉高了外界的期待，也必須承擔犯錯的後果。

相反，Perplexity 的 CEO Aravind Srinivas 表示，輕裝上陣就是他們的優勢，字裡行間還有些驕傲。

如果你使用我們的產品，80% 表現不錯，你可能覺得印象深刻，但如果你使用 Google 的產品，只有 70% 正確，你可能會不解，Google 怎麼會錯 30%？

另外，AI 搜尋也導致了一個使用者認知上的轉變。

我們以前說「用 Google 搜尋」，而介紹搜尋的生成式 AI 功能時，Google 自己在官方部落格下的標題是「讓 Google 為你進行搜尋」，把主要和次要的關係微妙地倒轉了。

過去，Google 搜尋結果提供了那些可以回答你問題的連結。現在，Google 自己用 AI 回答你的問題。

也因此，傳播錯誤內容的矛頭，從訊息來源本身，轉移到了引用訊息內容的 Google 身上。這鍋，Google 不得不背。

AI 搜尋在提供事實之外，還有哪些可能性

既然幻覺已然是前提，我們應該換個角度看待 AI 搜尋，問自己一個問題：是不是我們的預期出了錯誤？

其實在 AI Overview 被批評前，Google CEO 就在近日 The Verge 的採訪中提到過，「幻覺」問題仍未解決，甚至可以說是大型語言模型固有的特徵。

他認為，大型語言模型不一定是瞭解事實的最佳管道，但這不代表大型語言模型是個廢柴，非黑即白的思維不可取，比如它可以創造詩歌、引入搜尋。

CEO 接受採訪也好，I/O 大會也罷，都是在向用戶傳遞一個觀念：不要只把 AI 搜尋當作對現有網頁的簡單總結，AI 發光發熱的地方還有很多。

但 AI Overview 沒能讓人滿意，怪不到用戶頭上，相比發表會上展示的神奇效果，現在的 AI Overview 並非完全形態，很多功能還沒有上線。

Google 搜尋主管 Liz Reid 在 I/O 示範了一個「多步推理」的例子，輸入「找到波士頓最好的瑜伽教室，提供優惠訊息，以及從燈塔山出發的步行時間」，AI 一步到位，以前要搜尋三次的，現在一次就夠了。

同時，AI Overview 未來還將有「規劃」能力，比如要求 AI 規劃三天的晚餐，使用者可以直接拿到一份食譜，並在這個過程中進行客製化，加上「素食」等需求，然後把這些結果輸出到文件中。

Google 的思路，和其他 AI 搜尋產品殊途同歸，就是讓搜尋更加可視化、更有互動性和個性化，用人話而非關鍵字溝通，節省查詢內容的時間，並且回答更加複雜和具體的問題。

平時的大多數問題，天氣如何，匯率多少，跳轉官網，其實利用簡單的傳統搜尋就可以得到答案。

但相對複雜的場景，AI 搜尋被寄予了厚望，畢竟它比起 ChatGPT 這類內容生成式 AI 相比，多了內容來源，更加方便查證，比起傳統搜尋，又能進行更多的研究、創作、規劃、創意發想…等。與其說是比傳統搜尋更好的百科全書，不如說更有助理的樣子。

當然，餅畫得再多，AI 艘下雲的幻覺還是讓人在使用這些功能時不免擔憂。為此有人建議，安全起見，用生成式 AI，別只看摘要，再用傳統的 Google 搜尋檢查一下。

延伸閱讀》

Google 宣布擴大開放 AI 搜尋功能，連視訊內容都能搜尋

Google I/O 發布 Veo 與 Imagen 3：生成超過 1 分鐘 1080p 影片、創造驚人的細節圖片

Google 全新 AI 模型「Gemini」推出，30 項測試都贏過 GPT-4v，比專家還強

如果想知道更多關於 Apple 的消息、教學、小技巧或是科技新知，一定要點擊以下任一 LOGO，追蹤我們的 Facebook 粉絲團、訂閱 IG、YouTube 以及 Telegram。

被群嘲的 Google AI 搜索，有種清澈的愚蠢

自製披薩的奶酪容易掉下來怎麼辦？

人一天裡應該吃多少石頭補充營養？

「Google 怎麼會錯 30%？」

AI 搜尋在提供事實之外，還有哪些可能性

分享此文：