OpenAI 最新 GPT 模型顯示幻覺問題驚人增加

BigGo Editorial Team
OpenAI 最新 GPT 模型顯示幻覺問題驚人增加

人工智慧在近年來取得了顯著進步,但最新一代語言模型出現了一個令人擔憂的趨勢。根據 OpenAI 自己的內部測試,他們最新、最複雜的人工智慧系統越來越容易編造資訊,這對其在現實世界場景中的可靠性和實際應用提出了嚴重質疑。

GPT 幻覺問題背後的令人不安的資料

OpenAI 對其最新模型的調查揭示了事實準確性的驚人倒退。該公司被譽為最強大系統的 GPT-o3 模型在 PersonQA 基準測試中回答有關公眾人物的問題時,有 33% 的時間出現幻覺。這比 OpenAI 之前的推理系統 o1 的幻覺率高出一倍多。更令人擔憂的是,新的 o4-mini 模型表現明顯更差,在同一測試中幻覺率達到 48%。當接受 SimpleQA 基準測試(提出更多一般知識問題)時,結果更加令人震驚 —— o3 有 51% 的時間出現幻覺,而 o4-mini 則達到驚人的 79% 幻覺率。相比之下,之前的 o1 模型在這項測試中的幻覺率為 44%。

OpenAI模型的幻覺率

模型 PersonQA 基準測試 SimpleQA 基準測試
GPT-o1 ~16.5% 44%
GPT-o3 33% 51%
GPT-o4-mini 48% 79%

高階推理的悖論

幻覺率的增加在人工智慧發展中呈現出一個令人困惑的矛盾。這些較新的模型被專門設計為能夠將複雜問題分解為邏輯步驟的推理系統,類似於人類的思維過程。OpenAI 此前聲稱,o1 在物理、化學、生物學和數學等領域的表現可以匹配或超過博士生。人們原本期望更復雜的推理會帶來更高的準確性,但事實似乎恰恰相反。一些行業觀察人士認為,使複雜推理成為可能的機制可能正在創造更多錯誤累積的機會。當這些模型嘗試連線不同的事實並評估多種可能的路徑時,它們似乎更容易進入虛構與事實難以區分的推測領域。

OpenAI 對日益嚴重問題的回應

OpenAI 已承認這個問題,但反駁了推理模型固有地遭受更高幻覺率的說法。OpenAI 代表 Gaby Raila 告訴 The New York Times :「幻覺並不是推理模型固有的更普遍問題,儘管我們正在積極努力減少我們在 o3 和 o4-mini 中看到的更高幻覺率。」該公司表示,需要更多研究來了解為什麼最新模型更容易編造資訊。這表明,即使對這些系統的建立者來說,潛在原因仍然是神秘的,突顯了大型語言模型的黑盒性質繼續挑戰人工智慧研究人員。

對人工智慧應用的實際影響

日益嚴重的幻覺問題對實際人工智慧應用構成了重大挑戰。隨著這些系統越來越多地部署在教室、辦公室、醫院和政府機構中,傳播虛假資訊的風險也在增加。法律專業人士已經因使用 ChatGPT 而不驗證其引用而面臨後果,類似的問題可能在無數其他環境中出現。人工智慧助手的基本價值主張——節省時間和減少工作量——在使用者必須仔細核實每個輸出時就被削弱了。這造成了一個悖論,即更強大的人工智慧工具實際上可能需要更多的人類監督,而不是更少。在這些幻覺問題得到解決之前,使用者最好對人工智慧生成的內容持相當懷疑態度,尤其是在準確性至關重要的情況下。

AI幻覺的主要隱患

  • 在專業環境中降低可信度
  • 依賴虛構資訊可能帶來的法律後果
  • 由於必要的事實核查而減少了節省時間的優勢
  • 在醫療保健或政府等高風險環境中部署面臨的挑戰
這張圖片突顯了AI系統背後的技術,強調了準確資訊在各個行業應用中的關鍵作用
這張圖片突顯了AI系統背後的技術,強調了準確資訊在各個行業應用中的關鍵作用

可信賴人工智慧的未來

為了實現人工智慧系統的承諾潛力,必須解決幻覺問題。該行業面臨著一個關鍵挑戰:如何保持較新模型的高階推理能力,同時提高其事實可靠性。OpenAI 和 Google、Anthropic 等競爭對手無疑正在努力解決這個問題,但解決方案仍然難以捉摸。目前的情況表明,人工智慧發展可能已經達到了這樣一個點:增加的複雜性是以犧牲可信度為代價的——至少暫時如此。隨著研究繼續,使用者必須保持平衡的觀點,欣賞這些系統的令人印象深刻的能力,同時認識到它們的重大侷限性。對於能夠像人類一樣推理同時保持機器般事實精確性的人工智慧的追求仍在繼續,但目前,人類驗證仍然是與最先進的人工智慧系統合作的重要組成部分。