人工智慧界正陷入一場爭議,起因是有關 OpenAI 獲取 FrontierMath 基準測試題的揭露,這引發了對其最新 O3 模型效能報告的嚴重質疑。這一事態發展在人工智慧模型評估的透明度和公平性方面引發了激烈討論。
![]() |
---|
這張圖片展示了一場關於 OpenAI 獲取 FrontierMath 測試材料的爭議性討論,突顯了社群對人工智慧評估透明度的擔憂 |
FrontierMath 爭議
來自 Epoch AI 承包商在 LessWrong 論壇的一項重要披露顯示,OpenAI 不僅資助了 FrontierMath 基準測試的開發,還獲得了其題庫的特權訪問權。這一資訊直到2024年12月20日 O3 釋出時才被公開,這使得該模型報告的25.2%準確率(遠超競爭對手不到2%的表現)受到質疑。
模型效能對比:
- OpenAI O3 在 FrontierMath 測試中的準確率為25.2%
- GPT-4 和 Gemini 的準確率均低於2%
基準測試的重要性
FrontierMath 是高等數學推理領域的一個關鍵評估工具,由 Epoch AI 與超過60位精英數學家合作開發,其中包括菲爾茲獎獲得者和國際數學奧林匹克競賽的出題人。該基準測試包含數百道覆蓋各數學領域的具有挑戰性的原創問題,這些問題極其複雜,即使人類專家可能也需要數天才能解決。
FrontierMath 基準測試覆蓋範圍:
- 數學領域:數論、實分析、代數幾何、範疇論
- 貢獻者:包括菲爾茲獎獲得者在內的60多位頂尖數學家
- 問題難度:人類專家需要花費數小時到數天時間才能解決
學術界的回應與批評
斯坦福大學數學博士候選人 Carina Hong 提供了六位參與 FrontierMath 開發的著名數學家的證詞,揭示他們並不知曉 OpenAI 的獨家訪問權。大多數人表示,如果事先知道這些安排,他們可能會拒絕參與。
Epoch AI 的回應
Epoch AI 的副主任兼聯合創始人 Tamay Besiroglu 承認了透明度的缺失,解釋稱合同義務阻止了早期披露。雖然堅持 OpenAI 的資助僅限於開發而未影響測試內容,但他們確認 OpenAI 可以訪問大多數問題和解答,只排除了用於獨立驗證的保留測試集。
專家批評
著名人工智慧專家 Gary Marcus 對這一情況提出強烈批評,認為 OpenAI 的 O3 演示具有誤導性且不符合科學規範。爭議特別集中在未披露哪些問題出現在訓練資料中,以及缺乏詳細推理過程記錄這兩個方面。
未來影響
隨著爭議的展開,OpenAI 宣佈了其 Operator 專案的進展,CEO Altman 計劃於2025年1月30日與美國政府進行閉門簡報會。這一時機安排引發了對危機管理策略和人工智慧行業實踐更廣泛影響的猜測。