OpenAI 推出具備視覺處理能力的高階推理模型 O3 和 O4-mini

BigGo Editorial Team

隨著科技公司不斷突破可能性的邊界，人工智慧繼續以驚人的速度發展。在人工智慧推理能力的重大進步中，OpenAI 推出了兩款新模型，這些模型在回應使用者查詢前能夠更加深入地思考。

新推理模型釋出

OpenAI 正式推出了兩款新的人工智慧推理模型：o3，該公司稱其為迄今為止最強大的推理模型，以及 o4-mini，一種更小更快的替代方案，相對於其規模和成本提供了令人印象深刻的效能。這些模型緊隨 OpenAI 最近推出的旗艦 GPT-4.1 模型，代表了該公司專注推理的人工智慧系統的下一步發展。與標準模型不同，這些推理模型經過專門訓練，會在回應前先思考，需要額外的處理時間來提供更高質量的回答。

新 OpenAI 模型概述

模型	描述	主要特點
o3	最強大的推理模型	視覺推理、工具整合、增強效能
o4-mini	更小、更快、更具成本效益	視覺推理、工具整合、速度最佳化
o4-mini-high	更高效能變體	增強功能同時保持效率

工具整合

網頁瀏覽
Python 程式設計
影像理解
影像生成

視覺理解整合

這些新模型最顯著的進步可能是它們能夠透過影像進行思考的能力。o3 和 o4-mini 現在都可以將視覺資訊直接整合到推理過程中，而不僅僅是描述它們所看到的內容。這種能力使模型能夠處理草圖、白板，甚至低質量或模糊的影像。模型可以將影像操作作為分析的一部分，包括放大特定元素或旋轉影像以更好地理解內容。這種視覺推理代表了人工智慧在跨不同格式處理和利用資訊能力方面的重大進步。

代理工具使用

另一個重大突破是模型能夠在推理過程中獨立使用所有 ChatGPT 工具。這包括網頁瀏覽、Python 程式設計、影像理解和影像生成功能。OpenAI 將此描述為朝著更具代理性的 ChatGPT 邁進的一步，它可以代表使用者獨立執行任務。實際上，這意味著模型可以自主決定使用哪些工具來解決複雜的多步驟問題——類似於人們在需要時會拿起計算器。在演示中，研究人員展示了 o3 如何分析科學研究海報，瀏覽網際網路獲取額外資訊，並放大影像的不同元素以生成全面的答案。

效能改進

據 OpenAI 表示，即使不使用新的工具訪問功能，o3 和 o4-mini 在各種基準測試中的表現也優於其前代產品。這些模型展示了增強的指令遵循能力，並提供更有用、更可驗證的回答。雖然 o3 代表了具有最大能力的高階產品，但 o4-mini 已經過最佳化，以較低的成本和更高的速度提供強大的效能，使高階推理更加易於獲取。

可用性和訪問

新模型立即向 ChatGPT Plus、Pro 和 Team 訂閱使用者開放，在模型選擇器中顯示為 o3、o4-mini 和 o4-mini-high。它們將取代之前的推理模型 o1、o3-mini 和 o3-mini-high。Pro 使用者將在未來幾周內獲得 o3-pro 的訪問許可權，但在此之前將繼續可以訪問 o1-pro。開發者也可以透過 OpenAI 的 API 訪問這些模型。

其他公告

除了這些新模型外，OpenAI 還推出了 Codex CLI，這是一個在使用者終端本地執行的開源編碼代理。這個工具提供了一種簡單的方法，將人工智慧模型（包括 o3 和 o4-mini）與使用者自己的程式碼和任務連線起來。預計不久將支援 GPT-4.1。該公司還宣佈了一項 100 萬美元的計劃，透過 API 積分以每次 25,000 美元的增量提供贈款，支援使用這些技術的早期專案。

安全考慮

OpenAI 強調，兩款新模型在釋出前都經過了廣泛的安全測試。它們在公司的安全計劃下進行了壓力測試，並根據其更新的準備框架進行了評估，詳細結果可在完整的系統卡中檢視。